萧箫 丽翔 凹非寺
物理位 | 社会公众号 QbitAI给写字AI管吻buff,画起影像就像开了挂。
管吻消化系统骨头存取buff,Stable Diffusion间接快进到聚合3DACG:
管吻抽象化到爆的设计图buff,AIBc5艺术风格聚合“完全相同”的少脉:
就连袖珍“AI恶棍”的脚部技术细节,也能在掌控下画得活灵活现:
那个名为ControlNet的新AI应用程序,能说是给写字AI来了最终的“阿维兹县”——
原先AI无法控制的脚部技术细节、总体构架,有了它后,加之Stable Diffusion这种的蔓延数学模型,不足以聚合任何人现代人想的影像。
收到不出三天,ControlNet就在GitHub感冒了,现阶段早已狂揽4.6k星:
△“让我们掌控蔓延数学模型”
各种效果图更是在推特上爆火,试玩过的网友直呼:
游戏结束!
所以,那个ControlNet究竟给蔓延数学模型加了什么buff?
给AI写字数学模型加buff
ControlNet的原理,本质上是给预训练蔓延数学模型增加一个额外的输出,掌控它聚合的技术细节。
这里能是各种类型的输出,作者给出来的有8种,包括设计图、边缘影像、语义分割影像、消化系统关键点特征、霍夫变换检测直线、深度图、消化系统骨头等。
那么,让大模型专业委员会“按输出条件聚合图片”的原理是什么呢?
ControlNet总体思路和构架分工如下:
具体来说,ControlNet先复制一遍蔓延数学模型的权重,得到一个“可训练副本”(trainable copy)。
相比下,原蔓延数学模型经过几十亿张图片的预训练,因此参数是被“锁定”的。而那个“可训练副本”只需要在特定任务的小数据集上训练,就能专业委员会条件掌控。
据作者表示,即使数据量很少(不超过5万张图片),数学模型经过训练后条件掌控聚合的效果也很好。
“锁定数学模型”和“可训练副本”通过一个1×1的卷积层连接,名为“0卷积层”。
0卷积层的权重和偏置初始化为0,这种在训练时速度会非常快,接近微调蔓延数学模型的速度,甚至在个人设备上训练也能。
例如一块英伟达RTX 3090TI,用20万张影像数据训练的话只需要不出一个星期:
作者基于当前大火的Stable Diffusion进行了具体实现,主要构架如下:
针对不同的输出,作者也给出了对应不同的数学模型,聚合效果也都不错。
例如这是采用Canny边缘检测算法检测出的边缘,用于聚合影像:
这是基于霍夫变换的直线检测算法聚合的直线设计图,用于聚合各种艺术风格的室内设计:
当然,自己作画也能,例如这是基于用户设计图聚合的小龟:
提取深度图,并让AI聚合一幅相似的影像,间接举一反五:
语义分割下的游泳池影像,不仅水里有倒影技术细节,建筑也变化多样:
不过现阶段来看,最受欢迎的还是基于消化系统姿态估计算法,掌控ACG人物的动作聚合:
看到这里,是不是早已有了大胆的想法?(手动狗头)
曾开发爆火AI上色应用程序
那个项目的作者Lvmin Zhang,2021年本科毕业于东吴大学,现阶段在斯坦福大学读博。
他最出名的项目之一,是2017年开发的AI上色应用程序style2paints,现阶段GitHub上早已有15.9k星。
style2paints也经过了好几次迭代,现阶段即将更新到第五版。
这是第四版的效果,只需要线稿,AI就能自动给你的影像完成上色:
除了那个项目以外,他也是CV顶会的常客了。
One More Thing
值得一提的是,现在早已有基于ControlNet的国内产品上线了。
那个产品名为稿定AI,包含照片转插画、插画线稿上色、插画优化翻新等功能,正是基于ControlNet打造。
作画效果大概是酱婶的:
感兴趣的小伙伴们能去试玩一波了~
项目地址:https://github.com/lllyasviel/ControlNet
参考链接:[1]https://lllyasviel.github.io/Style2PaintsResearch/
[2]https://twitter.com/search?q=controlnet&src=typed_query
[3]https://www.gaoding.com/ai— 完 —
物理位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态