AI 绘画技术原理解析 中国汽车下半场,没有捷径可走

2023-05-31 0 215

随着 AIGC 的产业发展,AI 油画逐渐步入我们的生活和组织工作。责任编辑将探讨 AI 油画控制技术的方方面面。从影像聚合控制技术迈进的里程碑式事件,到对 AI 油画控制技术的广度科学普及,再到未来的产业行业发展趋势预测,相信责任编辑将能够为大家阐明 AI 油画另一面的神秘盖头,一起来深入介绍其控制技术基本原理吧。

就要通过三首诗来对 AI 油画商品展开预测,首篇主要就科学普及影像聚合控制技术基本原理;第二卷是预测 AI 油画商品商品化破冰,算是我近期对 AI 油画商品介绍的一个总结输入,以下是首篇内容。2022 年 9 月两幅名为《外太空音乐厅》的油画在位数艺术类型比赛中乘势捧杯,这个愤慨五座的油画由游戏雕塑家 Jason Allen 采用 Midjourney 完成,AI 油画步入现代人的视线。

现代人第一次意识到 AI 做出来的画可以如此精致,意识到 AI 油画可能如同当年照相机、位数油画的出现一样,会给油画设计行业带来一场深刻的革新。

这首诗从商品经理视点,介绍 AI 油画商品的另一面有什么样演算法数学模型、他们的控制技术基本原理是什么?不同控制技术的边界线在这儿,采用情景在这儿?商品副经理要懂得将演算法合理的女团采用,以满足日常组织工作的需求,实现商品目标。

AI 油画产业发展的主要结点

AI 油画的下层基本原理

主流的影像聚合数学模型导出

AI 油画的移动性有什么样

AI 油画的控制技术科学研究趋势

一、AI 油画产业发展的主要就结点

1. 2012 年 AI 画出了一只模糊不清的猫

伏彩瑞和乔纳森蒂姆采用了 1.6 亿个 CPU 和 You Tube 上 1000 万本猫的相片,用时 3 天时间体能训练了彼时最大的广度自学数学模型,最终聚合了两张猫脸。

虽然这张猫的相片看起来十分模糊不清,而且费时又十分久,但对彼时的计算机听觉来说具有关键突破意义的尝试,迈入了 AI 油画科学研究的崭新方向。

为什么彼时基于广度自学数学模型的 AI 油画那么麻烦?主要就是整个数学模型需要利用大量标示好的体能训练数据,根据输入和所对应的预期输入,不断地修正数学模型内部的模块展开相匹配。例如聚合两张 512*512 *3(RGB)的画,要将这些画素有规律的女团,会涉及到庞大模块插值修正的过程。

2. 2015 年爱华图关键的反转

2015 年出了一项人工智慧的新进展——智能影像识别。机器自学可以对影像中的物体贴上标签,然后将这些标签转化成自然语言描述。

一些科学研究人员产生了好奇,如果把这个过程反向,通过文字来聚合画面,是否也能实现呢?

于是他们向计算机数学模型输入了一些文字,看看能产生什么原因,结果数学模型真的聚合了一些结果相片。如下图中所示,这时产生了 32*32 画素的小相片,基本很难辨别出啥,但已经预示着无限的可能性。

3. 2021 年 OpenAI 宣布 Dalle

4. 2022 年迈入 AI 油画的元年

2 月 Disco diffusion V5 发布

在 2022 年的 2 月,由 somnai 等几个开源社区的工程师做了一款基于扩散数学模型的 AI 绘图聚合器—— Disco diffusion。从它开始,AI 油画步入了产业发展的快车道,潘多拉魔盒已经打开。

越来越多的人开始采用 Disco diffusion 创作作品,但是它有一个致命的缺点就是它聚合的画面都十分的抽象,这些画面用来聚合抽象画还不错,但是几乎无法聚合具象的人。

由于聚合速度较慢,操作复杂、聚合的风格相对比较抽象, 目前采用的人没有 Stable Diffusion 和 Midjourney 那么多。

3 月 Midjouney

Midjouney 选择搭载在 discord 平台,借助 discord 聊天式的人机交互方式,不需要之前繁琐的操作,也没有 Disco diffusion 十分复杂的模块调节,你只需要向聊天窗口输入文字就可以聚合影像。更关键的是,Midjouney 聚合的相片效果十分惊艳,普通人几乎已经很难分辨出它产生的作品,竟然是 AI 油画聚合的。

4 月 DALL · E 2

4 月 10 日,之前提到过的 OpenAI 推出的第二代影像聚合人工智慧数学模型 DALL · E 2。与第一代 DALL-E 相比,DALL-E 2 在影像质量、聚合速度和多样性等方面都有显著提升。影响力不及 Chat GPT,个人消费者对他没有那么喜欢,因为他聚合的相片的风格更倾向于更一本正经,比较传统一些。

7 月 Stable diffusion

7 月 29 日 一款叫 Stable diffusion 的 AI 聚合器开始内测,现代人发现用它聚合的 AI 油油画品,其质量可以媲美 DALL · E 2,而且还没那么多限制。

Stable diffusion 内测不到 1 个月,正式宣布开源,开源让 AI 油画控制技术的普及,也是让领域能有更多人开发贡献,加快控制技术的应用产业发展。

二、AI 油画的下层基本原理

神经网络都是用数学公式表示的,没有实体结构,图里面的这些圈和连线是对神经网络的一种可视化呈现,方便我们理解。

这图中圆圈里都有一个计数器,当这个计数器接收到左边连线传来的数时,会展开一次简单的计算,然后把计算结果(也是一个数)输入,通过连线传给右边的圆圈,继续重复类似的过程,直到位数从最右侧的圆圈输入。

人类的不同神经元之间连接的强度是不一样的,有些粗一点,有些细一点。正是这些连接强度,让我们产生了记忆和知识。

对于神经网络来说,也有相似的规律:圆圈和圆圈之间的连线的 ” 权重 ” 不同。

神经网络左侧输入一些列位数,神经网络会按照圆圈里的计算规则及连线的权重,把位数从左到右计算和传递,最终,从最右侧的圆圈输入一系列位数。

那如何让神经网络画两幅画?基本原理其实比较好理解,首先需要将相片转化成计算机能理解的位数语言,对于计算机而言相片就是一串位数,每个画素颜色由 3 个 RGB 数值表示。

然后将一串数字输入到没有体能训练过得神经网络数学模型,也会聚合一串位数,只不过解码后可能就是两张乱码相片,所以需要大量数据和不断修正演算法模块的权重,最终体能训练一个能画猫的数学模型。例如当输入相片猫或文字猫,都能转化成一串位数到数学模型中,输入一个正确的猫相片。

影像聚合数学模型是在不断演化的,从最早的 VAE 到风靡一时的 GAN,到当今的王者 Diffusion 数学模型,那我们接下来介绍下不同数学模型的控制技术基本原理是什么。

三、主流的影像聚合数学模型导出

1. VAE — 打开聚合数学模型的大门

VAE 是 AE 的升级版本,AE 由一个编码器网络和一个解码器网络组成。编码器将输入数据映射到潜在空间中的隐变量表示,解码器则将隐变量映射回重构的数据空间。

如上图,假设有两张影像,通过编码器提取了多种特征,比如特征 1 字体颜色、特征 2 字体粗细、特征 3 字体形状。传统的自编码器对输入影像的潜在特征表示为具体的数值,比如颜色 =0.5,粗细 =0.8,形状 =0.6。这些数值通过解码器恢复出于原影像相似的影像。

那这样的数学模型解决什么问题呢?

主要就应用在降维 / 可视化和去噪的情景中。

我们生活存在大量的文本、影像、语音数据,这些数据存在大量的冗余信息,理论上是可以用极少的向量来表示,所以可以用来影像压缩处理,这跟传统的影像压缩控制技术完全不一样。后面讲到的 stable diffusion 数学模型就用到 AE 的潜空间来展开低维度的降噪和聚合真实影像。

在应用情景中也能发现,他仅适合用于重建影像,不适用于聚合新的影像,所以有了 VAE 的诞生。

VAE 与 AE 的区别在,VAE 在编码器输入的分布曲线值,而非离散值,这样的话输入的影像就跟压缩向量就不是直接对应关系,这样就可以聚合新的影像。

如上图,我们将每个特征通过概率分布展开表示。比如颜色的取值范围为 [ -1,1 ] ,粗细的取值范围为 [ -3,3 ] ,形状的取值范围为 [ -5,5 ] 。我们可以在范围内对每个特征展开取值,然后通过解码器聚合新影像。例如给两张人脸可以聚合不同表情的人脸。

VAE 不仅除了应用在压缩、去噪和聚合新的影像也可以应用在影像分割上,例如自动驾驶的道路检测。

但 VAE 聚合影像存在局限性,聚合影像的质量不高,存在模糊不清和不真实。

2. GAN — 创建 ” 以假乱真 ” 的新数据GAN 包含了两个数学模型,聚合数学模型(Generator ) 和判别数学模型(Discirminator), 给聚合数学模型随机输入噪声,聚合相片;给判别数学模型输入真实数据和聚合的相片,判别聚合的相片是真的还是假的。

刚开始聚合器聚合的相片给判别器,判别器一看就是假的,打回去让聚合器重新聚合,同样判别数学模型也要提升自己的判别水平,经过无数次的对抗,直到聚合数学模型聚合的相片骗过判别数学模型。

GAN 的应用情景有什么样?

GAN 的应用情景十分广泛,在影像聚合,聚合不存在的人物、物体、动物;影像修复、影像增强、风格化和艺术的影像创造等。不一一列举,想要详细介绍的可以看链接:https://zhuanlan.zhihu.com/p/75789936

曾经大红大紫的 GAN 为什么会被 Diffusion 取代 ?

1.GAN 的体能训练过程过程相对不稳定,聚合器和判别器之间的平衡很容易打破,容易导致数学模型崩溃或崩塌问题 ;

数高质量的影像就足以愚弄判别者 ;

3. 聚合的影像分辨率较低 ;

因此,以 GAN 数学模型难以创作出有创意的新影像,也不能通过文字提示聚合新影像。

3. Diffusion — 影像聚合数学模型的皇冠

目前主流国内外靠谱的相片聚合控制技术主要就基本都是基于 Diffusion Model ( 扩散数学模型 ) 来展开的实现,包括不限于 Stable Diffusion MidJourney 、 OpenAl DALL.E 、DiscoDiffusion、Google lmagen 等主流商品,但是实际控制技术在处理方面又各有区别,也导致会有不司的表现形态,核心一方面是下层数学模型体能训练的图语料不同,另外一个方面是一些演算法方面的微调区别。

Diffusion 数学模型聚合相片的过程可以理解像是石雕的过程,从一块石头经过不断的雕刻变成一件艺术作品,从一个噪点影像不断去噪聚合两张真实影像。

那扩散数学模型是怎么体能训练的?

Diffusion 数学模型的体能训练可以分为两个部分:

前向扩散过程(Forward Diffusion Process) —— 向相片中不断添加噪声,直到相片变成完全的噪点相片的过程。

反向扩散过程(Reverse Diffusion Process) —— 是将噪点相片不断的还原为原始相片的过程。

官方给出的有 3 个体能训练步骤,如下图:

对于每张影像先随机聚合一个长 T,T 表示从两张原始图到高斯噪声图要多少次。

给原始相片添加 T 次高斯噪声,不同 T 时影像添加的噪声广度会有所不同。

将 T 和对应的相片放入到 UNet 数学模型中体能训练,这样还原相片就能预测 T 步骤中的噪声。

反向扩散体能训练过程步骤如下图:

采样两张高斯噪声图,假如 T 设置为 1000

将高斯噪声和 T 输入到 UNet 数学模型中预测噪声,下一步的高斯噪声为上一步高斯噪声减去预测噪声,以此步骤直到 T 为 0

T 为 0 时还原最终的影像

Diffusion 数学模型的大数据体能训练,数据体能训练来自于 LAION-5B 包含 58.3 文本 – 影像对,并且是筛选了评分高的相片展开体能训练。通过大数据数学模型体能训练,让数学模型具有聚合影像的能力。有了聚合影像能力还不够,需要能听得懂需求的能力,根据文字输入就能聚合影像。

4. CLIP —打造图文相匹配

CLIP 是 OpenAI 在 2021 年开源的数学模型,一种基于对比文本 – 影像对的预体能训练方法或者数学模型,确保计算机在文字描述和影像之间形成互通。

在 CLIP 推出一年后,几个开源社区的工程基于 CLIP+Diffusion 就开发了 Disco Diffusion, 后面的 midjourney 和 stable diffusion 数学模型都有采用 CLIP 数学模型。

据统计,CLIP 数学模型搜集了网络上超过 4 亿的 ” 文本 – 影像 ” 作为体能训练数据,为文本聚合影像 / 视频应用的破冰奠定了基础,实现了跨模态的创新。以上影像聚合相关的数学模型都以导出完,那我们拿 Stable Diffusion 来展开梳理下整个影像聚合的流程是怎么样和整体架构 , 其他影像聚合数学模型大致也差不多。

5. Stable Diffusion 数学模型结构

Stable Diffusion 主要就有三部分组成,画素空间、潜在空间 、条件机制。

画素空间 : 采用的 AE 数学模型将影像压缩到潜在空间体能训练和将聚合的低维向量转化成真实影像,这样提升聚合速度和降低算力要求。

潜在空间:Diffusion 数学模型在潜在空间展开加噪和去噪的体能训练 , 去噪的过程需要导入条件,聚合符合预期相片。

条件机制:条件可以是文字、影像、音频、视频,将条件转化成向量值,作为 Diffusion 数学模型聚合过程中的引导因子。

Stable Diffusion 影像聚合流如下:通过以上扩散数学模型基本原理大致也明白 AI 聚合的影像带有较大的随机性,聚合的每张影像都不一样,这种随机性带来的好处是无穷无尽的想象力,但同时也面临着不可控,有点靠运气,聚合理想的影像只能多尝试。AI 油画想要扩大商品化破冰,必须要解决精准移动性问题。

四、AI 油画的移动性有什么样

除了输入文字、垫图的方式还最流行的微调数学模型叫 Lora 和最近几个月更新的 Controlnet 来控制相片的聚合,这几个小数学模型可以理解为 Stable Diffusion 的一种插件。

1. Lora 数学模型

在不修改 SD 数学模型的前提下,教会利用少量数据体能训练出只可意会不可言传的风格,实现定制化需求,对算力的要求不高,数学模型适中在几十 MB 大小。

Lora 必须搭配在 SD 数学模型上一起采用。

Lora 可以自己体能训练也可以在著名的数学模型分享网站 https://civitai.com/ 上下载,有大量 Lora 数学模型,其中 SD 数学模型仅有 2000 个,剩下 4 亿个基本都是 LoRA 等小数学模型。

例如想要聚合下面风格的汽车,我们找到这款不同角度的一些相片作为 Lora 体能训练。聚合汽车的风格跟想要风格汽车很相似。

微调数学模型不止有 Lora 数学模型,还有 Textual Inversion、Hypernetwork、Dreambooth。只是 Lora 数学模型比较稳定,采用门槛相对低,所以目前比较流行。

2. Controlnet 数学模型

Controlnet 就是控制网的意思,其实就是在大数学模型外部通过叠加一个神经网络来达到精准控制输入的内容。很好的解决了单纯的关键词的控制方式无法满足对细节控制的需要,比微调数学模型更进一步对影像聚合的控制。

想要对 Controlnet 有更详细的介绍可查看如下链接:

https://zhuanlan.zhihu.com/p/625707834

https://mp.weixin.qq.com/s/-r7qAkZbG4K2Clo-EvvRjA

https://mp.weixin.qq.com/s/ylVbqeeZc7XUHmrIrNmw9Q

五、AI 油画的控制技术科学研究趋势

1. 更强的语义理解

采用 AI 油画聚合高质量、精致的聚合影像需要在在 prompt 做很多努力,可见 prompt 对最终效果的影响。因此,如何降低用户采用 prompt 的门槛,让 AI 更能理解语义,值得科学研究的方向。

2. 更精准可控聚合

目前可控聚合是一个大火的领域,也有像 ControlNet 这样的精品,可以通过输入简单的线稿图、人体姿态图、分割图、广度图等聚合满足条件的内容,但距离真正的精准控制仍有差距。可喜的是,可控聚合产业发展得越来越快,精准控制并不是遥不可及,影像聚合 AI 也会随之拓展其应用边界线,如一致性的视频聚合、精确的构图设计都会改变许多领域的组织工作方式。

最近,来自马克斯普朗克计算机科学科学研究所、MIT CSAIL 和谷歌的科学研究者们科学研究了一种控制 GAN 的新方法 DragGAN,能够让用户以交互的方式「拖动」影像的任何点精确到达目标点。

这种崭新的控制方法十分灵活、强大且简单,有手就行,只需在影像上「拖动」想改变的位置点(操纵点),就能合成你想要的影像。

3. 运算速度更快

影响 Diffusion 在聚合相片的速度除了显卡的性能,很关键一个原因是,每聚合两张相片需要去噪 1000 次,速度相对还不是很快,为了能在解决这个问题,OpenAI 曾在 3 月发布了一篇重磅、且含金量十足的论文「一致性数学模型 Consistency Models」,在体能训练速度上颠覆了扩散数学模型,能够 『一步聚合』 ,比扩散数学模型更快一个数量级完成简单任务,而且用到的计算量还要少 10-2000 倍。

以上就是从影像聚合控制技术里程事件到对影像聚合控制技术的科学普及以及未来的产业行业发展趋势预测,我相信通过以上内容很容易就理解了 AI 油画另一面的控制技术。下一篇对 AI 油画商品商品化破冰展开预测。

作者:Rzhiyi,8 年商品副经理经验,做过 AI 皮肤检测系统和 SaaS 类产品

责任编辑由 @Rzhiyi 原创发布于人人都是商品副经理。未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议

提供信息存储空间服务。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务