随着AIGC的产业发展，AI油画逐渐步入我们的生活和组织工作。责任编辑将深入探讨AI油画控制技术的方方面面。从影像聚合控制技术迈进的里程碑式事件，到对AI油画控制技术的广度科学普及，再到未来的产业行业发展趋势预测，相信责任编辑将能够为大家阐明AI油画另一面的谜样盖头，一起来深入介绍其控制技术基本原理吧。

AI绘画技术原理解析17年过去了，“彭宇案”法官被降职，老太太去世，彭宇：我撒谎了

就要通过三首诗来对AI油画商品进行预测，首篇主要就科学普及影像聚合控制技术基本原理；第二卷是预测AI油画商品商品化破冰，算是我近期对AI油画商品介绍的一个总结输入，以下是首篇内容。

2022年9月两幅名叫《外太空音乐厅》的油画在位数艺术类型比赛中乘势捧杯，这个愤慨五座的油画由格斗游戏雕塑家Jason Allen采用Midjourney完成，AI油画步入现代人的视线。

人们第一次意识到AI做出来的画可以如此精致，意识到AI油画可能如同当年照相机、位数油画的出现一样，会给油画设计行业带来一场深刻的革新。

这首诗从商品副经理视点，介绍AI油画商品的另一面有什么样演算法数学模型、他们的技术基本原理是什么？不同控制技术的边界线在这儿，采用情景在这儿？商品副经理要懂将演算法合理的组合采用，以满足日常生活组织工作的需求，实现商品目标。

AI油画产业发展的主要就结点AI油画的下层基本原理非主流的影像聚合数学模型导出AI油画的可控性有什么样AI油画的控制技术科学研究趋势

一、AI油画产业发展的主要就结点

1. 2012年AI画出了一只模糊不清的猫

伏彩瑞和乔纳森蒂姆采用了1.6亿个CPU和You Tube上1000万本猫的相片，用时3天时间体能训练了彼时最大的广度自学数学模型，最终聚合了一张猫脸。

虽然这张猫的相片看上去十分模糊不清，而且费时又十分久，但对彼时的计算机听觉来说具有重要突破意义的试著，迈入了AI油画科学研究的崭新方向。

为什么彼时基于广度自学数学模型的AI油画那么麻烦事？主要就是整个数学模型需要利用大量标示好的体能训练数据，根据输入和所对应的预期输入，不断地调整数学模型内部的参数进行匹配。例如聚合一张512*512 *3（RGB）的画，要将这些像素有规律的组合，会涉及到庞大参数迭代调整的过程。

2. 2015年文生图重要的拐点

2015年出了一项人工智能的重大进展——智能影像识别。机器自学可以对影像中的物体贴上标签，然后将这些标签转化成自然语言描述。

一些科学研究人员产生了好奇，如果把这个过程反向，通过文字来聚合画面，是否也能实现呢？

于是他们向计算机数学模型输入了一些文字，看看能产生什么原因，结果数学模型真的聚合了一些结果相片。如下图中所示，这时产生了32*32像素的小相片，基本很难辨别出啥，但已经预示着无限的可能性。

3. 2021年OpenAI宣布Dalle

因为他实现了输入文字就可以油画创作的可能，比之前聚合的相片质量高很多。

4. 2022年迈入AI油画的元年

2月 Disco diffusion V5发布

在2022年的2月，由somnai等几个开源社区的工程师做了一款基于扩散数学模型的AI绘图聚合器——Disco diffusion。从它开始，AI油画步入了产业发展的快车道，潘多拉魔盒已经打开。

越来越多的人开始采用Disco diffusion创作作品，但是它有一个致命的缺点就是它聚合的画面都十分的抽象，这些画面用来聚合抽象画还不错，但是几乎无法聚合具象的人。

由于聚合速度较慢，操作复杂、聚合的风格相对比较抽象，目前采用的人没有Stable Diffusion 和Midjourney那么多。

3月 Midjouney

Midjouney选择搭载在discord平台，借助discord聊天式的人机交互方式，不需要之前繁琐的操作，也没有Disco diffusion十分复杂的参数调节，你只需要向聊天窗口输入文字就可以聚合影像。更关键的是，Midjouney聚合的相片效果十分惊艳，普通人几乎已经很难分辨出它产生的作品，竟然是AI油画聚合的。

4月 DALL·E 2

4月10日，之前提到过的OpenAI推出的第二代影像聚合人工智能数学模型DALL·E 2。与第一代DALL-E相比，DALL-E 2在影像质量、聚合速度和多样性等方面都有显著提升。影响力不及Chat GPT，个人消费者对他没有那么喜欢，因为他聚合的相片的风格更倾向于更一本正经，比较传统一些。

7月 Stable diffusion

7月29日一款叫Stable diffusion的AI聚合器开始内测，现代人发现用它聚合的AI油油画品，其质量可以媲美DALL·E 2，而且还没那么多限制。

Stable diffusion内测不到1个月，正式宣布开源，开源让AI油画控制技术的普及，也是让领域能有更多人开发贡献，加快控制技术的应用产业发展。

二、AI油画的下层基本原理

神经网络都是用数学公式表示的，没有实体结构，图里面的这些圈和连线是对神经网络的一种可视化呈现，方便我们理解。

这图中圆圈里都有一个计数器，当这个计数器接收到左边连线传来的数时，会进行一次简单的计算，然后把计算结果（也是一个数）输入，通过连线传给右边的圆圈，继续重复类似的过程，直到位数从最右侧的圆圈输入。

人类的不同神经元之间连接的强度是不一样的，有些粗一点，有些细一点。正是这些连接强度，让我们产生了记忆和知识。

对于神经网络来说，也有相似的规律：圆圈和圆圈之间的连线的“权重”不同。

神经网络左侧输入一些列位数，神经网络会按照圆圈里的计算规则及连线的权重，把位数从左到右计算和传递，最终，从最右侧的圆圈输入一系列位数。

那如何让神经网络画两幅画？

基本原理其实比较好理解，首先需要将相片转化成计算机能理解的位数语言，对于计算机而言相片就是一串位数，每个像素颜色由3个RGB数值表示。

然后将一串位数输入到没有体能训练过得神经网络数学模型，也会聚合一串位数，只不过解码后可能就是一张乱码相片，所以需要大量数据和不断调整演算法参数的权重，最终体能训练一个能画猫的数学模型。例如当输入相片猫或文字猫，都能转化成一串位数到数学模型中，输入一个正确的猫相片。

影像聚合数学模型是在不断演化的，从最早的VAE到风靡一时的GAN，到当今的王者Diffusion数学模型，那我们接下来介绍下不同数学模型的控制技术基本原理是什么。

三、非主流的影像聚合数学模型导出

1. VAE — 打开聚合数学模型的大门

VAE是AE的升级版本，AE由一个编码器网络和一个解码器网络组成。编码器将输入数据映射到潜在空间中的隐变量表示，解码器则将隐变量映射回重构的数据空间。

如上图，假设有一张影像，通过编码器提取了多种特征，比如特征1字体颜色、特征2字体粗细、特征3字体形状。传统的自编码器对输入影像的潜在特征表示为具体的数值，比如颜色=0.5，粗细=0.8，形状=0.6。这些数值通过解码器恢复出于原影像相似的影像。

那这样的数学模型解决什么问题呢？

主要就应用在降维/可视化和去噪的情景中。

我们生活存在大量的文本、影像、语音数据，这些数据存在大量的冗余信息，理论上是可以用极少的向量来表示，所以可以用来影像压缩处理，这跟传统的影像压缩控制技术完全不一样。后面讲到的stable diffusion 数学模型就用到AE的潜空间来进行低维度的降噪和聚合真实影像。

在应用情景中也能发现，他仅适合用于重建影像，不适用于聚合新的影像，所以有了VAE的诞生。

VAE与AE的区别在，VAE在编码器输出的分布曲线值，而非离散值，这样的话输入的影像就跟压缩向量就不是直接对应关系，这样就可以聚合新的影像。

如上图，我们将每个特征通过概率分布进行表示。比如颜色的取值范围为[-1,1]，粗细的取值范围为[-3,3]，形状的取值范围为[-5,5]。我们可以在范围内对每个特征进行取值，然后通过解码器聚合新影像。例如给一张人脸可以聚合不同表情的人脸。

VAE不仅除了应用在压缩、去噪和聚合新的影像也可以应用在影像分割上，例如自动驾驶的道路检测。

但VAE聚合影像存在局限性，聚合影像的质量不高，存在模糊不清和不真实。

2. GAN — 创建“以假乱真”的新数据

GAN包含了两个数学模型，聚合数学模型（Generator)和判别模型（Discirminator）,给聚合数学模型随机输入噪声，聚合相片；给判别数学模型输入真实数据和聚合的相片，判别聚合的相片是真的还是假的。

刚开始聚合器聚合的相片给判别器，判别器一看就是假的，打回去让聚合器重新聚合，同样判别数学模型也要提升自己的判别水平，经过无数次的对抗，直到聚合数学模型聚合的相片骗过判别数学模型。

GAN的应用情景有什么样？

GAN的应用情景十分广泛，在影像聚合，聚合不存在的人物、物体、动物；影像修复、影像增强、风格化和艺术的影像创造等。不一一列举，想要详细介绍的可以看链接：https://zhuanlan.zhihu.com/p/75789936

曾经大红大紫的GAN为什么会被Diffusion取代?

1.GAN的体能训练过程过程相对不稳定，聚合器和判别器之间的平衡很容易打破，容易导致数学模型崩溃或崩塌问题;

质量的影像就足以愚弄判别者;

3.聚合的影像分辨率较低;

因此，以GAN数学模型难以创作出有创意的新影像，也不能通过文字提示聚合新影像。

3. Diffusion — 影像聚合数学模型的皇冠

目前非主流国内外靠谱的相片聚合控制技术主要就基本都是基于Diffusion Model (扩散数学模型) 来进行的实现，包括不限于 Stable Diffusion MidJourney 、 OpenAl DALL.E 、DiscoDiffusion、Google lmagen 等非主流商品，但是实际控制技术在处理方面又各有区别，也导致会有不司的表现形态，核心一方面是下层数学模型体能训练的图语料不同，另外一个方面是一些演算法方面的微调区别。

Diffusion数学模型聚合相片的过程可以理解像是石雕的过程，从一块石头经过不断的雕刻变成一件艺术作品，从一个噪点影像不断去噪聚合一张真实影像。

那扩散数学模型是怎么体能训练的？

Diffusion数学模型的体能训练可以分为两个部分：

前向扩散过程（Forward Diffusion Process） —— 向相片中不断添加噪声，直到相片变成完全的噪点相片的过程。反向扩散过程（Reverse Diffusion Process） —— 是将噪点相片不断的还原为原始相片的过程。

官方给出的有3个体能训练步骤，如下图：

对于每张影像先随机聚合一个长T，T表示从一张原始图到高斯噪声图要多少次。给原始相片添加T次高斯噪声，不同T时影像添加的噪声广度会有所不同。将T和对应的相片放入到UNet数学模型中体能训练，这样还原相片就能预测T步骤中的噪声。

反向扩散体能训练过程步骤如下图：

采样一张高斯噪声图，假如T设置为1000将高斯噪声和T输入到UNet数学模型中预测噪声，下一步的高斯噪声为上一步高斯噪声减去预测噪声，以此步骤直到T为0T为0时还原最终的影像

Diffusion数学模型的大数据体能训练，数据体能训练来自于LAION-5B包含58.3文本-影像对，并且是筛选了评分高的相片进行体能训练。通过大数据数学模型体能训练，让数学模型具有聚合影像的能力。有了聚合影像能力还不够，需要能听得懂需求的能力，根据文字输入就能聚合影像。

4. CLIP—打造图文匹配

CLIP是OpenAI在2021年开源的数学模型，一种基于对比文本-影像对的预体能训练方法或者数学模型，确保计算机在文字描述和影像之间形成互通。

在CLIP推出一年后，几个开源社区的工程基于CLIP+Diffusion就开发了Disco Diffusion,后面的midjourney和stable diffusion数学模型都有采用CLIP数学模型。

据统计，CLIP数学模型搜集了网络上超过4亿的“文本-影像”作为体能训练数据，为文本聚合影像/视频应用的破冰奠定了基础，实现了跨模态的创新。

以上影像聚合相关的数学模型都以导出完，那我们拿Stable Diffusion 来进行梳理下整个影像聚合的流程是怎么样和整体架构,其他影像聚合数学模型大致也差不多。

5. Stable Diffusion 数学模型结构

Stable Diffusion主要就有三部分组成，像素空间、潜在空间、条件机制。

像素空间:采用的AE数学模型将影像压缩到潜在空间体能训练和将聚合的低维向量转化成真实影像，这样提升聚合速度和降低算力要求。

潜在空间：Diffusion数学模型在潜在空间进行加噪和去噪的体能训练,去噪的过程需要导入条件，聚合符合预期相片。

条件机制：条件可以是文字、影像、音频、视频，将条件转化成向量值，作为Diffusion数学模型聚合过程中的引导因子。

Stable Diffusion影像聚合流如下：

通过以上扩散数学模型基本原理大致也明白AI聚合的影像带有较大的随机性，聚合的每张影像都不一样，这种随机性带来的好处是无穷无尽的想象力，但同时也面临着不可控，有点靠运气，聚合理想的影像只能多试著。AI油画想要扩大商品化破冰，必须要解决精准移动性问题。

四、AI油画的移动性有什么样

除了输入文字、垫图的方式还最流行的微调数学模型叫Lora和最近几个月更新的Controlnet来控制相片的聚合，这几个小数学模型可以理解为Stable Diffusion的一种插件。

1. Lora数学模型

在不修改SD数学模型的前提下，教会利用少量数据训练出只可意会不可言传的风格，实现定制化需求，对算力的要求不高，数学模型适中在几十MB大小。

Lora 必须搭配在SD数学模型上一起采用。

Lora可以自己体能训练也可以在著名的数学模型分享网站https://civitai.com/上下载，有大量Lora数学模型，其中SD数学模型仅有2000个，剩下4亿个基本都是LoRA等小数学模型。

例如想要聚合下面风格的汽车，我们找到这款不同角度的一些相片作为Lora体能训练。聚合汽车的风格跟想要风格汽车很相似。

微调数学模型不止有Lora 数学模型，还有Textual Inversion、Hypernetwork、Dreambooth。只是Lora 数学模型比较稳定，采用门槛相对低，所以目前比较流行。

2. Controlnet数学模型

Controlnet就是控制网的意思，其实就是在大数学模型外部通过叠加一个神经网络来达到精准控制输入的内容。很好的解决了单纯的关键词的控制方式无法满足对细节控制的需要，比微调数学模型更进一步对影像聚合的控制。

想要对Controlnet有更详细的介绍可查看如下链接：

https://zhuanlan.zhihu.com/p/625707834

https://mp.weixin.qq.com/s/-r7qAkZbG4K2Clo-EvvRjA

https://mp.weixin.qq.com/s/ylVbqeeZc7XUHmrIrNmw9Q

五、AI油画的控制技术科学研究趋势

1. 更强的语义理解

采用AI油画聚合高质量、精致的聚合影像需要在在prompt做很多努力，可见prompt对最终效果的影响。因此，如何降低用户采用prompt的门槛，让AI更能理解语义，值得科学研究的方向。

2. 更精准可控生成

目前可控聚合是一个大火的领域，也有像ControlNet这样的精品，可以通过输入简单的线稿图、人体姿态图、分割图、广度图等聚合满足条件的内容，但距离真正的精准控制仍有差距。可喜的是，可控聚合产业发展得越来越快，精准控制并不是遥不可及，影像聚合AI也会随之拓展其应用边界线，如一致性的视频聚合、精确的构图设计都会改变许多领域的组织工作方式。

最近，来自马克斯・普朗克计算机科学科学研究所、MIT CSAIL 和谷歌的科学研究者们科学研究了一种控制 GAN 的新方法 DragGAN，能够让用户以交互的方式「拖动」影像的任何点精确到达目标点。

这种崭新的控制方法十分灵活、强大且简单，有手就行，只需在影像上「拖动」想改变的位置点（操纵点），就能合成你想要的影像。

3. 运算速度更快

影响Diffusion在聚合相片的速度除了显卡的性能，很重要一个原因是，每聚合一张相片需要去噪1000次，速度相对还不是很快，为了能在解决这个问题，OpenAI曾在3月发布了一篇重磅、且含金量十足的论文「一致性数学模型 Consistency Models」，在体能训练速度上颠覆了扩散数学模型，能够『一步聚合』，比扩散数学模型更快一个数量级完成简单任务，而且用到的计算量还要少10-2000倍。

以上就是从影像聚合控制技术里程事件到对影像聚合控制技术的科学普及以及未来的产业行业发展趋势预测，我相信通过以上内容很容易就理解了AI油画另一面的控制技术。下一篇对AI油画商品商品化破冰进行分析。

作者：Rzhiyi，8年商品副经理经验，做过AI皮肤检测系统和SaaS类商品

责任编辑由@Rzhiyi 原创发布于人人都是商品副经理。未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是商品副经理平台仅提供信息存储空间服务。提供信息存储空间服务。