编者按
两把柠檬花纹的桌子,猫熊在浅滩上滑板,鸵鸟玩象棋,太空人在水星上骑脚踏车 …… DALL · E 2, Stable Diffusion 等影像聚合数学模型能依照输出文档,造成各式各样远超过想像的相片。这另一面的基本原理,源自非均衡力学中的蔓延数学模型。假如为多维影像内部空间中的画素加进噪音,像油墨在水底蔓延,接着KO而此操作过程,就能从噪音中聚合影像,获得出人意料的影像女团。
为的是积极探索繁杂自然科学与文化表演艺术交叠应用领域,T5250俱乐部队已经开始承办 “繁杂自然科学与表演艺术” 讨论会,汇集各应用领域内的韦尔泰宗与怀疑者——主要包括自然生物学家、表演音乐家、研究者及有关专业人士,进行交叠学科深入探讨,并密切合作工业生产。讨论会每星期三期,稳步至 2023 年 6 月。AI 聚合式表演艺术也是讨论会主轴众所周知。热烈欢迎钟爱的好友报名者重新加入。报名者出口处及详细情况见variations。
关键字:AI 聚合表演艺术,小型词汇数学模型,蔓延数学模型,非均衡统计力学,人工智慧
Anil Ananthaswamy | 作者
朱欣怡 | 译者
梁金 | 审校
邓一雪 | 编辑
DALL · E2 是 OpenAI 创造的影像聚合系统。让它描绘 ” 金鱼在海滩上喝可口可乐 ” 的相片,聚合结果将完全是超现实主义的影像。程序在训练中会遇见海滩、金鱼和可口可乐的影像,但不大可能看到三种影像的直接结合体。然而 DALL · E2 能女团这些概念,聚合结果可能让超现实主义画家达利也感到骄傲。
DALL · E2 是一种聚合数学模型,它尝试使用训练集数据,聚合在质量和多样性方面堪比原数据的新东西。这是机器学习中最困难的问题众所周知,要走到而此步十分艰辛。
第一种重要的影像聚合数学模型使用的是被称为神经网络的人工智慧方法,神经网络是由多层计算单元(即人工神经元)组成的程序。尽管这些数学模型能让影像质量变得更好,但并不可靠且难以训练。与此同时,一位对力学学充满热情的博士后研究员创造了一个强大的聚合数学模型,这个数学模型沉睡良久,直到两名研究生取得技术突破,才使这个野兽复活。
DALL · E2 就是这样一只野兽。使 DALL · E2 及其竞争对手 Stable Diffusion 和 Imagen 能够成像的关键内因源于力学世界。支撑它们的系统是著名的蔓延数学模型(diffusion model),它深受支配着流体和气体蔓延等现象的非均衡统计力学启发。OpenAI 的机器学习研究员宋飏表示,” 有很多技术最初是力学学家发明的,现在在机器学习中非常重要。”
这些数学模型的强大功能震撼了工业界和用户。加州理工学院计算机自然生物学家、英伟达机器学习研究高级总监 Anima Anandkumar 说:” 对于聚合数学模型来说,这是一个令人兴奋的时刻。虽然蔓延数学模型创造的逼真影像有时会延续社会和文化偏见,但我们已经证明,聚合数学模型对下游任务很有用,能提高预测性人工智慧数学模型的公平性。”
图 1. DALL · E2 聚合这些 ” 金鱼在海滩上喝可口可乐 ” 的影像。OpenAI 创建的这个程序可能从未遇到过类似的影像,但仍然能聚合它们。
1. 影像聚合数学模型与概率
要理解如何将影像转化为数据,能先从一个仅由两个相邻灰度画素点组成的简单影像开始。我们能依照每个画素的阴影(从 0 表示全黑到 255 表示全白),用两个值来完全描述这个影像。我们能用这两个值将影像映射为二维内部空间中的一个点。
假如我们将多个影像标绘为点,可能会出现簇——某些影像及其对应的画素值比其他影像出现得更频繁。现在想像一个在平面上方的曲面,其中曲面的高度对应于簇的密度。曲面绘制出影像画素的概率分布图。我们最有可能在曲面的最高部分下方找到单个数据点,而在曲面的最低部分找到的数据点很少。
现在,我们能使用这个概率分布聚合新影像。需要做的就是随机聚合新的数据点,同时遵守一个限制,更多地聚合高概率数据——这个操作过程被称为对分布 ” 采样 “。每一个新的点都是一个新的影像。
同样的分析也适用于更逼真的灰度照片,比如说每张照片有 100 万画素。不过现在,绘制影像需要 100 万个坐标轴,而不是两个。这些影像的概率分布将是繁杂的 100 万 +1 维曲面。假如对该分布进行采样,将聚合 100 万个画素值。将这些画素打印在一张纸上,影像看起来就很可能像原始影像。
聚合数学模型面临的挑战在于:学习构成训练数据的某组影像的这种繁杂概率分布。这种分布之所以有用,既因为它捕捉到了数据的全局信息,又因为研究人员能结合不同类型数据(比如文本和影像)的概率分布,组成超现实的输出,如金鱼在海滩上喝可口可乐。Anandkumar 说:” 你能混合和匹配不同的概念 … 创造全新的、训练数据里也没有的场景。”
2014 年,聚合对抗网络(GAN)数学模型成为第一个能造成真实影像的数学模型。但是 GAN 很难训练:它们可能不能学习完整的概率分布,并且可能锁定在分布的子集来造成影像。例如,在各式各样动物的影像上训练 GAN,却可能仅聚合狗的相片。
提出生成对抗网络(GAN)数学模型的论文(2014)
论文题目:Generative Adversarial Networks
论文链接:https://arxiv.org/abs/1406.2661
机器学习需要一个更稳健的数学模型。在力学学启发下,Jascha Sohl-Dickstein 将提供一个实例。
ako Miyakawa
2. 蔓延数学模型
在 GAN 诞生之际,Sohl-Dickstein 还是斯坦福大学大学的博士后,致力于聚合数学模型的研究,同时对非均衡统计力学很钟爱。力学学的而此分支研究不处于热均衡的系统——在系统内部和系统 – 环境之间有物质与能量交换。
一个解释性的例子是,一滴蓝色油墨蔓延到整个盛水的容器中。起初,油墨在内部空间一点形成一个黑色斑点。此时,假如要计算在容器的某个小体积内找到油墨分子的概率,需要一个概率分布能清晰地模拟油墨开始蔓延前的初始状态。但这种分布很繁杂,因此很难取样。
然而,油墨最终会蔓延到水底,使水变成浅蓝色。这导致更简单、更均匀的分子概率分布,能直接用数学表达式来描述。非均衡统计力学描述了蔓延操作过程中每一时刻的概率分布。最重要的是,每一步都是可逆的——只要步间距足够小,就能从简单分布重新回到繁杂分布。
elasco/Quanta Magazine
Sohl-Dickstein 利用蔓延基本原理开发了一种聚合数学模型算法。想法很简单:算法首先将训练数据集中的繁杂影像转化为简单噪音——类似于从一滴油墨蔓延成淡蓝色的水——接着教系统如何KO而此操作过程,将噪音转化为影像。
下面是它的工作基本原理在每个时间步向每个画素加一些噪音,相当于油墨在一个小时间步的蔓延。随着这个操作过程继续,画素值与它们在原始影像中的值的关系越来越弱,并且画素看起来更像是简单的噪音分布。 ( 这个算法还在每个时间步向原点微移每个画素值。这种微调可防止画素值变得太大以致计算机无法轻松处理。)
假如对数据集中的所有影像都这样做,那么在百万维内部空间中,点的初始繁杂分布(不易描述和采样)就会变成围绕原点的简单正态分布。Sohl-Dickstein 说:” 一系列的转换非常缓慢地将数据分布变成一个大的噪音球。这个‘前向操作过程’创造的分布能让你轻松采样。”
接下来是机器学习部分:将从前向操作过程获得的噪音影像输出神经网络,并训练它预测上一步获得的噪音较小的影像。一开始它会出错,所以需要调整网络的参数,这样它就做得更好。最终,神经网络能可靠地将源自简单分布样本的噪音影像完全转变为源自繁杂分布样本的影像。
训练后的网络是一个成熟的聚合模型。现在,甚至不需要原始影像来执行前向操作过程:有简单分布的完整数学描述,能直接从中采样。神经网络能将这个样本(基本上只是静态的)变成与训练数据集中影像相似的最终影像。
Sohl-Dickstein 回忆起蔓延数学模型的最初结果时说道:” 当你眯起眼睛说‘那个彩色的斑点看上去像一辆卡车。’我就像这样,花了很久的时间盯着不同的画素形态,试图从中看出结构。当结果比之前更结构化时,我很兴奋。”
3. 结合蔓延模型与小型词汇数学模型
Sohl-Dickstein 在 2015 年发表了他的蔓延数学模型算法,但比起 GAN 还相差甚远。虽然蔓延数学模型能在整个分布上进行采样,而且永远不会陷入只输出影像子集的困境,但影像结果看起来更糟,而且操作过程太慢了。Sohl-Dickstein 说:” 当时,这个数学模型并不令人惊喜。”
蔓延数学模型论文(2015)
论文题目:Deep Unsupervised Learning using quilibrium Thermodynamics 论文链接:http://proceedings.mlr.press/v37/sohl-dickstein15.html
有两个学生,当时与 Sohl-Dickstein 都互不相识,他们把最初工作中的点点滴滴与像 DALL · E2 这样的现代蔓延数学模型联系起来。第一个是宋飏,当时在斯坦福大学读博士。2019 年,他和导师提出了一种新方法来构建聚合数学模型,而不需要估计数据的概率分布(多维曲面)。相反,它估计的是分布的梯度(能看成是多维曲面的斜率)。
宋飏发现,假如他首先用不断增加的噪音水平扰动训练数据集中的每一幅影像,接着用神经网络基于分布梯度预测原始影像,有效地去除噪音,能让它的技术效果更好。一旦经过训练,他的神经网络就能从简单分布中采样获得一个有噪音的影像样本,并逐步将其转换回代表训练数据集的影像。影像质量很好,但机器学习数学模型的采样速度极慢。而且他做这件事时,对 Sohl-Dickstein 的工作一无所知。宋飏说:” 我当时根本不知道蔓延数学模型,2019 年我们的论文发表后,我收到了一封源自 Jascha 的邮件。他指出,(我们的数学模型)有非常强的联系。”
估计数据分布梯度的聚合数学模型(2019)
论文题目:Generative Modeling by Estimating Gradients of the Data Distribution
论文链接:https://proceedings.neurips.cc/paper/2019/hash/3001ef257407d5a371a96dcd947c7d93-Abstract.html
图 3. 宋飏帮助提出了一种新的技术:通过训练网络有效地解读有噪影像,从而聚合影像。
2020 年,第二个学生看到了这些联系,意识到宋飏的工作能改进 Sohl-Dickstein 的蔓延数学模型。Jonathan Ho 最近刚刚在加州大学伯克利分校完成了他的关于聚合数学模型的博士工作,但他仍致力于此。他说:” 我认为这是机器学习中最有数学美的分支学科。”
Ho 结合宋飏的一些想法和神经网络应用领域的其他进展,重新设计并更新了 Sohl-Dickstein 的蔓延数学模型。他说:” 我知道,若要引起大家的关注,我需要让数学模型聚合好看的样本。我确信,这是我当时能做的最重要的事情。”
他的直觉是正确的。2020 年,Ho 和同事发表了一篇名为 Denoising Diffusion Probabilistic Models(去噪蔓延概率数学模型)的论文,宣布了这个新改进的蔓延数学模型。它很快成为一个里程碑,现在被研究员们简称为 DDPM。依照一个基准的影像质量——比较聚合影像分布与训练集中影像分布——这些数学模型与主要包括 GAN 在内的所有竞争聚合数学模型相比,不相上下,甚至更优。没过多久,大佬们就注意到了。目前,DALL · E 2, Stable Diffusion, Imagen 等商业数学模型都使用了 DDPM 的一些变体。
去噪蔓延概率数学模型(2020)
论文题目:Denoising Diffusion Probabilistic Models
论文链接:https://proceedings.neurips.cc/paper/2020/hash/4c5bcfec8584af0d967f1ab10179ca4b-Abstract.html
图 4. Jonathan Ho 和他的同事结合 Sohl-Dickstein 和宋飏的方法,使得 DALL · E 2 等现代蔓延数学模型成为可能。
现代蔓延数学模型还有一个关键成分:小型词汇数学模型(large language models, LLM),如 GPT-3。这些聚合数学模型在互联网文档上进行训练,用来学习文字而不是影像的概率分布。2021 年,Ho(现在是一家隐形公司的研究自然生物学家)和他在谷歌研究中心的同事 Tim Salimans,与其他地方的团队密切合作,展示了如何结合小型词汇数学模型的信息与影像聚合蔓延数学模型,用文档(比如 ” 金鱼在海滩上喝可口可乐 “)指导蔓延操作过程,从而聚合影像。如 DALL · E2 这样的从文档到影像数学模型成功的另一面原因,就是这种 ” 引导蔓延 “(guided diffusion)操作过程。” 他们远远超出了我最疯狂的期望。我不能假装我预见到了而此切。”Ho 说。
结合小型词汇数学模型与影像聚合蔓延数学模型(2021)
论文题目:Variational Diffusion Models
论文链接:https://proceedings.neurips.cc/paper/2021/hash/b578f2a52a0229873fefc2a4b06377fa-Abstract.html
4. 聚合数学模型也会聚合问题
尽管这些数学模型已经取得了成功,但 DALL · E2 及其同类产品的影像仍然远非完美。小型词汇数学模型可能在聚合文档中反映文化和社会偏见,如种族主义和性别歧视。这是因为它们训练的文档是从互联网中截取出的,这些文档往往包含种族主义和性别歧视的词汇。基于这种文档的概率分布训练出的小型词汇数学模型会被同样的偏见所感染。蔓延数学模型的训练影像也源自互联网上未经整理的影像,这些影像可能包含类似的有偏见的数据。难怪将小型词汇数学模型与当今的蔓延数学模型结合起来,有时会造成反映社会弊病的影像。
Anandkumar 对此有亲身体验。当她试图用一个基于蔓延数学模型的应用程序聚合自身风格的头像时,她被震惊到了:” 很多相片都是高度性感的,但呈现给男人的东西却不是。” 这并不是个例。
通过整理和过滤数据(鉴于数据集的规模巨大,这项任务极其困难),或者检查数学模型的输出提示和输出,能减少这些偏差。Ho 说:” 当然,没有什么能代替细致和广泛的安全测试,这是该应用领域面临的重要挑战。”
尽管如此,Anandkumar 还是相信聚合数学模型的能力。她说:” 我很喜欢费曼(Richard Feynman)的名言:‘我无法创造的东西,我并不理解。’ ” 随着理解的加深,她的团队能够开发聚合数学模型,生产例如用于预测任务的欠表示类的合成训练数据,如面部识别时的较深肤色,以帮助提高公平性。聚合数学模型还能让我们深入了解大脑如何处理噪音,或者大脑如何唤起心理意象并思考未来的行动。建立更繁杂的数学模型能赋予人工智慧类似的能力。
Anandkumar 说:” 我们才刚刚开始积极探索聚合 AI 的各式各样可能性。”
原文链接:
https://www.quantamagazine.org/the-physics-principle-that-inspired-modern-ai-art-20230105/
►►►
繁杂自然科学 × 表演艺术系列讨论会公开报名者中
20 世纪下半叶以来,受到繁杂性研究启发的 ” 思维方式 ” 已迅速传播到认知活动的多个应用领域。混沌、自组织、临界、自创生、涌现 ……其概念层次的丰富性为我们提供了研究世界的灵活工具。从这个意义上说,我们有理由将繁杂性理论视为一个扩充表演艺术与自然科学之间交叠应用领域的重要课题。表演艺术对繁杂性做出反应的一种基本方式是创造出显示 ” 涌现行为 ” 的系统。就本体论而言,我们不再将表演艺术品视为静态之物,而是将其看作不断发展的创造性操作过程的一个实例。同时,新兴的繁杂自然科学(Complexity Science)也向当代表演艺术实践者提供了一个敞开的工具箱,这些工具主要包括混沌、分形、元胞自动机、遗传算法、蚁群算法、人工神经网络、L-System、人工生命等,它们进一步推动了数字美学、生物表演艺术与人工智慧表演艺术等应用领域的发展。繁杂自然科学不仅帮助我们深入了解意识和生命系统的聚合机制,而且有利于激发各学科的研究者和实践者协同发掘后人类创造力和新美学的潜力,以期打开更趋向于综合性的创意内部空间。
由T5250俱乐部队承办,心识宇宙研究院院长、科普作家十三维,表演艺术评论人汪嫣然和策展人龙星如联合发起的 ” 繁杂自然科学与表演艺术 ” 讨论会,旨在汇集各应用领域内的韦尔泰宗与怀疑者——主要包括自然生物学家、表演音乐家、研究者及有关专业人士——进行超越单一学科的跨界知识讨论,积极探索繁杂性研究与文化表演艺术潜在的交叠地带。本讨论会从 2022 年 7 月开始,每星期举办一次,共计十二期。热烈欢迎钟爱的好友报名者参与,可重新加入社群并获得视频回放。
讨论会详细情况与框架:
Chaos & Muses:繁杂科学 × 表演艺术系列讨论会