百亿、千亿级基础模型之后，我们正在步入以数据为中心的时代？

Lizierhazyresearch

译者：Christopher Ré、Simran Arora

电脑之心校对

撰稿：悉闲

近一两年，GPT-3、CLIP、DALL-E 、Imagen、Stabile Diffusion 等此基础数学模型的再次出现绝妙。那些数学模型展示出的强悍聚合潜能和情景自学潜能，在一两年前都是前所未见的。责任撰稿将深入探讨那些小规模控制技术的商品化。那些数学模型现如今不而已金融行业巨擘支配的伯国，其商业价值愈来愈充分体现在对这一应用领域和关键点的叙述中，而其核心理念即统计数据。此基础数学模型快速产业发展造成的负面影响已有定案，因而许多文本是如前所述推断。

prompt: “taco cat”（千万别太照样）

从电脑自学的视角上看，各项任务的基本概念是当然的此基础 —— 我们建立体能训练统计数据来选定各项任务，并透过体能训练普遍化。因而，数十年来，业内始终有三类主要就观点：

「无用输入，无用输出」，即向数学模型输入的统计数据 / 特征信息决定数学模型成败。

「太多参数会导致过度拟合」，近 20 余年来，通用、稀疏数学模型的开发大行其道。普遍观念认为稀疏数学模型参数较少，有助于降低过拟合，因而可以更好地进行普遍化。

那些观点总体来说很有道理，但也存在一定的误导性。

此基础数学模型已经开始改变他们对各项任务的理解，因为它可以如前所述广泛的统计数据体能训练且用于多种各项任务。即使有些用户对自己的目标各项任务理解并不清晰，也可以便捷地应用那些数学模型而不必进行特定的体能训练。那些数学模型可以用自然语言或一个接口来控制，应用领域专家借此推动数学模型的使用，同时希望马上在新环境中体验各种神奇功能。在这个探索过程中，用户第一步并不是策划特定的体能训练统计数据集，而是玩味、构想，快速迭代他们的想法。有了此基础数学模型，他们就想进一步了解其如何迁移到一系列各项任务上，包括好些他们尚未预想到的各项任务。

为了在下一波人工智能产业发展浪潮获益，他们或许需要重新审视以往主流观点的局限性（和智慧）。在这篇文章中，他们将由此开始，深入探讨在此基础数学模型中能看到何种变化，最后将讨论他们如何看待此基础数学模型与传统方法相适应。

无用输入，无用输出——就这？

无各项任务此基础数学模型已经开始爆炸式产业发展，到目前为止，许多都是关于数学模型架构和工程的，但那些数学模型相融合的迹象也开始显露。统计数据成为此基础以及用以区分的根本点，这方面有先例吗？他们已经见识了在监督电脑自学中，以数学模型为服务中心和以统计数据为服务中心两种方法之间来回摇摆的状态。

在 2010 年代后半段的一系列项目中，特征质量是关键。在旧数学模型中，特征是编码应用领域知识的工具。那些特征不太稳定，处理的从业者需要掌握关于如何表征那些信息以获得更稳定和可靠的预测的低层次细节。

深度自学之因而成功，是因为人们在那些方面的表现很差。深度自学革命正如火如荼，arXiv 上的新数学模型层出不穷，实为震撼。那些数学模型沿用之前的手动操作，如特征工程，并将其完全自动化。数学模型非常优秀，能透过深度自学将文本和图像等原始统计数据成功特征化。这是生产力的极大提升。然而，那些数学模型并不完美，对这一应用领域的不断认识依然重要。那么，如何将其融入数学模型呢？

我们可以看到，用户以体能训练统计数据为载体，高效输入信息、解释应用程序并与数学模型交互。这一切发生在「黑暗」中，没有工具、理论也没有摘要。他们认为，用户应该能够对自己的统计数据进行一些基本的编程抽象，因而 Snorkel 项目诞生了（然后是公司）。在知识层面，他们由此进入了以统计数据为服务中心的 AI 和弱监督黄金时代。他们可以从中吸取两个重要教训：

一旦某项控制技术稳定下来，其商业价值指向就会回到统计数据上。在这种情况下，随着 TensorFlow、PyTorch、MXNet、Theano 等控制技术的再次出现，深度自学控制技术开始商品化，但对特定问题的叙述没有给出广泛的统计数据分布、各项任务规范等。因而，成功与否取决于如何将相关信息引入数学模型；

他们可以（也需要）处理噪声。此基础的数学和工程原则上有助于噪声处理。用户很难在体能训练统计数据中完美地表达他们的知识，不同统计数据源的质量可能也不尽相同。在研究弱监督的基本理论时，他们发现数学模型可以从含噪统计数据中学到许多（并非所有无用统计数据都不好）。也就是说，要避免输入无用信息 —— 但也不必对统计数据太过吹毛求疵。

prompt: “noisy image”. 有没有从含噪图像中看到什么有意思的东西？

简单来说，统计数据将你的问题和分析编码 —— 就算控制技术商品化，统计数据的商业价值依然存在。因而，不是说无用信息很好，而是千万别把这个区别过于当然化。统计数据有用或无用，在于是否以最有效的方式对其开发利用。

此基础数学模型如前所述大量统计数据进行体能训练，广泛应用于各种各项任务，给统计数据管理带来全新挑战。随着数学模型 / 架构不断商品化，他们需要了解如何高效管理海量统计数据以保证数学模型用途的普遍性。

太多参数会导致过拟合？

为什么他们会看到神奇的上下文特征？建模选择（架构和算法）如何促成了这一点？大型语言数学模型的神奇特征来自神秘的数学模型配置吗？

大约十年前，粗略的电脑自学普遍化理论认为，如果一个数学模型过于简约（即无法拟合太多虚假特征），那么它就会普遍化。人们对此可能有更精准的叙述，那些都是诸如 VC dimension、Rademacher 复杂度等理论应用领域的主要就成就。在这个过程中，他们发现似乎少量参数对于普遍化也是必要的。但事实并非如此，过参数化是一个主要就问题，不过现在他们有大数学模型作为反例：那些大数学模型（参数多于统计数据点）可以拟合各种繁杂到让人头大的函数，但它们仍然是普遍化的（即使使用随机标签）。

关于过参数化的观点对他们存在误导性，最近有见解开辟了新方向。他们看到那些大数学模型中再次出现了一些神奇特征，但时下的流行观念认为，只有某些经电脑体能训练的特定架构促成了那些特征，而那些特定架构很少有人能接触到。他们和其他研究工作的一个方向是尝试以简单、经典的数学模型来执行那些神奇的特征。他们最近的状态空间数学模型基于数十年的信号处理成果（因而可拟合经典数学模型），展示出一定的上下文潜能。

更令人惊喜的是，即便是经典的 BERT 双向数学模型也具有上下文潜能！相信还有许多人在撰写相关论文，可以发给他们，他们会认真阅读并加以引用。他们认为，上下文自学的神奇特征就在他们身边，而且宇宙比他们所理解的更为神奇。或者更冷静地看，也许人类而已在理解条件概率方面不尽如人意。

在大数学模型框架下，事情似乎都运行良好。此基础数学模型的神奇特征看起来稳定且可商品化，统计数据被视为其中造成差异化的点。

现在可能就是以统计数据为服务中心的此基础数学模型黄金时代了？

他们是否在重复以统计数据为服务中心的监督自学转变？换言之，数学模型和工程是否在商品化？

商品化数学模型和开源信息的兴起。他们看到基础数学模型已经开始商品化并投入应用 —— 嗯，感觉很「深度自学」。对他们而言，数学模型商品化的最大证据即其可用率。主要就有两种负面影响力量：人们有需求（稳定等），大公司可利用。开源兴起并不是出于业余爱好者的兴趣，而是大型公司和政府之外的其他公司断定他们需要这种东西（参见 Python 的崛起）。

等待最新的的超级公司推出全新超大数学模型？

如何处理如何部署？坐等新的超级公司推出全新超大数学模型？这可以说是一个办法！但他们称之为虚无主义！这个数学模型会否开源，很难说 —— 那么，那些无法发送到 API 的私有统计数据上的此基础数学模型应用程序又会如何？数学模型会不会有 100 万亿个参数 —— 多少用户可以访问和使用？数学模型的体能训练文本是什么？数学模型主要就如前所述公共统计数据进行体能训练……

因而几乎不能保证，它会知道你关心什么？你会如何维护此基础数学模型的神奇特征，让其为你所用？有效管理此基础数学模型统计数据（统计数据至关重要！）和在测试时充分利用伟大的开源数学模型（在测试时调整输入和上下文统计数据至关重要！）都很有必要：

统计数据管理和以统计数据为服务中心的标度律？预测：更智能的统计数据集收集方法能造就小而美的数学模型。那些让他们大开眼界的标度律论文值得关注：比如最初研究标度律的 OpenAI 以及 DeepMind 的 Chinchilla。虽然他们有默认的参考架构（transforms），但 token 的数量一定程度上代表了统计数据的信息文本。经验告诉他们，统计数据在主题和质量上千差万别。他们预感，真正重要的应该是有重叠和阶次的实际信息位 —— 像熵这样的信息理论基本概念或能推动大小此基础数学模型进化。

测试时的信息输入和计算。此基础数学模型不一定立即可用，但以新的方式进行测试时计算会大为不同。考虑到使用封闭源代码数学模型 API 的成本且缺乏隐私性，他们近期推出了一个开放源代码此基础数学模型，该数学模型的参数再小 30 倍，透过在测试时高效使用小数学模型，可以在规范基准层面击败 OpenAI 的封闭源代码数学模型 —— 该方法被称为 Ask Me Anything（AMA）Prompting。在测试时，用户透过 prompt 或对其感兴趣各项任务！这不仅关乎体能训练时的统计数据管理，还涉及在测试时调整输入和上下文统计数据。

prompt: “really small AI model”

从 AMA 中他们看到，小数学模型已经具备了匹配多种各项任务的卓越推理潜能，而大数学模型的关键商业价值似乎在于记忆事实统计数据。小数学模型在事实方面表现欠佳，那么他们该如何引入统计数据和信息来解决这个问题？奇怪的是，他们用 SGD 将事实存储在神经网络中，将其转换为模糊的浮点值…… 与 DRAM 支持的键值存储相比，抽象的效率似乎要低得多。但是，从 AMA 的结果上看，小数学模型和大数学模型之间的差异在时间变化或域专门化的事实方面要小得多…… 他们在苹果构建自监督数学模型时，要能够撰稿他们返回的事实（出于商业原因），同时需要拟合运行服务的其他软件工具。因而让数学模型调用索引非常重要。时间会证明，以上是否构成使用这类数学模型的充分理由。

这将把他们引向何方？此基础数学模型与传统方法并驾齐驱。假设以统计数据为服务中心的数学模型在探索和部署两端均有进展，对于快速迭代和各项任务无关的工作流程 —— 探索阶段，他们透过统计数据管理 / 测试时间策略使得现成的通用此基础数学模型更为有用高效。离开探索阶段的用户会带着更清晰各项任务定义，使用以统计数据为服务中心的 AI 并管理体能训练统计数据（你自己的统计数据很重要），以 Snorkel 的方式透过利用和组合多个 prompt 和 / 或此基础数学模型来体能训练更小、更快的「专有」数学模型。那些数学模型可以在实际生产环境中部署，而且在特定各项任务和特定统计数据方面更加准确！或者还可以利用此基础数学模型来改进弱监督控制技术 —— 一些实验室和 Snorkel 成员还为此获了 UAI 奖。

归根结底，统计数据关乎数学模型的最终投产。统计数据是唯一没有商品化的东西。他们仍然认为，Snorkel 对统计数据的观点是未来的产业发展方向 —— 你需要编程抽象，一种透过表达、组合和反复纠正不同统计数据源和监督信号的方法，为最终各项任务体能训练可部署数学模型的方法。

原文链接：https://hazyresearch.stanford.edu/blog/2022-10-11-datacentric-fms?continueFlag=9b370bd6ba97021f1b1a646918a103d5

举报/反馈