大模型的基础设施如何建？首先要搭千卡万卡规模的网络架构

“生成式AI是两个宏伟目标的控制技术，和原本的控制技术有了十分大的革新，能说是里程碑式的控制技术。它最小的特征就是数学模型大，往后一两年以每月10倍参数目的速率在快速增长。以后AI应用领域里，许多体能训练的各项任务都是双卡或FPS就能顺利完成，但在大数学模型黄金时代，须要卡路里、丘尔坎来顺利完成两个各项任务。”5月23日，腾讯杰出控制系统CTO王雁鹏在深圳举行的聚花大数学模型控制技术研讨会上说道。

在王雁鹏看来，在这种的INS13ZD要求下，智算基础建设的设计本体论重构已经发生转变。

第一，须要构筑智算软件产业，能全力支持丘尔坎级别的高速路统计数据服务，因此全力支持各种直链INS13ZD，包括CPU（微CPU）、GPU（图形CPU）等INS13ZD的高速路统计数据服务。

第二，光有硬体能力还很难有好的效用，比如说要发挥一张GPU或AI晶片的操控性，十分难，因此要把软件栈强化好，这最终会体现在体能训练和逻辑推理的操控性加速强化上。

第三是中端，构筑这种两个控制系统须要有更合理的控制技术选择，最贵的东西也不能满足全部需求，做存储多层、计算多层，主要是要达到更中端。

在这个基础上，可用性是前所未有的挑战，比如说丘尔坎体量的运算须要稳定的运行，弹性的纠错，因此能在功能强大平台上服务平台应用领域。

据腾讯智能云总裁WinJS透露，自3月16日“聚花一言”公测以来，通过演算法和数学模型的持续强化，在企业服务中，“聚花一言”在低频场景下的逻辑推理操控性已大幅提高50倍。

怎样实现这一结果？在演说中，王雁鹏从控制技术角度解释了这两个月的工作，以及捷伊控制技术本体论重构下的思路转换。

以下为势不可挡科技（www.thepaper.cn）整理的演说录，有删去：

生成式AI是两个宏伟目标的控制技术，和原本的控制技术有了十分大的革新，能说是里程碑式的控制技术。它最小的特征就是数学模型大，往后一两年以每月10倍参数目的速率在快速增长。以后AI的应用领域里，许多体能训练的各项任务都是双卡或者FPS就能顺利完成，但是在大数学模型黄金时代，须要卡路里、丘尔坎顺利完成两个各项任务。

光增加数学模型体量，并不能很好提高数学模型的效用和操控性，更要同比去快速增长统计数据数目级。因此把数学模型体量除以统计数据数目级，基本上能看到，信息量也是以指数级提高的。

这和这一趋势十分像。以后经常说这一趋势是须要一年半增加一倍，捷伊人工智慧黄金时代大数学模型的“这一趋势”也有这种的规律性，甚至比原本的这一趋势更要快，基本上上每8-10个月就要增加一倍。但和原本的这一趋势又有本质上的不同，原本的这一趋势基本上是积体电路的规律性，是工艺和积体电路生产的规律性。对于大数学模型，光有晶片能力很难发挥出来，还须要晶片、框架、控制系统全栈的整体强化。

在这么大的INS13ZD需求下，智算基础建设的设计本体论重构发生了什么转变？

直观理解，首先是计算体量大。按照GPT-3的体量来计算，如果用一张现在最先进的A100卡，须要跑32年。从数学模型参数来看，350G的存储空间，再加上运行时有大量的参数存储，可能是几个T（1T=1024G）的信息量。如果了解GPU会知道，双卡是80G显存容量。如果跑几个T的数学模型，意味着须要上千张卡同时运行，最终折算在成本上，跑一次大数学模型的体能训练成本须要几千万，乃至于上亿元人民币。如果往后看，逻辑推理成本占比更大。

这个背后映射到几点控制技术的革新。

两个是分布式构架的重构。现在统计数据服务网分布式构架其实是一种比较松耦合（提供了更好的可扩展性和可维护性，同时降低了控制系统之间的依赖性）的方式。现在的统计数据中心也会有几万台机器，甚至十几万台机器连在一起，但更多是每一台顺利完成自己的各项任务，它的通信和纠错能力都比较低。但千张卡、万张卡大体量同步运行，有大量的统计数据交互，因此这须要分布式构架的重构。

第二是计算精度，整体向低精度迁移，混合精度是常态。

再向后看，存储也带来更大的瓶颈，光有计算的提高是不够的，更要有大量的统计数据在控制系统里流动。像晶片控制技术中，统计数据的搬运消耗远高于统计数据计算，因此在晶片层面，在整个控制系统层面，怎样解决存储问题，也是十分大的挑战。

第一，须要构筑智算软件产业，能全力支持丘尔坎级别的高速路统计数据服务，因此全力支持各种直链INS13ZD，包括CPU、GPU等INS13ZD的高速路统计数据服务。

再接着是中端。构筑这种两个控制系统也不能什么东西都用名符其实的，名符其实的东西也不能满足全部需求，我们须要有更合理的控制技术选择，做存储多层、计算多层也好，主要是要达到更中端。

在这个基础上，可用性是前所未有的挑战，比如说用丘尔坎的时候须要稳定的运行，弹性的纠错，因此能在功能强大平台上服务平台应用领域。

从控制技术栈上，我重点分享一些核心控制技术和关键点。

大数学模型的智算基础建设。

第一，怎么构筑丘尔坎体量的网络构架？在这么大体量下，要保证网络的扩展性，以及没有拥塞，是十分困难的事。大数学模型的通信特征是，有许多集合通信的操作，集合通信能分解成在同号卡之间的集合通信。也就是说，FPS要8张卡，多机并行只须要同号卡之间做集合通信。在此基础上，我们强化了网络构架，在同号卡之间构筑高速路的通信通道，这种能保证任何通信都能解决，大大提高整体网络的吞吐，以及消除各种网络拥塞和冲突的可能性。

除了计算侧，存储侧是另外两个重点。我们既须要容量大，也须要速率快，因此设计了多级存储控制系统，对于大量统计数据还是存在对象存储BOS（云存储服务)控制系统里，它能全力支持十分大体量的容量。在高速路体能训练的时候，就须要它扮演相当于缓存控制系统的角色。

再向上看就是加速层，尤其对于AI体能训练来说，这个流程十分长，包括了IO预处理（对计算机输入输出统计数据进行预处理，包括检查统计数据有效性、合法性、完整性和一致性），IO读取（输入/输出、Input/Output的简写），还有各种算子高操控性的实现，或算子的融合等控制技术，还包括通信的强化，显存利用率。要把整个软件栈的一整套东西，集成在体能训练加速套件里

再往上是框架侧，就是所谓的4D混合并行（在机器学习体能训练过程中，同时使用数学模型并行、统计数据并行、流水线并行和分布式并行等四种并行策略）。对这么大的计算，怎么样拆到各个GPU里，有不同的并行策略，这种并行策略的目的是得到更优的计算效能。光有并行策略还不够，并行策略怎样跟计算的软件产业硬体去映射，这是更关键的地方。如果只是两个数学模型，能不断尝试并行策略，基本上上能得到相对好的效用，但如果全力支持更多的数学模型，就须要做不一样的尝试，这也很难得到比较优的效用。我们在这块投入很大精力，基本上上能做到全自动的并行，不管是什么样的硬体拓扑和硬体的组合，都能在分布式层做到自动。

这些基础打好了，接下来纠错就是十分关键的点，基本上上在丘尔坎体量下，不可能不出错。集合通信的通信模式，天生也是纠错性比较差的。我们这块也做了大量工作，现在基本上上在通信库层、框架层、调度层能做到不同层次的纠错，得到千亿参数大数学模型体能训练能不中断的效用。