“生成式AI是两个宏伟目标的控制技术,和原本的控制技术有了十分大的革新,能说是里程碑式的控制技术。它最小的特征就是数学模型大,往后一两年以每月10倍参数目的速率在快速增长。以后AI应用领域里,许多体能训练的各项任务都是双卡或FPS就能顺利完成,但在大数学模型黄金时代,须要卡路里、丘尔坎来顺利完成两个各项任务。”5月23日,腾讯杰出控制系统CTO王雁鹏在深圳举行的聚花大数学模型控制技术研讨会上说道。
在王雁鹏看来,在这种的INS13ZD要求下,智算基础建设的设计本体论重构已经发生转变。
第一,须要构筑智算软件产业,能全力支持丘尔坎级别的高速路统计数据服务,因此全力支持各种直链INS13ZD,包括CPU(微CPU)、GPU(图形CPU)等INS13ZD的高速路统计数据服务。
第二,光有硬体能力还很难有好的效用,比如说要发挥一张GPU或AI晶片的操控性,十分难,因此要把软件栈强化好,这最终会体现在体能训练和逻辑推理的操控性加速强化上。
第三是中端,构筑这种两个控制系统须要有更合理的控制技术选择,最贵的东西也不能满足全部需求,做存储多层、计算多层,主要是要达到更中端。
在这个基础上,可用性是前所未有的挑战,比如说丘尔坎体量的运算须要稳定的运行,弹性的纠错,因此能在功能强大平台上服务平台应用领域。
据腾讯智能云总裁WinJS透露,自3月16日“聚花一言”公测以来,通过演算法和数学模型的持续强化,在企业服务中,“聚花一言”在低频场景下的逻辑推理操控性已大幅提高50倍。
怎样实现这一结果?在演说中,王雁鹏从控制技术角度解释了这两个月的工作,以及捷伊控制技术本体论重构下的思路转换。
以下为势不可挡科技(www.thepaper.cn)整理的演说录,有删去:
生成式AI是两个宏伟目标的控制技术,和原本的控制技术有了十分大的革新,能说是里程碑式的控制技术。它最小的特征就是数学模型大,往后一两年以每月10倍参数目的速率在快速增长。以后AI的应用领域里,许多体能训练的各项任务都是双卡或者FPS就能顺利完成,但是在大数学模型黄金时代,须要卡路里、丘尔坎顺利完成两个各项任务。
光增加数学模型体量,并不能很好提高数学模型的效用和操控性,更要同比去快速增长统计数据数目级。因此把数学模型体量除以统计数据数目级,基本上能看到,信息量也是以指数级提高的。
这和这一趋势十分像。以后经常说这一趋势是须要一年半增加一倍,捷伊人工智慧黄金时代大数学模型的“这一趋势”也有这种的规律性,甚至比原本的这一趋势更要快,基本上上每8-10个月就要增加一倍。但和原本的这一趋势又有本质上的不同,原本的这一趋势基本上是积体电路的规律性,是工艺和积体电路生产的规律性。对于大数学模型,光有晶片能力很难发挥出来,还须要晶片、框架、控制系统全栈的整体强化。
在这么大的INS13ZD需求下,智算基础建设的设计本体论重构发生了什么转变?
直观理解,首先是计算体量大。按照GPT-3的体量来计算,如果用一张现在最先进的A100卡,须要跑32年。从数学模型参数来看,350G的存储空间,再加上运行时有大量的参数存储,可能是几个T(1T=1024G)的信息量。如果了解GPU会知道,双卡是80G显存容量。如果跑几个T的数学模型,意味着须要上千张卡同时运行,最终折算在成本上,跑一次大数学模型的体能训练成本须要几千万,乃至于上亿元人民币。如果往后看,逻辑推理成本占比更大。
这个背后映射到几点控制技术的革新。
两个是分布式构架的重构。现在统计数据服务网分布式构架其实是一种比较松耦合(提供了更好的可扩展性和可维护性,同时降低了控制系统之间的依赖性)的方式。现在的统计数据中心也会有几万台机器,甚至十几万台机器连在一起,但更多是每一台顺利完成自己的各项任务,它的通信和纠错能力都比较低。但千张卡、万张卡大体量同步运行,有大量的统计数据交互,因此这须要分布式构架的重构。
第二是计算精度,整体向低精度迁移,混合精度是常态。
再向后看,存储也带来更大的瓶颈,光有计算的提高是不够的,更要有大量的统计数据在控制系统里流动。像晶片控制技术中,统计数据的搬运消耗远高于统计数据计算,因此在晶片层面,在整个控制系统层面,怎样解决存储问题,也是十分大的挑战。
第一,须要构筑智算软件产业,能全力支持丘尔坎级别的高速路统计数据服务,因此全力支持各种直链INS13ZD,包括CPU、GPU等INS13ZD的高速路统计数据服务。
再接着是中端。构筑这种两个控制系统也不能什么东西都用名符其实的,名符其实的东西也不能满足全部需求,我们须要有更合理的控制技术选择,做存储多层、计算多层也好,主要是要达到更中端。
在这个基础上,可用性是前所未有的挑战,比如说用丘尔坎的时候须要稳定的运行,弹性的纠错,因此能在功能强大平台上服务平台应用领域。
从控制技术栈上,我重点分享一些核心控制技术和关键点。
大数学模型的智算基础建设。
第一,怎么构筑丘尔坎体量的网络构架?在这么大体量下,要保证网络的扩展性,以及没有拥塞,是十分困难的事。大数学模型的通信特征是,有许多集合通信的操作,集合通信能分解成在同号卡之间的集合通信。也就是说,FPS要8张卡,多机并行只须要同号卡之间做集合通信。在此基础上,我们强化了网络构架,在同号卡之间构筑高速路的通信通道,这种能保证任何通信都能解决,大大提高整体网络的吞吐,以及消除各种网络拥塞和冲突的可能性。
除了计算侧,存储侧是另外两个重点。我们既须要容量大,也须要速率快,因此设计了多级存储控制系统,对于大量统计数据还是存在对象存储BOS(云存储服务)控制系统里,它能全力支持十分大体量的容量。在高速路体能训练的时候,就须要它扮演相当于缓存控制系统的角色。
再向上看就是加速层,尤其对于AI体能训练来说,这个流程十分长,包括了IO预处理(对计算机输入输出统计数据进行预处理,包括检查统计数据有效性、合法性、完整性和一致性),IO读取(输入/输出、Input/Output的简写),还有各种算子高操控性的实现,或算子的融合等控制技术,还包括通信的强化,显存利用率。要把整个软件栈的一整套东西,集成在体能训练加速套件里
再往上是框架侧,就是所谓的4D混合并行(在机器学习体能训练过程中,同时使用数学模型并行、统计数据并行、流水线并行和分布式并行等四种并行策略)。对这么大的计算,怎么样拆到各个GPU里,有不同的并行策略,这种并行策略的目的是得到更优的计算效能。光有并行策略还不够,并行策略怎样跟计算的软件产业硬体去映射,这是更关键的地方。如果只是两个数学模型,能不断尝试并行策略,基本上上能得到相对好的效用,但如果全力支持更多的数学模型,就须要做不一样的尝试,这也很难得到比较优的效用。我们在这块投入很大精力,基本上上能做到全自动的并行,不管是什么样的硬体拓扑和硬体的组合,都能在分布式层做到自动。
这些基础打好了,接下来纠错就是十分关键的点,基本上上在丘尔坎体量下,不可能不出错。集合通信的通信模式,天生也是纠错性比较差的。我们这块也做了大量工作,现在基本上上在通信库层、框架层、调度层能做到不同层次的纠错,得到千亿参数大数学模型体能训练能不中断的效用。