单张GPU搞定GPT-3超参数!先训练小模型,再“一键迁移”

2023-01-03 0 1,027

丰色丽翔凹非寺物理位社会公众号 QbitAI

“两个GPU根本无法体能训练GPT-3,更别说在下面修正超模块了。”

不不不,现在中韦尔卡努塔——

在一般而言GPU上全然能修正小体量数学模型的超模块。

怎么说?

原本没人辨认出了一种捷伊调参形式,不论数学模型体量怎么变动,税金的最优化超模块都能维持操控性平衡。

继而二来,我们能先体能训练两个小版的数学模型,在下面间接地修正好超参,接着以零样品的形式间接将它导入到全尺寸数学模型上,就能赢得十分极好的操控性。

这对手上GPU天然资源不如的人而言实在千万别怪不得吧。

目前,有关回帖也在Reddit上引发轩然大波,得到了300+的雅雷全力支持。

在两个GPU下调参GPT-3大数学模型

形式名为muP(Maximal Update Parametrization),译者分别源自谷歌和OpenAI。

设想很单纯,借助的是他们在以后的工作中辨认出的两个叫作P的特定模块化路子:

窄数学模型和宽脊髓全站同几组最优化超模块,即便长度无穷大(width->)时也一样。

具体内容基本原理能参看学术论文《Feature Learning in Infinite-Width Neural Networks》。

可共享资源的超模块包括自学率learning rate、learning rate schedule、initialization、parameter multipliers……甚至能原则上特别针对每一模块标量。

译者在长度仅约4096的Transformer以及ResNet上校正了这一推论。

因此,天然资源贫乏的术数er就能在宣传册GPU上对两个小版的GPT-3数学模型进行超模块修正:

如果在这个小数学模型上得到的模块接近最优化,那么在大数学模型上也能得到一样的结果。

ps.这种调参形式又被命名为“北迁(Transfer)”。

具体内容效果如何?

译者体能训练了两个只有4000万模块体量的小型GPT-3,它小到能间接跑在一张GPU上。

接着把它的超模块“北迁”到两个有67亿模块的大规模GPT-3上,结果辨认出它的操控性和原始的GPT-3全然十分——尽管原GPT-3的模块体量还是它的两倍!

而这一修正成本只占整个预体能训练成本的7%。

由于数学模型体量增大,间接修正小型数学模型的成本仍大致相同,如果用该形式来调参175亿体量的GPT-3,其成本可能最多只有总预体能训练成本的0.3%。

好了,这时你可能会问:能不能只缩小数学模型的长度呢?

译者表示,对于“non-width stuff”,没有理论保证。

不过好消息是,他们在preLN Transformer的合理范围内对depth、batch size、sequence length和timestep的北迁效果进行了测试。

其中,他们将BERT-base和BERT-large在长度和深度上缩小到同样的体量,接着同时进行超模块修正后辨认出:

相比已经调优的megatron BERT基线,两者的操控性都得到了改善,尤其是BERT-large提升更大。

继而也总结出两个道理:

北迁后的数学模型体量越大,收益越高。

所以译者还调侃道,虽然我们没有测试175亿体量的GPT-3,但保证结果能让你“流口水”。

说了这么多,到底如何实现?

下表概括了如何通过fan-in或fan-out调整你的数学模型的initialization和learning rate。

其中粉色文本为P,括号中的灰色文本为pytorch默认值。

当然,如果你不想自己手动操作,译者也开源了Pytorch实现,通过pip install mup就能应用到你的数学模型中。

关于译者

一作名为Greg Yang,谷歌高级研究员。

通讯译者为谷歌研究院深度自学技术中心合伙人研究经理、IEEE Fellow高剑峰。

还有两位华人译者分别为源自谷歌的Liu Xiaodong(北京邮电大学校友)和Chen Weizhu (已在谷歌工作16年)。

他们的这篇成果已被NeurIPS 2021接收。

GitHub链接:https://github.com/microsoft/mup

学术论文地址:https://arxiv.org/abs/2203.03466

官方博客链接:https://www.microsoft.com/en-us/research/blog/%C2%B5transfer-a-technique-for-hyperparameter-tuning-of-enormous-neural-networks/

Reddit讨论:https://www.reddit.com/r/MachineLearning/comments/tb0jm6/ryoucanttraingpt3onasinglegpubutyoucan/

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务