ChatGPT伤风败俗年来,大词汇数学模型和Transformer基本上成了代名词,不过吗这般吗?
才刚,两个由儒者主导力量,一共27所理工学院、科学研究政府机构和子公司组成的开放源码科学研究项目组,联署刊登备受瞩目学术论文《RWKV:在Transformer的黄金时代再次发明者RNN》
![RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k](https://pics6.baidu.com/feed/ae51f3deb48f8c542a36ce625be91bf9e2fe7fe6.jpeg@f_auto?token=0cf0a55ca0115b6d593f8c16911655fb)
RWKV是学术论文中明确提出的新广度自学数学模型构架,以循环式数学模型RNN为依据魔改而来。
事实上RWKV数学模型的开放源码正式发布比学术论文要早许多,因此早已在开放源码街道社区和金融行业内造成十分大声望。
![RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k1 RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k](https://pics1.baidu.com/feed/5d6034a85edf8db1aa6bef6368e3eb58574e74b8.jpeg@f_auto?token=306a651c68107489eb0c653ff57326ba)
其创办人彭博社在chan等网络平台也十分活耀。
![RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k2 RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k](https://pics5.baidu.com/feed/8326cffc1e178a82cd10bd1697c34581a877e8a1.jpeg@f_auto?token=2e318b1b1d03a71567b2ceedb22aff9a)
在人类玩家打分的大数学模型匿名竞技场Chatbot Arena最新一期榜单中,RWKV在一众Transformer中排名第6,因此与7-11名相比拉开两个分数段。
![RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k3 RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k](https://pics7.baidu.com/feed/7a899e510fb30f241a7721f1a955e74faf4b039b.jpeg@f_auto?token=b076827896555b63a16b0615fd91675e)
因此RWKV也有在线Demo可玩。(地址在文末)
有意思的是,参与学术论文的EleutherAI实验室表示,学术论文还不是完全版本,由于不便公布的截止日期而被迫提前正式发布,以后还会继续完善。
![RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k4 RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k](https://pics6.baidu.com/feed/9922720e0cf3d7caab7fd07a93df88056a63a97a.jpeg@f_auto?token=7fe82f8997a2b019e3139f86447f880e)
那么就先来看一下,到目前为止RWKV项目组都做出了哪些成果。
时间复杂度比GPT低
RWKV设计灵感来自苹果21年的科学研究《An Attention Free Transform》,项目组意识到如果在公式中使用循环式矩阵(circular matrices)就可以将网络结构写成RNN。
与GPT系列的时间复杂度O(n^2)相比,RNN的时间复杂度只有O(n),空间复杂度是O(1)。
这意味着生成内容的速度不会随长度而夸张增涨,显存占用也是恒定的。
一作彭博社在接受36kr采访时曾这样形容:
GPT每写两个字就要再次看一遍前面所有文字,效率很低。而RWKV就相当于人类读了一遍资料后,在不再看资料的情况下直接回答。
传统RNN由于并行化的方式难以扩大规模,RWKV通过使每个通道的时间衰减与数据无关,可以在训练期间像Transformer一样做并行化。
![RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k5 RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k](https://pics7.baidu.com/feed/a08b87d6277f9e2f36c678d27ff0df28ba99f341.jpeg@f_auto?token=1ef52add238ecb05f4fa1c6338ca4bca)
训练好的140亿参数RWKV在多个数据集上的表现与开放源码Transformer大数学模型相当。
![RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k6 RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k](https://pics3.baidu.com/feed/7acb0a46f21fbe093029a55f0aa03a3f8644ad56.jpeg@f_auto?token=ddb7dc6e28ad1e6bd555bac36bca5ddf)
另外项目组指出RWKV并非没有缺陷,虽然大致与Transformer的性能匹配,但对提示更敏感,并难以整合十分长的信息。
物理出身现在卖灯的学术论文一作
RWKV背后是一支十分大的学术论文项目组,一共27家理工学院、科学研究政府机构和子公司共同组成,作者达30人。
学术论文一作Peng Bo,毕业于香港理工学院物理系,编程经验20+年,曾在世界最大外汇对冲基金之一Ortus Capital就职,负责高频量化交易。
还出版过一本关于广度卷积网络的书籍《广度卷积网络·原理与实践》。
![RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k7 RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k](https://pics5.baidu.com/feed/8cb1cb1349540923f593b4e0f398e705b1de4986.jpeg@f_auto?token=5f9e9b1bc22746371dcac85c1b55f951)
在,尤其是小说生成。
目前,Peng Bo在Github有1.3k的followers,chan粉丝早已超过了11万人,随着RWKV学术论文的正式发布,这个数字还在增加。
瓜网友们最讶异的还是Peng Bo的身份之多样:
不仅仅是RWKV数学模型一作、元智能OS创办人,他的最主要公开身份是一家灯具子公司禀临科技的联合创办人,主要是做阳光灯、吸顶灯、便携台灯什么的。
乍一看这个跨行有点猛,物理出生,搞过量化金融,写了20年程序,然后主业卖灯,根据爱好搞了个大数学模型,走的还不是主流transformer路线……
因此Peng Bo本人应该是两个喵星人资深爱好者,Github、chan、微信头像,以及灯具子公司的官网首页、微博上,都有一只黄色橘猫的身影。
![RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k8 RNN在大模型时代复活,27家机构联名论文!模型已在GitHub揽星7k](https://pics7.baidu.com/feed/86d6277f9e2f07089775ddb888e48e95a801f267.jpeg@f_auto?token=c80d752cbc9eae8195f7863550b6ab31)
ps. 如果你也好奇RWKV这个词该怎么读,根据元智能OS项目组在播客《三五环》的读法,应该是“Rua库”
学术论文地址:https://arxiv.org/abs/2305.13048RWKV数学模型下载:https://huggingface.co/BlinkDL/rwkv-4-raven在线试玩:https://www.codewithgpu.com/i/app/BlinkDL/ChatRWKV/RWKV-4-Raven-7B
参考链接:[1]https://twitter.com/AiEleuther/status/1660811180901019648[2]https://zhuanlan.zhihu.com/p/618011122[3]https://36kr.com/p/2257744759205508[4]https://www.xiaoyuzhoufm.com/episode/645b68e0306513184c97034b