首页程序员资讯正文

我要投稿

RNN在大模型时代复活，27家机构联名论文！模型已在GitHub揽星7k

admin 程序员资讯

2023-06-01 0 569

ChatGPT伤风败俗年来，大词汇数学模型和Transformer基本上成了代名词，不过吗这般吗？

才刚，两个由儒者主导力量，一共27所理工学院、科学研究政府机构和子公司组成的开放源码科学研究项目组，联署刊登备受瞩目学术论文《RWKV：在Transformer的黄金时代再次发明者RNN》

RNN在大模型时代复活，27家机构联名论文！模型已在GitHub揽星7k

RWKV是学术论文中明确提出的新广度自学数学模型构架，以循环式数学模型RNN为依据魔改而来。

事实上RWKV数学模型的开放源码正式发布比学术论文要早许多，因此早已在开放源码街道社区和金融行业内造成十分大声望。

RNN在大模型时代复活，27家机构联名论文！模型已在GitHub揽星7k

其创办人彭博社在chan等网络平台也十分活耀。

RNN在大模型时代复活，27家机构联名论文！模型已在GitHub揽星7k

在人类玩家打分的大数学模型匿名竞技场Chatbot Arena最新一期榜单中，RWKV在一众Transformer中排名第6，因此与7-11名相比拉开两个分数段。

RNN在大模型时代复活，27家机构联名论文！模型已在GitHub揽星7k

因此RWKV也有在线Demo可玩。（地址在文末）

有意思的是，参与学术论文的EleutherAI实验室表示，学术论文还不是完全版本，由于不便公布的截止日期而被迫提前正式发布，以后还会继续完善。

RNN在大模型时代复活，27家机构联名论文！模型已在GitHub揽星7k

那么就先来看一下，到目前为止RWKV项目组都做出了哪些成果。

时间复杂度比GPT低

RWKV设计灵感来自苹果21年的科学研究《An Attention Free Transform》，项目组意识到如果在公式中使用循环式矩阵（circular matrices）就可以将网络结构写成RNN。

与GPT系列的时间复杂度O(n^2)相比，RNN的时间复杂度只有O(n),空间复杂度是O(1)。

这意味着生成内容的速度不会随长度而夸张增涨，显存占用也是恒定的。

一作彭博社在接受36kr采访时曾这样形容：

GPT每写两个字就要再次看一遍前面所有文字，效率很低。而RWKV就相当于人类读了一遍资料后，在不再看资料的情况下直接回答。

传统RNN由于并行化的方式难以扩大规模，RWKV通过使每个通道的时间衰减与数据无关，可以在训练期间像Transformer一样做并行化。

RNN在大模型时代复活，27家机构联名论文！模型已在GitHub揽星7k

训练好的140亿参数RWKV在多个数据集上的表现与开放源码Transformer大数学模型相当。

RNN在大模型时代复活，27家机构联名论文！模型已在GitHub揽星7k

另外项目组指出RWKV并非没有缺陷，虽然大致与Transformer的性能匹配，但对提示更敏感，并难以整合十分长的信息。

物理出身现在卖灯的学术论文一作

RWKV背后是一支十分大的学术论文项目组，一共27家理工学院、科学研究政府机构和子公司共同组成，作者达30人。

学术论文一作Peng Bo，毕业于香港理工学院物理系，编程经验20+年，曾在世界最大外汇对冲基金之一Ortus Capital就职，负责高频量化交易。

还出版过一本关于广度卷积网络的书籍《广度卷积网络·原理与实践》。

RNN在大模型时代复活，27家机构联名论文！模型已在GitHub揽星7k

在，尤其是小说生成。

目前，Peng Bo在Github有1.3k的followers，chan粉丝早已超过了11万人，随着RWKV学术论文的正式发布，这个数字还在增加。

瓜网友们最讶异的还是Peng Bo的身份之多样：

不仅仅是RWKV数学模型一作、元智能OS创办人，他的最主要公开身份是一家灯具子公司禀临科技的联合创办人，主要是做阳光灯、吸顶灯、便携台灯什么的。

乍一看这个跨行有点猛，物理出生，搞过量化金融，写了20年程序，然后主业卖灯，根据爱好搞了个大数学模型，走的还不是主流transformer路线……

因此Peng Bo本人应该是两个喵星人资深爱好者，Github、chan、微信头像，以及灯具子公司的官网首页、微博上，都有一只黄色橘猫的身影。

RNN在大模型时代复活，27家机构联名论文！模型已在GitHub揽星7k

ps. 如果你也好奇RWKV这个词该怎么读，根据元智能OS项目组在播客《三五环》的读法，应该是“Rua库”

学术论文地址：https://arxiv.org/abs/2305.13048RWKV数学模型下载：https://huggingface.co/BlinkDL/rwkv-4-raven在线试玩：https://www.codewithgpu.com/i/app/BlinkDL/ChatRWKV/RWKV-4-Raven-7B

参考链接：[1]https://twitter.com/AiEleuther/status/1660811180901019648[2]https://zhuanlan.zhihu.com/p/618011122[3]https://36kr.com/p/2257744759205508[4]https://www.xiaoyuzhoufm.com/episode/645b68e0306513184c97034b

举报/反馈

收藏 (0) 点赞 (0)

admin

RNN在大模型时代复活，27家机构联名论文！模型已在GitHub揽星7k

上一篇：腾讯云cos对象存储容量包有什么用

RNN在大模型时代复活，27家机构联名论文！模型已在GitHub揽星7k

下一篇：慧博云通：科技引领AI技术，助力各行业智能化升级

相关文章

Adobe Prelude CC2022Pl视频编辑软件中文直装版

Adobe Prelude CC2022Pl视频编辑软件中文直装版

程序员资讯

admin

3年前 2,270

萌新小白的提问，影视剪辑需要学哪几个软件？

萌新小白的提问，影视剪辑需要学哪几个软件？

程序员资讯

admin

3年前 2,445

怎样给自己的视频换背景？试试视频编辑软件

怎样给自己的视频换背景？试试视频编辑软件

程序员资讯

admin

3年前 2,784

(超清)2023 React 18 系统入门进阶实战《欢乐购》

(超清)2023 React 18 系统入门进阶实战《欢乐购》

程序员资讯

admin

3年前 2,384

猜你喜欢

Adobe Prelude CC2022Pl视频编辑软件中文直装版 2023-09-06
萌新小白的提问，影视剪辑需要学哪几个软件？ 2023-09-06
怎样给自己的视频换背景？试试视频编辑软件 2023-09-06
(超清)2023 React 18 系统入门进阶实战《欢乐购》 2023-09-06
视频截取软件有哪些？带你了解这三个视频编辑软件 2023-09-06
服务器有哪几种类型呢？ 2023-09-06
视频编辑培训，制作视频用哪个软件好？ 2023-09-06
云服务器是什么？你需要知道这些基本知识 2023-09-06
Apple Motion for Mac 苹果电脑视频编辑软件 2023-09-06
“中药房配酸梅汤”火了，医院服务器被挤爆，网友：更适合中国宝宝体质 2023-09-06

发表评论

暂无评论

官方客服团队

为您解决烦忧 - 24小时在线专业服务

联系官方团队在线提交工单