元始智能罗璇：全球首个非Transformer架构RWKV，正在突破AI算力瓶颈|人工智能|智能体|transformer|rwkv|rnn

元始智能罗璇：全球首个非Transformer架构RWKV，正在突破AI算力瓶颈

2025-12-26 13:45:12　来源: 网易科技报道

北京举报

分享至

12月18日，网易传媒主办的“2025新一代人工智能创业大赛”颁奖典礼在北京网易大厦成功举办。

“2025新一代人工智能创业大赛”聚焦“AI基础设施”、“AI应用和智能体”和“AI硬件”三大前沿赛道，旨在挖掘顶尖创业团队。下午的AI投资论坛系列活动从往届获奖者的实战分享，到聚焦AI全球化与商业化路径的深度剖析，再到围绕具身智能、Agent等前沿议题的“围炉夜话”思辨，层层递进，探讨了AI从技术探索走向产业落地的关键命题。

现场，2024年去年大赛的获奖代表、深圳元始智能联合创始人兼COO罗璇在发展汇报中表示，当前主流AI大模型所依赖的Transformer架构存在计算复杂度高、能耗大及端侧部署不友好等问题。对此，他们提出RWKV作为一种基于循环神经网络（RNN）的架构，其核心优势在于将计算复杂度从二次方降低至线性，从而在理论层面提升了训练与推理效率，并降低了资源消耗。

罗璇在汇报中提到，网易大赛的支持极大促进了项目的发展，RWKV作为一个开源项目，已获得了新一轮融资，而且RWKV开发者社区发展迅速，与此同时，该架构在端侧智能及多智能体等领域已经展现出强大的应用潜力。

以下为罗璇的演讲全文，经不影响原意的编辑：

非常感谢网易再次给我一个机会分享我们的项目，去年参加网易的活动之后，去年年底拿到天使轮的融资。今年7月世界人工智能大会上，我们作为未来之星项目获得了总理的接见。今天分享的RWKV项目，是面向未来的高效AI大模型架构。

很多人关注大模型从2022年ChatGPT开始的，在ChatGPT出来以后大家关注了大模型这个技术赛道，更多看到的像Chat GPT、DeepSeek、千问、Llama这种模型公司以及上层的应用公司，这一切的底层神经网络架构都基于Transformer架构，这个架构源自于2017年Google发的论文叫“Attention is all you need”。它打破了过去RNN不能高效并行训练的问题，也带来了新的问题。而RWKV是全球首个的非Transformer架构，正在解决Transformer的问题。

这是我们团队，创始人彭博，背景比较传奇，6岁开始写代码，16岁全奖进港大物理系，毕业后开始在全球最大的外汇对冲基金管理6000万美元的资产。后来，自己做了一家智能硬件公司，也是知乎的人工智能领域的大V。

我是罗璇，是RWKV的联合创始人，之前在大厂，在腾讯、阿里，在阿里负责机器人和人工智能，之前也做机器人的公司。我们更多人来自于开源社区，现在全职的同事，包括实习的同事来自于全球数万人的社区。RWKV源自于2020年初彭博的开源项目，过去五年迭代了8代，也发表了3篇学术论文。OpenAI在2023年初邀请彭博入职，但是彭博马上就回复：如果OpenAI重新Open的话他愿意合作。

在拒绝OpenAI之后，彭博把RWKV开源项目放到了Linux Foundation下面孵化，现在是全球的开源项目。所有的开发者、科研机构可以没有负担的使用这个架构。过去也出现了很多的新架构，像Mamba，Google出的Titans，国内也有KDA等等的架构，都在跟进这个路线，而RWKV现在的第八代还没有跟随者。去年8月份，微软在每一台Windows电脑里面内置了RWKV架构。去年，RWKV被评为英伟达的初创生态荣耀企业，挂他们的官网，今年3月份我在也分享了最新的架构。我们也跟多家的芯片厂商合作，做端侧的模型，我们认为端侧是巨大的机会，尤其中国巨大的机会。今年WAIC我们获得了未来之星奖，也获得了总理的接见。

我们看看RWKV到底解决什么问题。

第一，Transformer模型在推理侧是二次方复杂度问题。过去三年大家发现英伟达这家公司非常值钱，大家在大模型的训练和推理过程当中需要大量的算力，为什么需要这么多算力？因为底层算法的效率非常低，Token生成的长度跟算力的需求是二次方增长的关系。随之需要的能源也非常高，以及对于端侧非常不友好，大家看到大部分的模型几乎都是调云端的API，没有办法形成规模效应。

第二，最近Ilya说的Scaling law没有了，很多业内人说原因是数据不够用了，但是实际上现在大语言模型训练了30T的Token，人类从出生到死亡这段时间内需要的文本数据是远远低于这个数据量。就相当于一个人说全世界的粮食都不够他吃，这到底是粮食的原因呢？还是人本身的问题？所以，我们认为应该是模型架构本身的问题，如果模型不是暴力记忆，而是能快速的找到数据中规律的话，训练需要的数据也不需要那么多了。

第三，国内之前没关注的点，就是Transformer是有商业专利的，谷歌在2017年就建立了全球专利的壁垒。

RWKV是全球的首个非Transformer架构，我们叫新型RNN架构，它不但可以高效并行训练，同时它推理的速度和推理的资源占用也是恒定的，我们也带来了新的极致上下文的State-tuning的能力。

无论是效率、能耗还是效果，RWKV都是优于Transformer。能耗这块RWKV非常适合存算一体、3D堆叠的近存芯片，因为RWKV模型推理在Decode的阶段只需要做矩阵乘矢量，不需要做矩阵乘矩阵，同时它不需要管理KV-Cache不断变大的问题。在云端，RWKV架构模型也是更有优势的，并发的能力是Transformer模型的一百倍。

除此之外，RWKV本质上是在做类脑架构，包括持久的记忆能力、持续学习能力，还有内部模型持续拟合外部世界的能力、无限长的推理能力。

现在的Transformer模型的QKV机制更像是一个超级小镇做题家，它希望把全世界的题目背下来去参加高考，去做一个模糊的匹配，而RWKV架构模型是实时地找题目和答案之间的解题规律和方法，所以它是非常高效的架构。

大家喜欢看Benchmark，所以我们最近也做了一些Benchmark，RWKV的13B模型，泛化能力和语言能力都优于千问14B Base 模型。数学百科代码指令这块我们也非常接近于现在千问14B Base，而这些能力是可以靠刷题解决的。

RWKV-8是我们最近公开的全球首个神经符号大模型架构，它带来完全不同的特性，它让AI内部生成它自己的语言，可以做无限范围无损信息的传播，未来的大模型是具备可解释性，这是一个业界的重大突破，现在全球的大量学者都在关注我们这个架构。

RWKV 目前有谁在用呢？第一个是我们商业公司在用，我们把它落在端侧，包括手机、PC、眼镜、机器人等终端上，让他们具备语言、图片识别、语音合成能力等等，其中一些应用已经在海外上架。这是端侧的AI 编程项目，可以在一台单卡的消费级电脑上面，同时跑24个并发去做网页生成。这也是现在的架构做不到的。这是海外一个非常知名的编程独角兽，估值三十亿美金，所有的模型都基于RWKV的架构提供给客户。如果是程序员的话可能认识 Fabrice Bellard，他是全球知名的程序员，跟Google的Jeff Dean齐名的，他去年公开了用RWKV做的信息压缩软件。具身智能是大家今年特别关注的赛道，地瓜机器人和有鹿机器人，我们都是有深度合作。还有国家电网在用RWKV做做新能源的发电预测和调度。中国电科的30B的小可大模型也是基于RWKV。RWKV已经在工业界广泛的有落地。

更重要的是RWKV的开源生态，在海外有数万的开发者，光Discord上面就有九千多，GitHub上面基于RWKV的开源项目超过六百个，有超过160篇的前沿学术论文在基于RWKV 训练模型，像语言、多模态、智能体、具身智能等等。多智能体是过去几年业内非常头疼的问题，今年二月份斯坦福用 RWKV做了一个项目，证明了 RWKV 这种架构才是做多智能体的正确方向。腾讯今年的3D动作生成的论文，也是基于RWKV做的。这是美国第一大的语音识别的公司叫 Rev，他们基于 RWKV做长语音的流式识别，未来新的计算终端需要Always on，那就会非常有用。还有弗吉尼亚大学用RWKV做的端侧模型，UCLA用 RWKV做的肌电手势识别。UCSD用RWKV做的脉冲类脑计算。国内也有浙大李尔平教授在用RWKV做脉冲类脑计算。上海有一家对冲基金，用RWKV做的股价预测和量化交易。还有哈佛用RWKV做的量子增强的实践训练预测，听说也是用来做对冲基金的。国内也有团队用RWKV做药物发现，海外的团队用RWKV做RNA预测。所以简单而言，RWKV正在全面的替代Transformer。

RWKV是面向未来的高效AI大模型架构，解决了Transformer的二次方复杂度问题，是更加高效节能的架构。尤其是适合下一代的芯片：近存和存算一体的芯片。RWKV是持续在沿着类脑的路线在迭代，包括神经符号这种业内的突破 RWKV架构是开源可商用的，我们正在建立一个全球庞大的开源生态。

我们现在的商业化聚焦在端侧。大家都知道国内软件不赚钱，所以未来中国的新型智能终端会是拉动内需的重要产品。另外云端的多智能体网络，是下一代的互联网，大家也会发现一定会基于新的架构来做。欢迎在场的有志之士试一试。

我们期望的人工智能的发展方向：用存算一体训练一体的芯片、RWKV这种新型RNN架构，已经变成了一个确定性的方向。

欢迎大家关注RWKV，也欢迎大家使用RWKV。谢谢。