腾讯AI Lab绝唱：30B模型击败万亿旗舰，靠的是让AI学会「预习」|王琰|实验|知名企业|agent|腾讯ailab

腾讯AI Lab绝唱：30B模型击败万亿旗舰，靠的是让AI学会「预习」

2026-05-11 18:20:03　来源: AI科技评论

广东举报

分享至

无需人工奖励，AI自主探索即能进化——解开无奖励原生自演进之谜。

作者丨成仲轩

编辑丨董子博

从被动响应的“工具”到自主进化的“学徒”，AI Agent 每进化一个阶段，都在摆脱一层对人类的依赖。

如今，随着 AI Agent 逐步迈入自主进化的全新阶段，一场从“人优化 Agent”到“Agent 优化自己”的革命性突破正在发生。无论是大幅降低使用和维护成本，还是让其能自主应对连设计者都无法提前预料的复杂情况，等等，一个突破了设计者预设的能力边界的 Agent，究竟能成长到怎样的地步？不免让人心潮澎湃。

尤其在当下 Agentic AI 和 OpenClaw 大行其道的范式里，AI Agent 执行一个单一任务已不再是简单的单轮推理，而是要进行多轮推理和验证，这就意味着其需要的 Token 消耗较之前有数倍甚至十倍的提升。

如何借力自主进化，降低 Token 消耗，进而在竞争趋于白热化的战场上占据更多先机？显然成为当下各大厂商的竞争焦点之一。

不久前，腾讯混元团队与香港科技大学（广州）联合发表论文《Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration》，就为上述问题提供了一种前沿的解决思路。

先来看它的亮眼结果。

在网页 Agent 任务上，参数量仅 14B 的 Qwen3-14B（33.1），直接击败了 Gemini-2.5-Flash（28.5）和 Kimi-K2-Turbo（28.6）。Qwen3-30B（42.5）更是超越了万亿参数量旗舰模型 Gemini-2.5-Pro（36.1）和 Kimi K2.5（36.2）。

轻量级模型能击败万亿级巨无霸，靠的不是新架构或秘密配方，而是一种被称为“原生自演进”的能力。不同于过去被动等待指令的“提线木偶”，“原生自演进”为模型赋予了自我驱动的“生命力”，不需要人类给它指令或奖励就能够实现自我进化。而一个更加“聪明”的模型，无疑能减少反复拉扯过程中的“沟通成本”，做到事半功倍，进而有效降低 Token 的消耗。

除了能力的“特殊”，详细论述了这项能力的论文也有一个特殊身份——腾讯 AI Lab 在 NLP 方向的最后一篇论文。而九年前，即 AI Lab 成立后的第二年，其在 NLP 方向的第一篇论文进入公众视野，同样引发行业思考。

世间之事，有时就是这么奇妙。

（关于腾讯的 AI Lab 往事，雷峰网仍在持续跟进中，并将在不久后为大家带来新的隐秘往事，欢迎添加作者微信：GO-GO-ZEPPELI，交流爆料。)

“不靠奖励”是怎么做到的

——原生自演进的技术路径

要理解这项工作的价值，先看它解决什么问题。

过去几年，“Agent 自我进化”无疑是一大研究热点，但翻阅市面上的各方讨论，我们发现论文的通讯作者王琰在社交媒体上指出了一个扎心的事实：大多数所谓的“进化”，本质上还是被人牵着走的——依赖人类设计的奖励函数、流程规则、任务目标——外部监督一撤，成长就停止了。

就连作者本人也曾在工作中遇到类似的问题。比如团队做的冥想盆范式和 StateLM，哪怕 StateLM 能够及时将存储在“冥想盆”中的信息去粗取精，以免上下文窗口被越堆越多的信息撑爆，但二者实现的还是 task-dependent记忆——一种相对死板的记忆方式。只要用户任务稍有变化，模型就得从零开始探索，无法复用之前的记忆缓存。

那么，真正的自演进应该长什么样？

王琰在社媒上为大家举了个形象的案例，假设我们给 Agent 下了条指令：“过几天用户们就会问很多关于哈利波特的问题了，我给你买好了七本哈利波特，你准备一下。”然后 Agent 开始夜以继日地学习，等真有用户来提问时能做到对答如流，这才是真正的自演进，即在在没有下游任务的情况下能够自适应地熟悉环境。

带着这个目标，团队提出了名为“原生自演进”的技术方案。整个方案分两个阶段：

第一，探索阶段。Agent 获得新环境的自由访问权限，以及写入和修改文件的权限。它的任务是把环境中真正重要的信息提取出来，记录到一个world_knowledge.md文件里。这份文件，就是该环境的世界知识。

第二，执行阶段。当下游任务开始时，Agent 不需要再从零开始探索，而是直接把预先生成的世界知识加载到 prompt 中，然后开工。整个推理过程没有任何人工奖励、预设流程或任务提示，完全自主地用它自己积累的知识做事。

思路虽然清晰，但落地并不容易。

核心难题在于：没有 ground-truth。此外，同样是因为没有训练 signal，团队也无法直接判断生成的世界知识是好还是坏。

用下游任务的准确率来反推世界知识的质量，是团队给出的解法。简单来说，就是准备一批训练环境，每个环境包含 10 到 30 个下游任务。对于同一个环境，生成多份不同的世界知识，然后分别拿去跑下游任务，谁的准确率提升最大，谁就是更好的世界知识。

至于期间涉及到的 reward，仅仅用于训练，推理时完全不使用。因为在真实场景中，你永远不可能提前知道用户会问什么，这也正是“无奖励”这个词的含义所在——不是不用奖励来训练，而是在推理、部署阶段不需要任何奖励信号。

具体到训练，分两步走：

第一步，Warm Up 阶段，这一步的目标是让模型先学会什么是好的世界知识。为此团队设计了复杂的prompt，用 Gemini-2.5-Pro 为每个环境生成 8 份不同的世界知识，并从中挑出 reward 最大且为正的结果，将其完整的生成轨迹作为 expert trajectories，用来对基模进行 SFT。

第二步，On-Policy Training 阶段，这一步是为了让模型的探索和信息压缩能力变得更强。为此团队让 SFT 后的模型自己去生成世界知识，再同样筛选选优，迭代两个循环。过程中 prompt 也从最初几万 token 的长模板逐渐缩短至不到一千 token 的 instruction——模型确实内化了这种能力，不再依赖冗长的提示就能自主完成高质量的探索和信息压缩。

14B赢Flash、30B超万亿旗舰：

实验数据说明了什么？

团队的成果，最终反映在开篇的论文与亮眼的对比实验结果中。而这场实验基于 Qwen3-30B-A3B 和 Seed-OSS-36B 两个中等尺寸基模，在 WebWalker 和 WebVoyager 两个网页 agent task 上进行，有如下几个发现值得关注：

第一，世界知识带来的增益是实打实的。在有世界知识加持的情况下，模型平均准确率从 30% 跃升至 49%，提升了将近 20 个百分点。这其实也意味着：拥有世界知识的智能体能直接定位到关键信息节点，避免了从零开始盲目探索时的反复跳转和信息遗漏。

第二，训练不可或缺，且迭代真的有效。仅做了 SFT 的模型就已经跟教师模型 Gemini-2.5-Pro 打成平手，在经过 on-policy training 后更是反超了 5%。虽然 knowledge 坍塌的现象也很常见，且给未训练的基模配上同样的 prompt ，让它直接去生成世界知识，效果不升反降，但这共同证明了一点：原生自演进是一种需要通过训练习得的能力，没法靠写更长的 prompt 来解决。

第三，也是最引人注目的——世界知识可以跨模型迁移。

团队为此做了一个有意思的实验，将训练好的模型生成的世界知识，直接喂给四个从未参与训练的模型，结果全部出现了显著提升：Qwen3-14B 达到 33.1、OpenAI-OSS-120B 达到 38.7、Gemini-2.5-Flash 达到 41.0、Kimi-K2-Turbo 达到 47.3——全部超越了各自领域的大哥级产品，就连训练基模本身 Qwen3-30B（42.5）和 Seed-OSS-36B（39.5），也超过了 Gemini-2.5-Pro（36.1）和 Kimi K2.5（36.2）这两款万亿参数量旗舰模型。

这意味着，世界知识是一种可以被不同模型共享并取得收益的“经验资产”。进一步说，规模固然重要，但高质量的知识组织同样能带来巨大增益——在某些场景下甚至足以弥补数量级的参数差距。

第四，效率没有因此变差，反而更好了。事实上，世界知识带来的额外开销确实存在，但可控。这一部分来自探索阶段，大约几百个 steps，但这只需要一个环境做一次，如果下游任务在该环境执行过上百万次，均摊后的成本无限趋近于零；另一部分则来自线上持续加载世界知识的开销，但这部分可以命中缓存，实际开销约为重算的十分之一，为下游任务带来的额外 cost 也不到 5%。

此外，在世界知识的加持下，Agent 执行任务时需要的步数减少了 17%。又因为 decoding 的计算开销远大于 prefilling，Agent 在用户的实际体验中不仅做到了更聪明，而且更快了。外界担忧的“token 爆炸”也没有出现，反而降低了 token 的消耗。

结语

2026 年 3 月 20 日，腾讯内部通知撤销成立近十年的 AI Lab，原团队整体并入混元大模型体系，由首席科学家姚顺雨统一领导。

AI Lab 的时代由此画上句号。

有意思的是，AI Lab 的最后一篇论文，指向了腾讯内部的“最高优先级项目”。

眼下，众多线索都将该项目指向微信 Agent。

（雷峰网目前正在关注微信 Agent 的相关信息，欢迎添加作者微信：GO-GO-ZEPPELI，交流爆料。）

如何帮助用户操纵数百万个小程序？无疑是摆在微信 Agent 面前的一大难题。

如果按当前主流范式推演，通过人工标注专家数据轨迹的方式，大约可以覆盖 20 个头部小程序；次头部约 500 个小程序，则可以通过标注大量任务及答案进行 RLVR；剩下的的海量长尾小程序，每次就只能从头探索，组织成本和扩展瓶颈都很明显。

好在原生自演进的到来提供了新的可能性，王琰也在社媒上兴奋地向大家描述着自己与团队的愿景：“在每个小程序上线之时，就可以通知微信 Agent 过来探索一番并生成小程序对应的世界知识。在后面的任务中，只要 Agent 打开了这个小程序，对应的世界知识文件就会加载到 Agent 的 context 中，无需重新探索，多用户直接复用世界知识的 KV Cache。”

从论文到落地，这中间当然还有很多问题要解决。但这篇腾讯 AI Lab 的最后之作至少证明了一件事：当AI学会了“预习”——在没有任务指引的情况下主动熟悉环境、沉淀知识——它离像人一样自主适应复杂环境，又近了一步。

（关于腾讯 AI 的系列文章仍在持续推出中，下一篇讲述腾讯 AI Lab 往事的文章即将与大家见面，欢迎添加作者微信：GO-GO-ZEPPELI，交流认知，分享八卦。)

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.