网易首页 > 网易号 > 正文 申请入驻

腾讯AI Lab绝唱:30B模型击败万亿旗舰,靠的是让AI学会「预习」

0
分享至


无需人工奖励,AI自主探索即能进化——解开无奖励原生自演进之谜。

作者丨成仲轩

编辑丨董子博

从被动响应的“工具”到自主进化的“学徒”,AI Agent 每进化一个阶段,都在摆脱一层对人类的依赖。

如今,随着 AI Agent 逐步迈入自主进化的全新阶段,一场从“人优化 Agent”到“Agent 优化自己”的革命性突破正在发生。无论是大幅降低使用和维护成本,还是让其能自主应对连设计者都无法提前预料的复杂情况,等等,一个突破了设计者预设的能力边界的 Agent,究竟能成长到怎样的地步?不免让人心潮澎湃。

尤其在当下 Agentic AI 和 OpenClaw 大行其道的范式里,AI Agent 执行一个单一任务已不再是简单的单轮推理,而是要进行多轮推理和验证,这就意味着其需要的 Token 消耗较之前有数倍甚至十倍的提升。

如何借力自主进化,降低 Token 消耗,进而在竞争趋于白热化的战场上占据更多先机?显然成为当下各大厂商的竞争焦点之一。

不久前,腾讯混元团队与香港科技大学(广州)联合发表论文《Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration》,就为上述问题提供了一种前沿的解决思路。

先来看它的亮眼结果。

在网页 Agent 任务上,参数量仅 14B 的 Qwen3-14B(33.1),直接击败了 Gemini-2.5-Flash(28.5)和 Kimi-K2-Turbo(28.6)。Qwen3-30B(42.5)更是超越了万亿参数量旗舰模型 Gemini-2.5-Pro(36.1)和 Kimi K2.5(36.2)。

轻量级模型能击败万亿级巨无霸,靠的不是新架构或秘密配方,而是一种被称为“原生自演进”的能力。不同于过去被动等待指令的“提线木偶”,“原生自演进”为模型赋予了自我驱动的“生命力”,不需要人类给它指令或奖励就能够实现自我进化。而一个更加“聪明”的模型,无疑能减少反复拉扯过程中的“沟通成本”,做到事半功倍,进而有效降低 Token 的消耗。

除了能力的“特殊”,详细论述了这项能力的论文也有一个特殊身份——腾讯 AI Lab 在 NLP 方向的最后一篇论文。而九年前,即 AI Lab 成立后的第二年,其在 NLP 方向的第一篇论文进入公众视野,同样引发行业思考。

世间之事,有时就是这么奇妙。

(关于腾讯的 AI Lab 往事,雷峰网仍在持续跟进中,并将在不久后为大家带来新的隐秘往事,欢迎添加作者微信:GO-GO-ZEPPELI,交流爆料。)

01


“不靠奖励”是怎么做到的

——原生自演进的技术路径

要理解这项工作的价值,先看它解决什么问题。

过去几年,“Agent 自我进化”无疑是一大研究热点,但翻阅市面上的各方讨论,我们发现论文的通讯作者王琰在社交媒体上指出了一个扎心的事实:大多数所谓的“进化”,本质上还是被人牵着走的——依赖人类设计的奖励函数、流程规则、任务目标——外部监督一撤,成长就停止了。

就连作者本人也曾在工作中遇到类似的问题。比如团队做的冥想盆范式和 StateLM,哪怕 StateLM 能够及时将存储在“冥想盆”中的信息去粗取精,以免上下文窗口被越堆越多的信息撑爆,但二者实现的还是 task-dependent记忆——一种相对死板的记忆方式。只要用户任务稍有变化,模型就得从零开始探索,无法复用之前的记忆缓存。


那么,真正的自演进应该长什么样?

王琰在社媒上为大家举了个形象的案例,假设我们给 Agent 下了条指令:“过几天用户们就会问很多关于哈利波特的问题了,我给你买好了七本哈利波特,你准备一下。”然后 Agent 开始夜以继日地学习,等真有用户来提问时能做到对答如流,这才是真正的自演进,即在在没有下游任务的情况下能够自适应地熟悉环境。

带着这个目标,团队提出了名为“原生自演进”的技术方案。整个方案分两个阶段:

第一,探索阶段。Agent 获得新环境的自由访问权限,以及写入和修改文件的权限。它的任务是把环境中真正重要的信息提取出来,记录到一个world_knowledge.md文件里。这份文件,就是该环境的世界知识。

第二,执行阶段。当下游任务开始时,Agent 不需要再从零开始探索,而是直接把预先生成的世界知识加载到 prompt 中,然后开工。整个推理过程没有任何人工奖励、预设流程或任务提示,完全自主地用它自己积累的知识做事。


思路虽然清晰,但落地并不容易。

核心难题在于:没有 ground-truth。此外,同样是因为没有训练 signal,团队也无法直接判断生成的世界知识是好还是坏。

用下游任务的准确率来反推世界知识的质量,是团队给出的解法。简单来说,就是准备一批训练环境,每个环境包含 10 到 30 个下游任务。对于同一个环境,生成多份不同的世界知识,然后分别拿去跑下游任务,谁的准确率提升最大,谁就是更好的世界知识。

至于期间涉及到的 reward,仅仅用于训练,推理时完全不使用。因为在真实场景中,你永远不可能提前知道用户会问什么,这也正是“无奖励”这个词的含义所在——不是不用奖励来训练,而是在推理、部署阶段不需要任何奖励信号。

具体到训练,分两步走:

第一步,Warm Up 阶段,这一步的目标是让模型先学会什么是好的世界知识。为此团队设计了复杂的prompt,用 Gemini-2.5-Pro 为每个环境生成 8 份不同的世界知识,并从中挑出 reward 最大且为正的结果,将其完整的生成轨迹作为 expert trajectories,用来对基模进行 SFT。

第二步,On-Policy Training 阶段,这一步是为了让模型的探索和信息压缩能力变得更强。为此团队让 SFT 后的模型自己去生成世界知识,再同样筛选选优,迭代两个循环。过程中 prompt 也从最初几万 token 的长模板逐渐缩短至不到一千 token 的 instruction——模型确实内化了这种能力,不再依赖冗长的提示就能自主完成高质量的探索和信息压缩。

02


14B赢Flash、30B超万亿旗舰:

实验数据说明了什么?

团队的成果,最终反映在开篇的论文与亮眼的对比实验结果中。而这场实验基于 Qwen3-30B-A3B 和 Seed-OSS-36B 两个中等尺寸基模,在 WebWalker 和 WebVoyager 两个网页 agent task 上进行,有如下几个发现值得关注:


第一,世界知识带来的增益是实打实的。在有世界知识加持的情况下,模型平均准确率从 30% 跃升至 49%,提升了将近 20 个百分点。这其实也意味着:拥有世界知识的智能体能直接定位到关键信息节点,避免了从零开始盲目探索时的反复跳转和信息遗漏。

第二,训练不可或缺,且迭代真的有效。仅做了 SFT 的模型就已经跟教师模型 Gemini-2.5-Pro 打成平手,在经过 on-policy training 后更是反超了 5%。虽然 knowledge 坍塌的现象也很常见,且给未训练的基模配上同样的 prompt ,让它直接去生成世界知识,效果不升反降,但这共同证明了一点:原生自演进是一种需要通过训练习得的能力,没法靠写更长的 prompt 来解决。

第三,也是最引人注目的——世界知识可以跨模型迁移。

团队为此做了一个有意思的实验,将训练好的模型生成的世界知识,直接喂给四个从未参与训练的模型,结果全部出现了显著提升:Qwen3-14B 达到 33.1、OpenAI-OSS-120B 达到 38.7、Gemini-2.5-Flash 达到 41.0、Kimi-K2-Turbo 达到 47.3——全部超越了各自领域的大哥级产品,就连训练基模本身 Qwen3-30B(42.5)和 Seed-OSS-36B(39.5),也超过了 Gemini-2.5-Pro(36.1)和 Kimi K2.5(36.2)这两款万亿参数量旗舰模型。


这意味着,世界知识是一种可以被不同模型共享并取得收益的“经验资产”。进一步说,规模固然重要,但高质量的知识组织同样能带来巨大增益——在某些场景下甚至足以弥补数量级的参数差距。

第四,效率没有因此变差,反而更好了。事实上,世界知识带来的额外开销确实存在,但可控。这一部分来自探索阶段,大约几百个 steps,但这只需要一个环境做一次,如果下游任务在该环境执行过上百万次,均摊后的成本无限趋近于零;另一部分则来自线上持续加载世界知识的开销,但这部分可以命中缓存,实际开销约为重算的十分之一,为下游任务带来的额外 cost 也不到 5%。

此外,在世界知识的加持下,Agent 执行任务时需要的步数减少了 17%。又因为 decoding 的计算开销远大于 prefilling,Agent 在用户的实际体验中不仅做到了更聪明,而且更快了。外界担忧的“token 爆炸”也没有出现,反而降低了 token 的消耗。

03


结语

2026 年 3 月 20 日,腾讯内部通知撤销成立近十年的 AI Lab,原团队整体并入混元大模型体系,由首席科学家姚顺雨统一领导。

AI Lab 的时代由此画上句号。

有意思的是,AI Lab 的最后一篇论文,指向了腾讯内部的“最高优先级项目”。

眼下,众多线索都将该项目指向微信 Agent。

(雷峰网目前正在关注微信 Agent 的相关信息,欢迎添加作者微信:GO-GO-ZEPPELI,交流爆料。)

如何帮助用户操纵数百万个小程序?无疑是摆在微信 Agent 面前的一大难题。

如果按当前主流范式推演,通过人工标注专家数据轨迹的方式,大约可以覆盖 20 个头部小程序;次头部约 500 个小程序,则可以通过标注大量任务及答案进行 RLVR;剩下的的海量长尾小程序,每次就只能从头探索,组织成本和扩展瓶颈都很明显。


好在原生自演进的到来提供了新的可能性,王琰也在社媒上兴奋地向大家描述着自己与团队的愿景:“在每个小程序上线之时,就可以通知微信 Agent 过来探索一番并生成小程序对应的世界知识。在后面的任务中,只要 Agent 打开了这个小程序,对应的世界知识文件就会加载到 Agent 的 context 中,无需重新探索,多用户直接复用世界知识的 KV Cache。”

从论文到落地,这中间当然还有很多问题要解决。但这篇腾讯 AI Lab 的最后之作至少证明了一件事:当AI学会了“预习”——在没有任务指引的情况下主动熟悉环境、沉淀知识——它离像人一样自主适应复杂环境,又近了一步。

(关于腾讯 AI 的系列文章仍在持续推出中,下一篇讲述腾讯 AI Lab 往事的文章即将与大家见面,欢迎添加作者微信:GO-GO-ZEPPELI,交流认知,分享八卦。)

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
正负值+30!骑士隐藏巨头浮出水面,阿特金森赛后单独表扬他

正负值+30!骑士隐藏巨头浮出水面,阿特金森赛后单独表扬他

宝哥精彩赛事
2026-05-13 05:01:16
国羽爆大冷!陈雨菲首局翻车,17-15被逆转,女单或全军覆没?

国羽爆大冷!陈雨菲首局翻车,17-15被逆转,女单或全军覆没?

刘姚尧的文字城堡
2026-05-13 15:25:04
男生课桌下偷拍女生半小时?华南理工回应

男生课桌下偷拍女生半小时?华南理工回应

陈语丝
2026-05-13 21:26:56
武汉大学“分裂”奇观:东武大与西武大,善良与邪恶对抗

武汉大学“分裂”奇观:东武大与西武大,善良与邪恶对抗

红色少女主播
2026-05-13 16:15:27
访华前杀出拦路虎,战火溅到中国?不管美伊谁干的,都得给个交代

访华前杀出拦路虎,战火溅到中国?不管美伊谁干的,都得给个交代

陈辉论剑
2026-05-13 18:20:59
包工头与做饭大姐相好5年,工程完工想走,谁曾想大姐竟不好惹

包工头与做饭大姐相好5年,工程完工想走,谁曾想大姐竟不好惹

磊子讲史
2025-07-02 13:45:23
经纬度:“订单排到2028年”的底气何来

经纬度:“订单排到2028年”的底气何来

澎湃新闻
2026-05-13 15:48:26
零跑熊猫D99:车展吸睛背后的深意

零跑熊猫D99:车展吸睛背后的深意

烽火瞭望者
2026-05-13 08:53:15
媒体人:广东要评估崔永熙留队前景,协商杜锋身兼三职的精力问题

媒体人:广东要评估崔永熙留队前景,协商杜锋身兼三职的精力问题

懂球帝
2026-05-13 14:29:33
浙大郑强教授:我不承认中国大学生就业难,是舒服的工作难找,建议少点抱怨少点索取

浙大郑强教授:我不承认中国大学生就业难,是舒服的工作难找,建议少点抱怨少点索取

TOP大学来了
2026-05-11 16:39:00
美股京东涨逾6%

美股京东涨逾6%

每日经济新闻
2026-05-13 22:02:35
特斯拉宣布停产,震惊全网!

特斯拉宣布停产,震惊全网!

财经三分钟pro
2026-05-12 15:10:58
特朗普再访华:从巨无霸垫肚子到宫保鸡丁,舌尖上的外交暗战

特朗普再访华:从巨无霸垫肚子到宫保鸡丁,舌尖上的外交暗战

认知决定世界
2026-05-13 16:40:25
全球最大太阳能飞机坠海:一场16年飞行的意外终点

全球最大太阳能飞机坠海:一场16年飞行的意外终点

报错免疫体
2026-05-12 07:36:35
以量取胜不讲套路! 俄罗斯再对乌克兰发动大规模无人机袭击

以量取胜不讲套路! 俄罗斯再对乌克兰发动大规模无人机袭击

军迷战情室
2026-05-13 19:55:04
北京天坛公园:今明两天暂停开放

北京天坛公园:今明两天暂停开放

闪电新闻
2026-05-13 09:37:07
优质“蛋白质”排行榜!牛奶倒数第一,虾肉才排第5,建议了解

优质“蛋白质”排行榜!牛奶倒数第一,虾肉才排第5,建议了解

岐黄传人孙大夫
2025-12-20 10:00:03
戛纳这天,被“又壮又矮”的巩俐惊艳,不穿暴露礼服却能艳压群芳

戛纳这天,被“又壮又矮”的巩俐惊艳,不穿暴露礼服却能艳压群芳

不似少年游
2026-05-13 14:34:55
许家印钱多没地方花!干了两件大事:270亿买万科股票 空手套白狼

许家印钱多没地方花!干了两件大事:270亿买万科股票 空手套白狼

凉羽亭
2026-05-01 18:41:49
笑到想死!黄晓明录制《中餐厅10》行李箱超抢镜!全网跪求同款

笑到想死!黄晓明录制《中餐厅10》行李箱超抢镜!全网跪求同款

阿废冷眼观察所
2026-05-13 09:26:35
2026-05-13 22:39:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7269文章数 20751关注度
往期回顾 全部

科技要闻

腾讯一季度营收1964.6亿元 同比增9%

头条要闻

为杜特尔特家族出头 菲参议员遭ICC通缉被困参院大楼

头条要闻

为杜特尔特家族出头 菲参议员遭ICC通缉被困参院大楼

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

艺术
本地
数码
健康
公开课

艺术要闻

乾隆 “翻车” 名画刷屏!

本地新闻

用苏绣的方式,打开江西婺源

数码要闻

小米手环10 Pro陶瓷版亮相,搭配柔软贴合氟橡胶表带

干细胞能让人“返老还童”吗

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版