网易首页 > 网易号 > 正文 申请入驻

再见,数据标注!腾讯发布R-Zero框架,让AI自己训练自己

0
分享至


大数据文摘出品

一个不再依赖人类数据标注的大模型训练框架,它来了!

由腾讯AI Lab与美国圣路易斯华盛顿大学联合开发的新框架“R-Zero”,成功展示出大语言模型(LLM)如何靠自己训练自己,不再需要人类提供任务或答案。


论文地址: https://www.arxiv.org/pdf/2508.05004

这个突破的核心,是彻底摆脱人类标注数据的依赖,靠模型之间的博弈,自动生成、筛选和吸收新的训练内容。

他们用强化学习的方法,让两个AI模型互相挑战、不断进化,从零开始构建出一个高质量的训练体系。


R-Zero采用的结构,是将一个基础模型一分为二,分别扮演“挑战者”和“解答者”两个角色,分别训练,但共同进化。

挑战者的目标是设计刚好够难的问题,逼迫解答者必须进步;而解答者在解决这些问题中获得奖励和提升。

“不是找到答案难,而是提出好问题难。”显然,真正稀缺的是“好老师”,而不是“好学生”。

R-Zero就是通过自动化产生“老师”,让模型不断面对新的、更难的考题,从而不断突破原有水平。

01 R-Zero的实验结果

R-Zero的实验效果远超预期,尤其是在推理能力方面,不同规模的开源大模型均出现明显性能跃升


腾讯测试了多个模型家族,包括Qwen3系列和OctoThinker,在基础模型上仅通过R-Zero训练,就让推理能力显著提升。

例如,Qwen3-4B-Base在数学推理测试中得分平均提升+6.49分;Qwen3-8B-Base在三轮训练后得分也提升了+5.51分。

更重要的是,这种通过数学任务训练得到的推理能力,可以成功迁移到通用推理任务上

在MMLU-Pro和SuperGPQA等通用领域测试中,Qwen3-4B-Base同样表现出+7.54分的跃升,说明R-Zero训练的不只是技巧,而是底层能力。

甚至在后续再用传统标注数据微调时,经过R-Zero预训练的模型也能表现得更好。

对企业而言,R-Zero的“从零数据”方式尤其具有吸引力,因为许多垂直行业领域,压根没有高质量的大规模数据集可供使用


腾讯的这项研究直接绕开了数据收集、人工标注这些最昂贵、最耗时的流程,变相打破了AI发展的最大天花板:人类知识和数据的边界。

02 但问题同样存在

尽管R-Zero在性能上令人振奋,但它也暴露出自我进化AI的核心风险:数据质量的失控

研究者发现,随着挑战者不断提出更复杂的问题,解答者给出的“多数票答案”正确率开始下降。


第一轮训练中,自动生成数据的准确率为79%,而到第三轮下降至63%

相比之下,一个“强大而理想”的大模型如GPT-4,可以保持更高的正确率,这种落差说明自我进化的过程可能存在精度塌陷的风险。这是这个新范式面临的最大瓶颈。

目前论文成果只是概念验证,要真正做到持续稳定进化,不出现性能平台期,是接下来整个研究社区要攻克的难关。

此外,R-Zero目前仅适用于“答案可验证”的任务,如数学推理、科学问答等,其优势来自于能够清晰判断“对”与“错”。

那在没有“标准答案”的领域怎么办?比如营销文案、情感写作、摘要生成?

腾讯提出了未来的一种可能方向:引入第三个模型角色“验证者”或“评论员”。

验证者将不再判断对错,而是评价内容的质量,从多个维度给予评分。

如此一来,挑战者继续生成题目,解答者负责作答,而验证者则提供反馈。三方协同进化,形成更复杂、更全面的智能结构。

或许会推动AI从“逻辑能力”迈向“主观判断”,不仅懂计算,更懂人类世界的模糊与语境。

注:头图AI生成

作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信Q1yezi,共同交流行业动态与技术趋势!

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

点「赞」的人都变好看了哦!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“钟才文”八连评后,“钟才平”首现《人民日报》

“钟才文”八连评后,“钟才平”首现《人民日报》

澎湃新闻
2026-01-07 13:50:26
黄循财突然转向:新加坡愿竭尽全力,帮助印度实现大国崛起?

黄循财突然转向:新加坡愿竭尽全力,帮助印度实现大国崛起?

天气观察站
2026-01-07 14:54:04
好莱坞著名影星乔治·克鲁尼携全家入籍法国,特朗普讽刺:他根本不是什么明星!之前两人就公开“互怼”过

好莱坞著名影星乔治·克鲁尼携全家入籍法国,特朗普讽刺:他根本不是什么明星!之前两人就公开“互怼”过

极目新闻
2026-01-05 10:25:17
35岁郑爽大变样:鼻子下塌,眼睛变形,根本认不出,手机屏幕亮点

35岁郑爽大变样:鼻子下塌,眼睛变形,根本认不出,手机屏幕亮点

有范又有料
2026-01-07 15:14:10
女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

女护士处理男患者隐私部位,会感觉难为情吗?美女护士说出大实话

第7情感
2025-09-17 12:12:15
巴媒:奥斯卡迟迟未宣布退役,因为圣保罗欠他数百万薪资

巴媒:奥斯卡迟迟未宣布退役,因为圣保罗欠他数百万薪资

懂球帝
2026-01-06 23:02:51
俄外交部:俄方愿向委内瑞拉提供必要支持

俄外交部:俄方愿向委内瑞拉提供必要支持

新华社
2026-01-06 23:55:05
马杜罗救兵到了,美遭围殴,中俄罕见9打1,三角洲美军连夜转向?

马杜罗救兵到了,美遭围殴,中俄罕见9打1,三角洲美军连夜转向?

文雅笔墨
2026-01-07 13:30:05
没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

没有这种食物,你的肌肉将消失!医生:60岁后恢复肌力的7种食物

健康之光
2026-01-04 09:31:45
当不成总统了?美最新民调出来了,特朗普态度转变,英法不宣而战

当不成总统了?美最新民调出来了,特朗普态度转变,英法不宣而战

剑道万古似长夜
2026-01-07 10:34:34
詹姆斯:所有背靠背我都待定出战;41岁的我上场时间历史最多

詹姆斯:所有背靠背我都待定出战;41岁的我上场时间历史最多

懂球帝
2026-01-07 12:22:24
两位女神太美了,百看不厌,还有后面石头上的两个字陌生有谁认识

两位女神太美了,百看不厌,还有后面石头上的两个字陌生有谁认识

情感大头说说
2026-01-06 15:09:24
为啥说生命的尽头是玄学?网友:我去那家公司上班,后期公司就垮

为啥说生命的尽头是玄学?网友:我去那家公司上班,后期公司就垮

带你感受人间冷暖
2026-01-07 00:10:05
马杜罗卫队确实殊死抵抗,不过却是古巴人,最终阵亡了32人

马杜罗卫队确实殊死抵抗,不过却是古巴人,最终阵亡了32人

战风
2026-01-05 11:45:55
调查发现:癌症患者过了79岁,基本都有这3现状,坦然接受即可!

调查发现:癌症患者过了79岁,基本都有这3现状,坦然接受即可!

坠入二次元的海洋
2025-12-30 10:26:08
领导突然问你“要不要考虑去别的岗位”,千万不要说“我考虑下”,高情商这么回,反客为主!

领导突然问你“要不要考虑去别的岗位”,千万不要说“我考虑下”,高情商这么回,反客为主!

二胡的岁月如歌
2026-01-03 18:02:12
分手8年,胖到认不出的coco自曝私密事,89岁谢贤还要为风流买单

分手8年,胖到认不出的coco自曝私密事,89岁谢贤还要为风流买单

好贤观史记
2026-01-06 15:20:16
38岁还能32分13篮板!湖人冠军中锋,或来中国打球

38岁还能32分13篮板!湖人冠军中锋,或来中国打球

德译洋洋
2026-01-07 14:58:00
无业男戏瘾上身扮民警12年,高升至公安局副局长,因百万借款露馅

无业男戏瘾上身扮民警12年,高升至公安局副局长,因百万借款露馅

历史品鉴仓
2025-12-12 17:02:56
TA:阿连德转会迈阿密国际预计本周完成,不会占指定球员名额

TA:阿连德转会迈阿密国际预计本周完成,不会占指定球员名额

懂球帝
2026-01-07 14:52:47
2026-01-07 16:52:49
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6815文章数 94525关注度
往期回顾 全部

科技要闻

豪掷世界第一"球" 杨元庆亮出联想AI护城河

头条要闻

中方被问是否计划采取行动帮助马杜罗夫妇 外交部回应

头条要闻

中方被问是否计划采取行动帮助马杜罗夫妇 外交部回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

蔚来2025百万台收官 一场迟到的自我修复

态度原创

数码
旅游
时尚
艺术
手机

数码要闻

先于标准获批,华硕计划2026年内发布首批Wi-Fi 8家用路由器

旅游要闻

冬日太行,冰雪欢歌

看起来很好亲的唇,能养出来?

艺术要闻

David Grossmann:不一样的风景画

手机要闻

消息称三星2月25日发布Galaxy S26系列手机

无障碍浏览 进入关怀版