网易首页 > 网易号 > 正文 申请入驻

R-Zero 深度解析:无需人类数据,AI 如何实现自我进化?

0
分享至

本文第一作者黄呈松 (Chengsong Huang) 是圣路易斯华盛顿大学的博士生,Google scholar citation 五百多次,目前的研究的兴趣是强化学习和大语言模型。机器之心曾经报道过其之前工作 Lorahub 已经被引超过 250 次。

大型语言模型(LLM)的发展长期以来受限于对大规模、高质量人工标注数据的依赖,这不仅成本高昂,也从根本上限制了 AI 超越人类知识边界的潜力 。《R-Zero:从零数据中自我进化的推理大模型》提出了一种全新的范式,旨在打破这一瓶颈。该研究设计了一个名为 R-Zero 的全自主框架,使模型能够从零开始,通过自我驱动的协同进化生成课程并提升推理能力,为通往更自主的人工智能提供了一条值得深入探讨的路径。

《R-Zero》论文的核心,是构建一个能从「零数据」开始自我进化的 AI 框架 ,主要依赖于两个 AI 角色挑战者(Challenger)解决者(Solver)

  • 论文链接: https://www.arxiv.org/abs/2508.05004
  • 项目代码: https://github.com/Chengsong-Huang/R-Zero
  • 项目主页: https://chengsong-huang.github.io/R-Zero.github.io/

挑战者 - 解决者的协同进化

R-Zero 的架构核心是从一个基础 LLM 出发,初始化两个功能独立但目标协同的智能体:挑战者(Challenger, Qθ)解决者(Solver, Sϕ)

  • 挑战者 (Challenger):其角色是课程生成器。它的优化目标并非生成绝对难度最高的问题,而是精准地创造出位于当前解决者能力边界的任务,即那些最具信息增益和学习价值的挑战 。
  • 解决者 (Solver):其角色是学生。它的目标是解决由挑战者提出的问题,并通过这一过程持续提升自身的推理能力 。

这两个智能体在一个迭代的闭环中协同进化,整个过程无需人类干预 :

1.挑战者训练:在当前冻结的解决者模型上,挑战者通过强化学习进行训练,学习如何生成能使解决者表现出最大不确定性的问题。

2.课程构建:更新后的挑战者生成一个大规模的问题池,作为解决者下一阶段的学习材料。

3.解决者训练:解决者在这个由挑战者量身定制的新课程上进行微调,提升自身能力。

4.迭代循环:能力增强后的解决者,成为下一轮挑战者训练的新目标。如此循环往复,两个智能体的能力共同螺旋式上升。

这是一个完全封闭、自我驱动的进化循环。在这个过程中,AI 自己生成问题,自己生成用于学习的「伪标签」,自己完成训练,完全不需要任何外部人类数据的输入。

具体实现方法

由于没有外部「标准答案」,解决者必须自我生成监督信号。

  • 伪标签生成:采用自我一致性(self-consistency)策略。对于每个问题,解决者会生成多个(例如 10 个)候选答案,其中出现频率最高的答案被选为该问题的「伪标签」(pseudo-label)。
  • 过滤器:这是框架设计的关键一环。并非所有生成的问题都被用于训练,只有那些解决者经验正确率 p^i 落在特定「信息带」内(例如,正确率在 25% 到 75% 之间)的问题才会被保留 。该过滤器起到了双重作用:

1.难度校准:显式地剔除了过易或过难的任务。

2.质量控制:一致性极低的问题(例如 10 次回答各不相同)往往是定义不清或逻辑混乱的,该机制能有效过滤掉这类噪声数据。消融实验证明,移除该步骤会导致模型性能显著下降 。

为了生成高效的课程,挑战者的奖励函数由三部分构成 :

  • 不确定性奖励(Uncertainty Reward):这是奖励函数的核心。其公式为 runcertainty=1−2∣p^(x;Sϕ)−1/2∣,其中 p^ 是解决者对问题 x 的经验正确率。当解决者的正确率接近 50% 时,奖励最大化。这一设计的理论依据是,此时学习者的学习效率最高,每个样本带来的信息增益也最大 。
  • 重复惩罚(Repetition Penalty):为保证课程的多样性,框架利用 BLEU 分数来衡量批次内问题的相似度,并对过于相似的问题施加惩罚 。

实验结果与分析

数学推理能力显著提升:经过三轮自我进化,Qwen3-8B-Base 模型在多个数学基准测试上的平均分从 49.18 提升至 54.69(+5.51)。

向通用领域的强大泛化能力:尽管训练任务集中于数学,但模型的核心推理能力得到了泛化。在 MMLU-Pro、SuperGPQA 等通用推理基准上,Qwen3-8B-Base 的平均分提升了 3.81 分 。这表明 R-Zero 增强的是模型底层的通用能力,而非特定领域的知识记忆。

与人类数据的协同效应

实验证明,先经过 R-Zero 训练的基础模型,再使用人类标注数据进行监督微调,能达到比直接微调更高的性能。这说明 R-Zero 可以作为一种高效的中间训练阶段,最大化人类标注数据的价值 。

核心局限与未来展望

尽管成果显著,R-Zero 框架也揭示了其内在的挑战和局限性。

  • 伪标签准确率的衰减:这是该框架最核心的挑战。分析表明,随着课程难度在迭代中提升,由自我一致性生成的伪标签的真实准确率,从第一轮的 79.0% 系统性地下降到了第三轮的 63.0%。这意味着模型在后期学习的监督信号中包含了更多的噪声。如何在这种难度与质量的权衡中找到稳定点,是决定该框架能否长期进化的关键。
  • 领域局限性:当前框架高度依赖于那些存在客观、可验证正确答案的领域(如数学)。对于评估标准主观、解决方案多元的任务(如创意写作、战略规划),基于多数投票的自我监督机制将难以适用 。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
臆测10月解放军“收复台湾” 美军大肆囤积弹药

臆测10月解放军“收复台湾” 美军大肆囤积弹药

看看新闻Knews
2026-07-04 14:28:03
世界杯争议!主裁纵容爆发冲突,巴拉圭肘击逃牌,姆巴佩痛苦倒地

世界杯争议!主裁纵容爆发冲突,巴拉圭肘击逃牌,姆巴佩痛苦倒地

侃球熊弟
2026-07-05 06:05:15
文娱榜第一!短剧顶流郭宇欣录音流出:“我和周也还不一定谁蹭谁呢”

文娱榜第一!短剧顶流郭宇欣录音流出:“我和周也还不一定谁蹭谁呢”

新腕儿
2026-07-04 16:34:05
LV批量起诉惹争议,网友:你敢起诉人民币吗?

LV批量起诉惹争议,网友:你敢起诉人民币吗?

映射生活的身影
2026-07-04 20:06:13
中国男篮动态更新!男篮高层深夜召开紧急会议,12名球员出发韩国多名球员已离队,赵继伟脚伤加重,郭士强已做好离职准备

中国男篮动态更新!男篮高层深夜召开紧急会议,12名球员出发韩国多名球员已离队,赵继伟脚伤加重,郭士强已做好离职准备

凯丰侃球
2026-07-05 00:06:38
低价套餐不给办?移动人员提醒:办理套餐绕开10086,就打这3个

低价套餐不给办?移动人员提醒:办理套餐绕开10086,就打这3个

粤语音乐喷泉
2026-07-04 05:36:10
WTT美国大满贯太残酷了:随着张本美和4-1进4强,5大前十悍将已出局

WTT美国大满贯太残酷了:随着张本美和4-1进4强,5大前十悍将已出局

侧身凌空斩
2026-07-05 04:01:34
50岁王力宏成都演唱会不慎摔倒,面部、耳朵受伤流血,被扶起后继续表演;其团队被指反复出现舞台巡检疏忽

50岁王力宏成都演唱会不慎摔倒,面部、耳朵受伤流血,被扶起后继续表演;其团队被指反复出现舞台巡检疏忽

扬子晚报
2026-07-04 21:11:48
中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

中央开始严查,多地机关事业单位大整顿启动,这几类人受影响最大

细说职场
2026-07-04 21:41:53
WTT美国大满贯捷报:女单爆冷!国乒女单后继有人,孙颖莎剃光头

WTT美国大满贯捷报:女单爆冷!国乒女单后继有人,孙颖莎剃光头

翰飞观事
2026-07-04 19:12:47
世体:自世界杯首战表现不佳后,B席在葡萄牙队已经没有位置

世体:自世界杯首战表现不佳后,B席在葡萄牙队已经没有位置

懂球帝
2026-07-04 11:45:09
女性之间大体相似:可走进澡堂子才明白人与人之间的差距

女性之间大体相似:可走进澡堂子才明白人与人之间的差距

王二哥老搞笑
2026-07-04 15:58:04
随和摩洛哥3-0晋级世界杯八强,世界杯最新射手榜出炉

随和摩洛哥3-0晋级世界杯八强,世界杯最新射手榜出炉

侧身凌空斩
2026-07-05 03:24:15
马斯克的神秘学校首次全球招生!不看分数、不用考试、老师都是NASA科学家

马斯克的神秘学校首次全球招生!不看分数、不用考试、老师都是NASA科学家

留学生日报
2026-07-04 19:19:11
赛格最初创始人公开举报西安赛格:赵贵亲口说,我拿着你的钱跟你打官司,耗死你,你能搞的过我?

赛格最初创始人公开举报西安赛格:赵贵亲口说,我拿着你的钱跟你打官司,耗死你,你能搞的过我?

贴小君
2026-07-04 13:12:59
突尼斯主帅勒纳尔自宣离任,世界杯火线接手两战全败垫底出局

突尼斯主帅勒纳尔自宣离任,世界杯火线接手两战全败垫底出局

懂球帝
2026-07-05 01:54:09
勇哥说餐饮被抖音封了!

勇哥说餐饮被抖音封了!

红色少女主播
2026-07-04 23:38:44
多名演员发文抵制!业内人士:很悲哀,收入猛降八成,几乎成“免费劳动力”

多名演员发文抵制!业内人士:很悲哀,收入猛降八成,几乎成“免费劳动力”

浙江之声
2026-07-04 08:13:16
你们有何颜面作出好的示范?

你们有何颜面作出好的示范?

胖胖说他不胖
2026-07-04 10:00:12
0-3!皇马大将送助攻,世界杯首支8强球队诞生,摩洛哥静候法国

0-3!皇马大将送助攻,世界杯首支8强球队诞生,摩洛哥静候法国

我的护球最独特
2026-07-05 03:06:31
2026-07-05 06:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13429文章数 142687关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

头条要闻

老人被一次拔12颗牙种10颗:能刷的钱都刷走 只剩30块

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
数码
时尚
健康
军事航空

教育要闻

高考地理中的植被响应

数码要闻

苏姿丰签名同款!极摩客EVO-X3 AI工作站全球开卖:国行版21699元起

别再说"露肩衣服 "难驾驭!看看这几组日常穿搭,大方有回头率

听说少吃点能抗衰老?专家讲解!

军事要闻

普京宣布俄军“完全解放”卢甘斯克

无障碍浏览 进入关怀版