网易首页 > 网易号 > 正文 申请入驻

RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】大模型强化学习总是「用力过猛」?Scale AI联合UCLA、芝加哥大学的研究团队提出了一种基于评分准则(rubric)的奖励建模新方法,从理论和实验两个维度证明:要想让大模型对齐效果好,关键在于准确区分「优秀」和「卓越」的回答。这项研究不仅揭示了奖励过度优化的根源,还提供了实用的解决方案。

让大模型按照人类意图行事,一直是AI领域的核心挑战。目前主流的强化学习微调(RFT)方法虽然有效,但存在一个致命弱点:奖励过度优化(reward over-optimization)。

奖励过度优化是大模型对齐的「阿喀琉斯之踵」。

简单来说,就是模型学会了「钻空子」——它们不是真正变得更好,而是学会了如何在奖励模型上刷高分,实际输出质量反而下降。这就像考试时学生死记硬背标准答案来应付老师,而不是真正理解知识。

Scale AI的最新研究直击这一痛点,从理论层面揭示了问题的根源,并提出了创新的解决方案。


论文链接:https://arxiv.org/abs/2509.21500

代码开源:https://github.com/Jun-Kai-Zhang/rubrics

数据开源:https://huggingface.co/datasets/JunkaiZ/Rubrics

理论突破

高分区才是关键战场

来自Scale AI、UCLA和芝加哥大学的研究团队,首次从理论上给出了明确答案:

奖励过度优化的根源,在于奖励模型在高分区的不准确性

  • 高奖励区域的准确性决定一切:当代理奖励在高分区域出现偏差时,模型性能会随着训练进程急剧崩溃;而低分区域的误差影响微乎其微。

  • 只需要准确识别Top 2响应:即使只能正确排序前10%的优质回答,模型性能就能接近最优,效果几乎与完美奖励模型相当。

这意味着:我们不需要在所有回复上都准确,需要准确区分「优秀」和「卓越」!


方法创新

用评分准则捕捉「卓越」

理论清晰了,但新问题来了:如何获得高质量样本来训练奖励模型?这里存在一个悖论:

从基础模型采样?太低效了——高分样本本来就稀少。

用更强模型生成?又会引入分布偏移——奖励模型可能学到的是表面特征而非真实能力。

研究团队提出了基于评分准则(rubric)的解决方案。评分准则是一组衡量回答好坏的明确准则,每个准则都有相应权重。比如对于医疗诊断问题,可能包括:

高权重准则:「正确识别疾病」「标明紧急程度」

低权重准则:「提及治疗方案」

Rubric的核心优势在于

  • 将评分分解为多个可验证的具体标准

  • 每个标准都是二元判断(满足/不满足)

  • 最终得分是满足标准的加权平均

更重要的是,Rubric天然具有分布不变性——它关注的是回复本身的质量特征,而非生成来源。


两大原则:如何构建有效的Rubric

为了让Rubric真正捕捉高分区的差异,研究团队提出两大关键原则:

  • 原则1:区分「优秀」与「卓越」通过对比两个都很好的回答,识别它们的细微差异,将这些差异编码为新的评分准则。

  • 原则2:在多样化的优质回答中寻找差异扩大候选池,从16个顶尖模型中采样,确保覆盖不同的优秀回答模式。


实验验证

全面碾压基线方法

研究在通用和医疗两个领域进行了大规模实验:

性能提升明显

  • 使用优质样本改进的评分准则,胜率从31.3%提升至39.7%

  • 医疗领域的HealthBench得分从0.3004提升至0.3513

有效缓解奖励过度优化
  • 初始评分准则训练的模型在60步后性能急剧下降

  • 改进后的评分准则将崩溃点推迟到160步,延长了近3倍


高奖励区域准确率大幅提升

评分准则改进后,在高奖励区域的准确率提升显著,而低奖励区域的准确率基本不变,完美验证了理论预测。

质的飞跃:优秀样本带来更深层的改进

研究团队还分析了不同质量样本带来的Rubric改进类型:

优秀样本驱动的改进

  • 添加惩罚项,避免明显错误

  • 放宽过于严格的标准

  • 纠正错误或对齐预期标准

卓越样本驱动的改进

  • 将复杂标准分解为子标准

  • 增强验证和证据标准

  • 明确范围、边界和约束

  • 纳入风险分析和安全约束

以医疗案例为例:

初始Rubric只要求「提到正确诊断」和「说明紧急性」——两个优秀回复都满足。

精炼后的Rubric新增标准:「明确指出需要紧急影像学检查(如增强CT或MRI/MRV)来确认诊断」,成功区分出了更好的那个。

这就是质的飞跃:从表面判断到深层验证标准。

产业意义与展望

这项研究为大模型对齐提供了全新视角:

  1. 理论指导实践:明确了奖励建模的优化方向——聚焦高奖励区域

  2. 方法可操作性强:基于评分准则的方法易于实施和解释

  3. 领域适应性好:在医疗等专业领域表现尤其出色

当然,研究也指出了当前的局限:

  • 简单的加权平均可能不是最优的分数聚合方式

对于大模型从业者来说,这项工作提供了一个清晰的方向:

不要试图在所有地方都完美,专注于准确区分顶尖回复,这才是对齐的关键。

参考资料:

https://arxiv.org/abs/2509.21500

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
现货黄金重回5100美元关口

现货黄金重回5100美元关口

每日经济新闻
2026-01-30 19:05:14
欧洲豪门邀19岁王钰栋!未获积极反馈 本人曾表态:想再留中超2年

欧洲豪门邀19岁王钰栋!未获积极反馈 本人曾表态:想再留中超2年

我爱英超
2026-01-31 10:41:16
伊朗最高领袖顾问:已掌握敌方作战计划 将适时发动打击

伊朗最高领袖顾问:已掌握敌方作战计划 将适时发动打击

环球网资讯
2026-01-31 05:44:17
任正非没想到,高调官宣喜讯的姚安娜,凭一个举动再次给他长脸

任正非没想到,高调官宣喜讯的姚安娜,凭一个举动再次给他长脸

泠泠说史
2026-01-31 16:15:23
1米86小伙被妈妈“抓来”当中老年装模特,因“太帅”走红,带火21年老店;妈妈发声:自家卖男装,来的多是女客户,儿子暂无女朋友

1米86小伙被妈妈“抓来”当中老年装模特,因“太帅”走红,带火21年老店;妈妈发声:自家卖男装,来的多是女客户,儿子暂无女朋友

扬子晚报
2026-01-31 07:58:30
浙江卫视炸了!7000万网红怒怼评委:你15年没歌凭啥说我?

浙江卫视炸了!7000万网红怒怼评委:你15年没歌凭啥说我?

不写散文诗
2026-01-30 15:17:13
男频系统剧现「名场面」!床戏观摩画春宫图,女女葡萄吻

男频系统剧现「名场面」!床戏观摩画春宫图,女女葡萄吻

新腕儿
2026-01-30 13:31:22
上海黄浦江中发现人棍女尸,四肢头颅都被砍断,腹中怀有九月男胎

上海黄浦江中发现人棍女尸,四肢头颅都被砍断,腹中怀有九月男胎

奇闻故事汇1989
2024-11-15 21:35:03
伊朗被包围后,俄防长致电董军,重大协议正落实,美航母突然后撤

伊朗被包围后,俄防长致电董军,重大协议正落实,美航母突然后撤

老呶侃史
2026-01-29 14:17:07
上海赚大了!36岁老将轰24分10板,硬生生从第四外援打成球队头牌

上海赚大了!36岁老将轰24分10板,硬生生从第四外援打成球队头牌

理工男评篮球
2026-01-30 23:49:28
斯塔默游故宫导游火了!导游大哥穿黑衣沉稳大气,全英文解说获赞

斯塔默游故宫导游火了!导游大哥穿黑衣沉稳大气,全英文解说获赞

八八尚语
2026-01-30 11:21:52
央视春晚二次联排!19位大腕亮相,最后一位女星稳居观众最爱

央视春晚二次联排!19位大腕亮相,最后一位女星稳居观众最爱

老特有话说
2026-01-27 23:27:26
唯一在世的中共一代领导人,曾任中央政治局常委,如今109岁

唯一在世的中共一代领导人,曾任中央政治局常委,如今109岁

星辰故事屋
2026-01-23 12:14:47
临沧市公安局临翔分局原副局长为走私、赌博场等提供庇护,一审获刑六年

临沧市公安局临翔分局原副局长为走私、赌博场等提供庇护,一审获刑六年

澎湃新闻
2026-01-31 10:15:04
Shams确认!火箭底牌曝光,8大交易,哪一笔值得?

Shams确认!火箭底牌曝光,8大交易,哪一笔值得?

篮球盛世
2026-01-31 16:35:11
四年冲突终于迎来曙光,三方会谈结束后,最高兴的不是普京,是他

四年冲突终于迎来曙光,三方会谈结束后,最高兴的不是普京,是他

书纪文谭
2026-01-31 12:48:48
刘强东的两个妹妹:一个已经去世,一个有钱有颜,陪在父母身边

刘强东的两个妹妹:一个已经去世,一个有钱有颜,陪在父母身边

卷史
2026-01-30 16:52:37
两性关系:70岁后想多活20年,牢记这5句话,健康长寿少烦恼

两性关系:70岁后想多活20年,牢记这5句话,健康长寿少烦恼

匹夫来搞笑
2026-01-22 12:05:40
普京会见伊朗最高领袖顾问拉里贾尼:正密切关注伊朗局势

普京会见伊朗最高领袖顾问拉里贾尼:正密切关注伊朗局势

上观新闻
2026-01-31 08:29:07
杨瀚森:阿夫迪亚一直在尽力帮助我,他是一位很棒的队友

杨瀚森:阿夫迪亚一直在尽力帮助我,他是一位很棒的队友

懂球帝
2026-01-31 16:39:07
2026-01-31 16:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14449文章数 66549关注度
往期回顾 全部

科技要闻

中国车企和特斯拉的下一战,战场已定

头条要闻

市公安局原副局长获刑:私放走私车辆 入股色情场所

头条要闻

市公安局原副局长获刑:私放走私车辆 入股色情场所

体育要闻

新时代得分王!东皇37+三双刷7纪录怒吼释放

娱乐要闻

成龙入驻小红书,怼脸近照没有老年斑

财经要闻

白银,暴跌!黄金,40年最大跌幅!

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

艺术
时尚
房产
健康
本地

艺术要闻

15位当代国外画家的16幅具象人物绘画

2026巴黎高定时装周|全世界最美的衣服都在这了

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

耳石症分类型,症状大不同

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

无障碍浏览 进入关怀版