网易首页 > 网易号 > 正文 申请入驻

RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】大模型强化学习总是「用力过猛」?Scale AI联合UCLA、芝加哥大学的研究团队提出了一种基于评分准则(rubric)的奖励建模新方法,从理论和实验两个维度证明:要想让大模型对齐效果好,关键在于准确区分「优秀」和「卓越」的回答。这项研究不仅揭示了奖励过度优化的根源,还提供了实用的解决方案。

让大模型按照人类意图行事,一直是AI领域的核心挑战。目前主流的强化学习微调(RFT)方法虽然有效,但存在一个致命弱点:奖励过度优化(reward over-optimization)。

奖励过度优化是大模型对齐的「阿喀琉斯之踵」。

简单来说,就是模型学会了「钻空子」——它们不是真正变得更好,而是学会了如何在奖励模型上刷高分,实际输出质量反而下降。这就像考试时学生死记硬背标准答案来应付老师,而不是真正理解知识。

Scale AI的最新研究直击这一痛点,从理论层面揭示了问题的根源,并提出了创新的解决方案。


论文链接:https://arxiv.org/abs/2509.21500

代码开源:https://github.com/Jun-Kai-Zhang/rubrics

数据开源:https://huggingface.co/datasets/JunkaiZ/Rubrics

理论突破

高分区才是关键战场

来自Scale AI、UCLA和芝加哥大学的研究团队,首次从理论上给出了明确答案:

奖励过度优化的根源,在于奖励模型在高分区的不准确性

  • 高奖励区域的准确性决定一切:当代理奖励在高分区域出现偏差时,模型性能会随着训练进程急剧崩溃;而低分区域的误差影响微乎其微。

  • 只需要准确识别Top 2响应:即使只能正确排序前10%的优质回答,模型性能就能接近最优,效果几乎与完美奖励模型相当。

这意味着:我们不需要在所有回复上都准确,需要准确区分「优秀」和「卓越」!


方法创新

用评分准则捕捉「卓越」

理论清晰了,但新问题来了:如何获得高质量样本来训练奖励模型?这里存在一个悖论:

从基础模型采样?太低效了——高分样本本来就稀少。

用更强模型生成?又会引入分布偏移——奖励模型可能学到的是表面特征而非真实能力。

研究团队提出了基于评分准则(rubric)的解决方案。评分准则是一组衡量回答好坏的明确准则,每个准则都有相应权重。比如对于医疗诊断问题,可能包括:

高权重准则:「正确识别疾病」「标明紧急程度」

低权重准则:「提及治疗方案」

Rubric的核心优势在于

  • 将评分分解为多个可验证的具体标准

  • 每个标准都是二元判断(满足/不满足)

  • 最终得分是满足标准的加权平均

更重要的是,Rubric天然具有分布不变性——它关注的是回复本身的质量特征,而非生成来源。


两大原则:如何构建有效的Rubric

为了让Rubric真正捕捉高分区的差异,研究团队提出两大关键原则:

  • 原则1:区分「优秀」与「卓越」通过对比两个都很好的回答,识别它们的细微差异,将这些差异编码为新的评分准则。

  • 原则2:在多样化的优质回答中寻找差异扩大候选池,从16个顶尖模型中采样,确保覆盖不同的优秀回答模式。


实验验证

全面碾压基线方法

研究在通用和医疗两个领域进行了大规模实验:

性能提升明显

  • 使用优质样本改进的评分准则,胜率从31.3%提升至39.7%

  • 医疗领域的HealthBench得分从0.3004提升至0.3513

有效缓解奖励过度优化
  • 初始评分准则训练的模型在60步后性能急剧下降

  • 改进后的评分准则将崩溃点推迟到160步,延长了近3倍


高奖励区域准确率大幅提升

评分准则改进后,在高奖励区域的准确率提升显著,而低奖励区域的准确率基本不变,完美验证了理论预测。

质的飞跃:优秀样本带来更深层的改进

研究团队还分析了不同质量样本带来的Rubric改进类型:

优秀样本驱动的改进

  • 添加惩罚项,避免明显错误

  • 放宽过于严格的标准

  • 纠正错误或对齐预期标准

卓越样本驱动的改进

  • 将复杂标准分解为子标准

  • 增强验证和证据标准

  • 明确范围、边界和约束

  • 纳入风险分析和安全约束

以医疗案例为例:

初始Rubric只要求「提到正确诊断」和「说明紧急性」——两个优秀回复都满足。

精炼后的Rubric新增标准:「明确指出需要紧急影像学检查(如增强CT或MRI/MRV)来确认诊断」,成功区分出了更好的那个。

这就是质的飞跃:从表面判断到深层验证标准。

产业意义与展望

这项研究为大模型对齐提供了全新视角:

  1. 理论指导实践:明确了奖励建模的优化方向——聚焦高奖励区域

  2. 方法可操作性强:基于评分准则的方法易于实施和解释

  3. 领域适应性好:在医疗等专业领域表现尤其出色

当然,研究也指出了当前的局限:

  • 简单的加权平均可能不是最优的分数聚合方式

对于大模型从业者来说,这项工作提供了一个清晰的方向:

不要试图在所有地方都完美,专注于准确区分顶尖回复,这才是对齐的关键。

参考资料:

https://arxiv.org/abs/2509.21500

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网传莫雷诺、范志毅将在上海参加怀旧赛,比赛时间4月25日

网传莫雷诺、范志毅将在上海参加怀旧赛,比赛时间4月25日

懂球帝
2026-03-23 16:04:10
油价微涨1.8元/升

油价微涨1.8元/升

传播真能量
2026-03-23 07:12:56
国家出手!追缴许家印3200亿,前妻丁玉梅成关键,被全球“通缉”

国家出手!追缴许家印3200亿,前妻丁玉梅成关键,被全球“通缉”

历史伟人录
2026-03-22 19:21:55
“当心砸了你儿子的饭碗”,无知母亲晒公务员儿子做农活,被群嘲

“当心砸了你儿子的饭碗”,无知母亲晒公务员儿子做农活,被群嘲

妍妍教育日记
2026-02-24 18:13:37
巴铁又输惨了?印媒:S400首次击落1架枭龙,原本瞄准的是歼-10CE

巴铁又输惨了?印媒:S400首次击落1架枭龙,原本瞄准的是歼-10CE

书纪文谭
2026-03-19 18:12:37
拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

拉夫罗夫:莫斯科将把所有历史上的俄罗斯土地归还其合法家园

旧窗老街
2026-02-23 01:50:19
为什么说俄乌战争打的越激烈,越能证明朱元璋的伟大?

为什么说俄乌战争打的越激烈,越能证明朱元璋的伟大?

贱议你读史
2026-03-23 00:25:03
新婚夜,62岁再婚老伴提出要求,大妈:宁可给你生娃,也不答应

新婚夜,62岁再婚老伴提出要求,大妈:宁可给你生娃,也不答应

混音情感
2026-03-23 16:49:46
“F-35被击中”,伊朗上空到底发生了什么?

“F-35被击中”,伊朗上空到底发生了什么?

上观新闻
2026-03-23 07:56:03
知名港星癌细胞扩散至脑部,闻到身上有尸臭味,剩四分之一条人命

知名港星癌细胞扩散至脑部,闻到身上有尸臭味,剩四分之一条人命

叨唠
2026-03-15 17:36:49
美国教授谈中东局势:4-5周内必须停战,以避免全球经济受到破坏

美国教授谈中东局势:4-5周内必须停战,以避免全球经济受到破坏

新京报
2026-03-22 20:57:15
21年赢一次!爆冷双杀!哈登机会真来了...

21年赢一次!爆冷双杀!哈登机会真来了...

柚子说球
2026-03-23 11:54:28
中国的反击开始了,接二连三让 美国 彻底怂了

中国的反击开始了,接二连三让 美国 彻底怂了

安安说
2026-03-13 12:10:13
混音主帅盛赞杨瀚森!G联赛场均17+9未统治 克林根已能对轰约基奇

混音主帅盛赞杨瀚森!G联赛场均17+9未统治 克林根已能对轰约基奇

颜小白的篮球梦
2026-03-23 10:56:27
人不会无缘无故患糖尿病!研究发现:得糖尿病的人,离不开这5点

人不会无缘无故患糖尿病!研究发现:得糖尿病的人,离不开这5点

医学原创故事会
2026-02-21 23:54:05
马英九与萧旭岑切割关系后,郑丽文正式回应,对准马英九?不简单

马英九与萧旭岑切割关系后,郑丽文正式回应,对准马英九?不简单

DS北风
2026-03-23 14:30:04
军事 | 荷兰因何冒出头来,驻日美军调动大有玄机!

军事 | 荷兰因何冒出头来,驻日美军调动大有玄机!

新民周刊
2026-03-23 09:07:35
不止石油!拆解伊朗手里的“三张底牌”

不止石油!拆解伊朗手里的“三张底牌”

看看新闻Knews
2026-03-20 19:25:03
陈伟霆何穗婚后首次同框!夜晚手挽手散步,穿情侣羽绒服热聊好甜

陈伟霆何穗婚后首次同框!夜晚手挽手散步,穿情侣羽绒服热聊好甜

陶寻爱说
2026-03-23 12:22:27
夜王丨黄子华预告破亿即开夜场鱼蛋档 拍续集让给刘青云:我歇几个月!郑秀文成“准亿后”感谢各行各业支持

夜王丨黄子华预告破亿即开夜场鱼蛋档 拍续集让给刘青云:我歇几个月!郑秀文成“准亿后”感谢各行各业支持

TVB资讯台
2026-03-22 21:11:31
2026-03-23 17:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14790文章数 66710关注度
往期回顾 全部

科技要闻

裁掉2万多名员工后,扎克伯格对自己下手了

头条要闻

特朗普向伊朗发出48小时"最后通牒" 中方表态

头条要闻

特朗普向伊朗发出48小时"最后通牒" 中方表态

体育要闻

不敢放手一搏,你拿什么去争冠?

娱乐要闻

刘烨47岁生日,安娜晒全家福为其庆生

财经要闻

沪指险守3800点 全市场超百股跌停

汽车要闻

"拒绝"豪车税 新款Panamera尽享版99.8万元起精准入局

态度原创

时尚
艺术
数码
房产
公开课

“这条裙子”才是今年春天的顶流,怎么搭都好看

艺术要闻

如此美妙的光影,安静而温暖,真令人折服!

数码要闻

哈趣Ace1耳夹式耳机:百元预算撬动全能体验

房产要闻

440亿!海南又一城城更计划曝光!TOP10房企巨头突然杀入!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版