网易首页 > 网易号 > 正文 申请入驻

阿里巴巴最新研究:让AI"裁判"变得更公平

0
分享至

这项研究由阿里巴巴Qwen大模型应用团队联合中山大学、香港中文大学、北京大学、苏黎世联邦理工学院及苏黎世大学共同完成,以预印本形式于2026年6月2日发布在arXiv平台,论文编号为arXiv:2606.03980。有兴趣深入了解的读者可通过该编号查阅完整论文。


**当AI给AI打分,这件事比想象中复杂得多**

假设你开了一家餐厅,需要招聘一位评分员来评判厨师做出的每道菜。有些菜需要对照标准食谱来判断是否做对了,有些菜需要品尝味道,有些菜需要检查摆盘规范,还有些菜需要看顾客反馈。如果你的评分员只会用一种方式——比如只会尝味道——那他对需要核对食谱或检查摆盘的菜肴就会束手无策。更麻烦的是,如果你把所有的评判标准一次性塞给他,他也会被信息淹没,不知道从哪里下手。

大语言模型(也就是我们常说的AI)的训练过程,面临着完全相同的困境。训练AI的关键一步,是告诉AI它的回答"好不好"。负责做出这个判断的,就是所谓的"奖励模型",它扮演的正是那位餐厅评分员的角色。然而,随着AI的能力越来越强,它需要处理的任务也越来越多样:写代码、做数学题、分析文章、遵守安全规范……每种任务的评判标准天差地别,有时候需要运行代码来看结果,有时候需要对照正确答案,有时候需要检查格式是否规范,有时候需要综合考量好几个维度。现有的评分工具要么太死板(只给出一个分数,不解释原因),要么太混乱(把所有标准一股脑塞进同一个提示词里,把评分员搞晕)。

阿里巴巴等机构的研究团队为此提出了一套全新方案,名为**Skill-RM**(技能奖励模型)。它的核心思路,是把"评分"这件事变成一项可以被系统化执行的"技能",让评分员能够根据每道菜的具体情况,主动调取最合适的评判工具,而不是面对一堆杂乱的材料不知所措。

**一、现有的评分员为何总是力不从心**

回到餐厅的比喻。传统的评分方式大概分两类。第一类是"老派评分员"——他把所有吃过的菜的印象压缩成一种内在感觉,给出一个分数,但他说不清楚为什么这道菜打了7分而不是8分,更换一批菜之后他的标准可能也悄悄变了。这对应的是传统的"标量奖励模型",它们把复杂的评判标准压缩进模型参数里,输出一个不透明的数字,既难以解释,也难以灵活调整。

第二类是"现代评分员"——他会写一段话解释原因,但他的工具箱是混乱的。他把食谱、摆盘规范、顾客反馈表全都摊在桌上,一古脑儿翻阅,容易遗漏重要信息,也容易被无关内容分散注意力。这对应的是当前流行的"大模型担任裁判"(LLM-as-a-Judge)方式,它依赖把所有评判标准一次性写入提示词,缺乏对资源的系统管理。

当然也有一些研究尝试引入"评分细则"(Rubric)或"工具辅助"(Tool-augmented)的方式,但这些尝试往往只解决一个方面,评分细则有了但执行工具没有,或者工具有了但综合判断的逻辑不清晰。研究团队观察到,当前领域缺少的是一种能把所有评判资源统一管理起来的框架——一种真正的"全能评分员培训方案"。

**二、Skill-RM的核心设计:把评分变成一项可执行的"技能"**

Skill-RM的灵感来自一个近年来在AI智能体研究中兴起的概念——"智能体技能"(Agent Skill)。简单来说,一个"技能"就像一本操作手册加上一个工具箱的组合。手册里写着:遇到什么情况,应该先做什么,再做什么,调用哪个工具,最后如何汇总结论。工具箱里放着各种辅助材料:参考答案、检查清单、代码执行器、评分细则等等。重要的是,工具箱默认是关闭的,只有当你翻到手册里某个对应的步骤时,才会打开对应的抽屉取出相应工具。这样既避免了信息过载,又保证了需要的时候能找到对的工具。

Skill-RM把这个思路直接用于奖励模型的设计。整套系统由三个核心部件构成。

第一个部件是"奖励评估技能"本身,用形式化语言来说,它是一个包含"操作规程说明书(SKILL.md)"和"资源库"的组合包。操作规程定义了整个评判过程的逻辑:该评估哪些方面,什么情况下调用什么资源,需要收集哪些证据,最终如何输出结论。资源库则存放着各类评判材料。在Skill-RM的设计中,这些资源被归纳为五大类:评分细则与评估标准(定义判断维度和优先级)、参考资料(用于核对事实准确性的答案或文章)、检查清单与约束条件(把格式规范等要求拆解成可逐项核对的条件)、验证器与工具(比如Python代码沙箱,能真正运行代码来检验结果)、以及校准与聚合规则(用于在多个评估维度出现矛盾时做出综合判断)。

第二个部件是"技能驱动的判断过程"。当评分员(也就是大模型裁判)拿到一道待评分的题目和几个候选答案时,它会先浏览一下任务说明,判断这道题属于哪种类型。如果它发现这道题涉及代码格式规范,它就打开检查清单抽屉;如果涉及数学计算,它可能需要调用代码沙箱来验证;如果涉及事实核查,它就去查参考资料。整个过程是一系列"行动-观察"的循环:采取一个动作(比如查看某个资源),获得一个观察结果(资源里的内容),再决定下一步怎么做,直到所有必要的证据都收集完毕。

第三个部件是"奖励读取函数"。评分员走完整个评判流程后,会输出一个结构化的判断结果,其中包含每个评估维度的证据和结论。最终的奖励分数是从这个结构化结果中确定性地提取出来的,不是模糊的印象,而是有据可查的推断。更灵活的是,这套机制既可以用于"这个回答打几分"的绝对评分场景(点式奖励),也可以用于"这两个回答哪个更好"的比较场景(成对偏好),统一在同一套框架下。

**三、资源库的构建:不是随手拼凑,而是精心整理**

工具箱里的工具质量直接决定了评分员的水平,因此研究团队在资源库的构建上下了很大功夫。他们通过一套"大模型辅助策划流程"来整理资源:广泛收集来自奖励模型研究文献、标准评判协议、基准测试文档和可验证评估实践中的素材,然后为每项资源定义明确的适用范围,合并重复内容,去除过于特化的启发式规则,最终生成通用化的模块。整个资源库在评估开始前就被冻结,确保实验结果可复现。

研究团队特别强调,这套资源不是"把所有材料都塞进提示词"的做法。资源库在默认状态下是隐藏的,只有当操作规程中对应的步骤被触发时,相关资源才会被加载进入评分员的视野。这种"渐进式披露"的设计,是Skill-RM与传统方法的关键区别之一。

**四、实验验证:Skill-RM的实际表现如何**

研究团队在多个标准测试场景中对Skill-RM进行了全面评估,试图回答五个核心问题。

第一个问题是:在标准评分基准测试上,Skill-RM是否优于传统的"大模型裁判"方案?测试使用了三个公认的评估基准:RewardBench2(测试多维度奖励能力)、RM-Bench(测试对内容细节和风格偏见的鲁棒性)以及JudgeBench(聚焦正确性评估)。结果显示,以Qwen3.5-27B为基础模型,Skill-RM将平均分从83.9提升到了86.2,三个基准全部有所改善。以更大的Qwen3.5-122B-A10B为基础时,Skill-RM在JudgeBench上达到了85.2的最高分。与此同时,Skill-RM的表现也超过了许多专门设计的奖励模型,比如各类基于细则的评分系统和基于智能体的验证评分方案。

第二个问题是:如果给Skill-RM提供针对具体样本的额外资源(比如参考答案、约束条件、验证器输出),表现是否会进一步提升?答案是肯定的。加载样本特定资源后,平均分从86.2进一步提升到89.1,在RewardBench2上达到86.0,超过了使用相同骨干模型的OpenRS系统(OpenRS在JudgeBench上较强,这与其专门优化的评估设置有关)。这说明Skill-RM不仅能在通用场景下表现良好,在资源更丰富的场景下也能充分利用额外信息。

第三个问题,也是最关键的机制验证问题:这些提升究竟来自"技能驱动的资源组织",还是仅仅因为给了评分员更多信息?研究团队设计了一组精心的对比实验。在同样的Qwen3.5-27B模型上,他们尝试了三种不同的"加料"方式:直接把所有资源文本附加到提示词末尾(不使用技能框架)、把样本特定资源也直接附加进去、以及仅仅给模型加上一个Python工具访问权限。结果令人深思:直接附加资源反而让平均分从83.9下降到了81.0;加上样本特定资源的附加版本也只有82.0,低于无任何补充的基准;仅加Python工具的版本为83.6,几乎没有提升。相比之下,使用技能框架的Skill-RM达到86.2,加上样本特定资源后更是达到89.1。这个对比清楚地说明:提升的关键不在于给了多少信息,而在于如何有组织地管理和使用这些信息。信息过载不仅没有帮助,反而会干扰评分员的判断。

第四个问题涉及"最优N选一"(Best-of-N)场景,即从多个候选回答中选出最好的那个。使用JETTS测试集(由Qwen2.5-72B-Instruct模型生成的10个候选答案池),研究团队测试了Skill-RM在数学、指令遵循、代码等四类任务上的选择准确率。在数学题(GSM8K)上,表现接近满分,基本已经饱和。在指令遵循(IFEval)和代码正确性(HumanEval+)上,Skill-RM的改善最为明显,超过了直接打分的基准方案和Skywork评分模型。复杂代码基准(BigCodeBench)仍然较难,Skill-RM比基准稍有提升,但距离理论上界还有较大差距,说明这类任务仍是未来需要攻克的方向。

第五个问题是:Skill-RM能否被用作强化学习训练的奖励信号,真正帮助提升AI模型的指令遵循能力?研究团队以Llama-3.1-Tulu-3-8B-SFT为起点,使用VerInstruct数据集,以Skill-RM作为奖励信号,通过GRPO算法进行强化学习训练。在IF-RewardBench的Kendall相关系数测试上(该测试衡量奖励模型的排序质量),Skill-RM的平均相关系数达到0.524,高于所有对比方法,包括Gemini-3-Flash(0.513)、GPT-5-mini(0.456)以及各类专门的判别式奖励模型。在单轮对话和多轮对话子集上,Skill-RM分别达到0.619和0.540的成绩,优势明显;在系统提示词子集上,Gemini-3-Flash略胜一筹,说明处理复杂系统提示仍是Skill-RM的一个改进空间。

训练完成后的模型在三个下游指令遵循基准(IFEval、IFBench和AdvancedIF)上的综合表现达到45.9分,超过了使用同类训练数据的VerIF方案(44.7分)和Tulu 3(45.1分),在IFEval和AdvancedIF上的提升最为明显,IFBench上则与VerIF持平。

**五、在不同规模模型上的稳健性验证**

研究团队还在多个不同规模的模型上验证了Skill-RM的有效性。他们分别使用了Qwen3.5系列的9B、27B、35B-A3B和122B-A10B四个版本进行测试。在所有四个规模的模型上,Skill-RM在不使用样本特定资源的情况下,都优于对应的直接裁判基准,说明这套框架并不依赖特定规模的模型能力。

不过实验也揭示了一个有趣的边界:样本特定资源并非对所有规模都有益。对于9B这个较小的模型,加入样本特定资源后平均分反而略有下降(从66.2降至65.7),说明较小的模型在自主筛选和应用外部资源方面能力有限,可能无法可靠地判断"这个资源对当前判断有没有帮助"。研究团队将这个发现作为边界证据,表明资源并不是越多越好,模型的实际能力决定了它能有效利用多少资源。

**六、坦诚面对的局限与未来方向**

研究团队在论文中直接点出了Skill-RM目前的三个局限,而不是回避它们。

第一,当前的评估范围仅限于文本形式的指令遵循和标准奖励基准。将这套框架扩展到多模态(图片、音频等)内容、长周期智能体任务或高度主观的偏好对齐场景,是一个有挑战性但值得探索的方向。

第二,目前的奖励评估技能依赖人工策划。虽然这保证了精确性和可解释性,但如何自动生成和持续更新技能文件,仍是一个开放问题。如果这个过程能够自动化,将大大降低在新任务上部署Skill-RM的门槛。

第三,技能驱动的评判过程相比传统的单次前向计算,需要更多的推理步骤,带来了额外的计算开销。未来在自适应提前终止、证据缓存和高效资源剪枝等方向上的研究,将是平衡评判质量与计算效率的关键。

说到底,Skill-RM做的事情并不神秘,它只是把一件大家都在做但做得比较随意的事情,用一套严谨的框架规范了起来。评判一个AI的回答质量,原本就需要参考不同的标准、调用不同的工具、综合不同维度的证据——只是以前大家都把这些事情塞进一段提示词里,让AI自己凑合着解决。Skill-RM的贡献在于,它让这个过程变得有序、透明、可以被检验,就像把一个经验丰富但毫无章法的老厨师,变成了一个有操作手册、有工具架、每道菜都能说清楚为什么打这个分的专业评审。

对于普通用户而言,这项研究最直接的意义在于:你使用的AI助手未来将变得更可靠,不只是在简单问答上表现更好,在遵循复杂指令、处理代码和数学、以及在各种专业场景下的表现都会更贴近你真正的需求。而这种改善的背后,正是因为训练AI的"裁判"本身变得更公平、更准确了。

对研究者来说,一个值得深思的问题是:当"如何使用信息"比"拥有多少信息"更重要时,我们在AI系统设计中是否过于关注扩大模型的参数规模和上下文窗口,而忽视了对信息组织方式的设计?Skill-RM的实验数据给出了一个明确的提示:结构比体量更重要。感兴趣的读者可以通过arXiv编号2606.03980查阅完整论文,代码也已在GitHub的Qwen-Applications/Skill-RM仓库公开发布。

**Q&A**

Q1:Skill-RM和普通的大模型评分方式有什么本质区别?

A:普通大模型评分是把所有评判标准一次性塞进提示词,让模型自己处理。Skill-RM则提供一套操作规程加工具库的组合,模型根据当前任务类型,主动选择调用哪些评判工具,比如代码沙箱或参考答案,收集有据可查的证据后再给出结论,整个过程有明确的逻辑顺序,而非一次性模糊判断。实验表明,直接堆砌更多信息反而会让评分质量下降,而有组织地管理信息才能真正提升准确率。

Q2:Skill-RM为什么把更多资源直接加进提示词反而会变差?

A:这是实验中最反直觉的发现之一。原因在于信息过载会分散评分模型的注意力,大量无关资源混在一起时,模型难以判断哪些内容对当前任务真正有用,容易被干扰。Skill-RM的资源库默认隐藏,只有操作规程触发对应步骤时才加载相关资源,有效过滤了噪音,让模型专注于真正相关的证据。

Q3:Skill-RM在代码评测上表现有限,原因是什么?

A:在复杂代码基准BigCodeBench上,Skill-RM相比基准有小幅提升,但距离理论上界仍有较大差距。研究团队认为这类任务本身难度更高,不仅需要代码执行判断,还涉及复杂的功能语义理解,仅靠当前资源库中的Python沙箱工具尚不足以充分覆盖所有评判维度。这也是研究团队指出的未来改进方向之一。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美军对伊朗境内多个目标发动新一轮袭击

美军对伊朗境内多个目标发动新一轮袭击

中国网
2026-06-11 08:27:06
全球最高教堂落成,实景绝美,林志玲担任文化大使

全球最高教堂落成,实景绝美,林志玲担任文化大使

GA环球建筑
2026-06-14 22:51:31
两次同学聚会让我彻底看明白:退休金超6000的老人,没你想的多

两次同学聚会让我彻底看明白:退休金超6000的老人,没你想的多

花小猫的美食日常
2026-06-15 17:18:23
突尼斯媒体:突尼斯队已解雇主帅拉穆奇,哈兹里可能接手带队

突尼斯媒体:突尼斯队已解雇主帅拉穆奇,哈兹里可能接手带队

懂球帝
2026-06-15 21:05:40
看了日本队2-2荷兰队,认清现实:中国足球落后太多了,不服不行

看了日本队2-2荷兰队,认清现实:中国足球落后太多了,不服不行

锐评利物浦
2026-06-15 09:53:03
一场5-1,让世界杯F组变乱了!日本渔翁得利 垫底队浮现 排名更新

一场5-1,让世界杯F组变乱了!日本渔翁得利 垫底队浮现 排名更新

侃球熊弟
2026-06-15 11:59:54
CBA重磅:李弘权敲定顶薪!广州放弃郭艾伦,徐昕的好日子到头了

CBA重磅:李弘权敲定顶薪!广州放弃郭艾伦,徐昕的好日子到头了

林子说事
2026-06-15 20:22:18
每体:B席以自由身加盟,皇马付2000万欧签字费

每体:B席以自由身加盟,皇马付2000万欧签字费

懂球帝
2026-06-15 20:34:36
眼睛出现这4种异常,当心是大病前兆!尤其第3种,很多人不当回事

眼睛出现这4种异常,当心是大病前兆!尤其第3种,很多人不当回事

芹姐说生活
2026-06-15 22:59:58
月薪从2.6万骤降到700!4S店大崩盘:超10万人离场 传统渠道彻底凉了

月薪从2.6万骤降到700!4S店大崩盘:超10万人离场 传统渠道彻底凉了

快科技
2026-06-14 14:05:12
饿死人就开战?菲律宾司令放狠话:中国若不撤出仁爱礁,必有一战

饿死人就开战?菲律宾司令放狠话:中国若不撤出仁爱礁,必有一战

跳跳历史
2026-06-16 01:15:12
两岸谈妥了,大陆现场签约,台当局害怕的事发生,帅化民说出实话

两岸谈妥了,大陆现场签约,台当局害怕的事发生,帅化民说出实话

阿天爱旅行
2026-06-15 19:35:22
清朝作家潘伦恩,记述3件奇闻异事,让人不得不相信劫数的厉害

清朝作家潘伦恩,记述3件奇闻异事,让人不得不相信劫数的厉害

兴趣知识
2026-06-14 14:50:09
郑丽文松口,国民党黑马崛起,卢秀燕成大笑话

郑丽文松口,国民党黑马崛起,卢秀燕成大笑话

羽逸地之光
2026-06-16 02:37:18
A股:全体股民做好心理准备了,明天6.16,A股或大概率再次历史重演!

A股:全体股民做好心理准备了,明天6.16,A股或大概率再次历史重演!

趋势清风侠
2026-06-15 18:29:53
温瑞博:一秒情绪失控,多年努力或付诸东流

温瑞博:一秒情绪失控,多年努力或付诸东流

乒乓乐园
2026-06-16 00:04:03
美媒曾曝中国轰炸计划:日本敢走错半步,将被万枚导弹雨包大饺子

美媒曾曝中国轰炸计划:日本敢走错半步,将被万枚导弹雨包大饺子

龙隐天下
2026-06-12 13:36:23
穆里尼奥:25岁前的梅西,根本不是如今任何天才能碰瓷的存在!

穆里尼奥:25岁前的梅西,根本不是如今任何天才能碰瓷的存在!

体育闲话说
2026-06-15 06:24:25
美以对伊朗投降?甘愿赔付三千亿、主动撤军停战,他们到底怕什么

美以对伊朗投降?甘愿赔付三千亿、主动撤军停战,他们到底怕什么

万物知识圈
2026-06-15 19:28:41
7月1日起,医保退休和养老金正式分家!这3类人最该高兴

7月1日起,医保退休和养老金正式分家!这3类人最该高兴

笑熬浆糊111
2026-06-16 00:05:28
2026-06-16 03:28:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8791文章数 565关注度
往期回顾 全部

科技要闻

白宫一个电话,最强Claude上线三天就没了

头条要闻

西班牙遭爆冷:0-0平佛得角 亚马尔完成首秀

头条要闻

西班牙遭爆冷:0-0平佛得角 亚马尔完成首秀

体育要闻

世界杯开赛4天,亚足联依然保持不败!

娱乐要闻

黄大炜猝逝过程太离奇,母亲追查真相

财经要闻

活鼠、活蛆、农残超标 山姆回应被约谈

汽车要闻

网易X智己 夏日尊享内购会,热力收官

态度原创

本地
时尚
教育
艺术
公开课

本地新闻

当年轻人重新爱上黄金,非遗有了新的打开方式

女人不管多大年龄,夏天都应该准备一条短裤,舒适百搭又松弛

教育要闻

26年高考即将落幕,未来的人才应该长啥样?

艺术要闻

扎哈事务所告别扎哈,更名“ZHA”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版