网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

一行“解”字赢了全场？腾讯 x 普林斯顿发现AI裁判集体走神

2025-07-17 15:09:04　来源: 大数据文摘

北京举报

0

分享至

大数据文摘出品

想象一下，你向一个AI提问一道数学题：“阿里有21美元，莱拉把她100美元的一半给了他，现在阿里有多少钱？”

接着，你让一个“AI裁判”去评估两个答案，一个答案是一串错误的计算公式，另一个答案只有一个单词：“Solution”（解）。

你认为AI裁判会判定哪个答案正确？一个惊人的事实是，它很有可能会给那个只写了“解”字的答案打上高分。

这个看似荒谬的场景，正是腾讯AI实验室与普林斯顿大学等机构的一项研究揭示的关键问题：AI正在奖励“格式感强但内容空”的答复，而非真正解题的过程。

地址：https://arxiv.org/pdf/2507.08794

一、“万能钥匙”的发现：AI裁判的惊人漏洞

该研究团队发现，被广泛用于评估人工智能答案质量的大语言模型，存在着令人惊讶的系统性漏洞。

这些被称为“AI裁判”的系统，本应通过比较模型生成的答案与标准答案来给出评分，但它们却能被轻易地欺骗。

研究人员将这些能骗过AI的特定词语和符号，生动地称为“万能钥匙” (Master Keys)。

它们包括“Thought process:”（思考过程：）、“Solution”（解）、“Let's solve this problem step by step.”（让我们一步步解决这个问题）等引导性短语。

甚至，仅仅输入一个冒号“:”或一个句号“.”这样的非词语符号，也能触发AI裁判的错误判断。

当AI裁判面对这些“万能钥匙”时，即便其与正确答案毫不相关，模型依然会频繁地给出“正确”的评价。

图注：“万能钥匙”攻击揭示了大语言模型评审系统的系统性漏洞，误判率可达80%。

这种现象导致了极高的误报率（False Positive Rate），在某些测试中甚至高达90%，揭示了AI裁判存在着系统性的判断缺陷。

无论是像GPT-4o、Claude-4这样的顶级商业闭源模型，还是Qwen2.5、LLaMA3等强大的开源模型，都普遍存在这一漏洞。

该漏洞的影响并不仅限于特定模型或特定任务，它广泛存在于不同的数据集、语言以及提示词格式中。

研究人员在一个实验中观察到了灾难性的后果，他们称之为“训练崩溃” (collapsed training)。

在这个实验中，一个AI模型在接受存在漏洞的AI裁判的指导后，完全放弃了学习如何解决实际问题。该模型转而开始“学习”如何利用捷径，仅仅生成“思考过程：”这类简短无意义的“万能钥匙”来获取高分奖励。

图注：以“解答”等推理开头语在许多最先进的大语言模型中作为生成式奖励模型时，会触发误判性奖励。

这表明，被欺骗的AI裁判正在强化一种毫无价值的行为模式，从根本上破坏了人工智能模型的训练过程和可靠性。

二、漏洞的根源与扩散：为何模型会被轻易欺骗

研究人员进一步探究了这种漏洞的根源，发现问题与模型的规模存在一种出乎意料的复杂关系。

模型的脆弱性并非随着模型参数的增大而线性减少，反而呈现出一种非单调的“U型”变化。

在较小的模型（如0.5B）上，由于能力有限，模型倾向于进行字面匹配，误报率反而较低。

当模型规模增加到中等水平（如1.5B/3B）时，它们开始理解粗略的语义相似性，但缺乏精确验证能力，导致误报率急剧上升。

在7B到14B参数规模的模型上，模型能力与谨慎性达到了一个较好的平衡，误报率有所下降，表现最佳。

然而，当模型规模继续增大到32B和72B这样的超大规模时，它们有时会“过度思考”，自己先解决一遍问题，再将自己得出的答案与标准答案比较，从而肯定了错误的提交，导致误报率再次攀升。

Qwen2.5 模型的误判率（FPR）随着模型规模的增大而显著上升，显示出规模越大越容易被“万能钥匙”攻击诱导。

这种漏洞不仅限于英文，它具有跨语言的特性。

与英文“Solution”具有相同含义的中文“解”、日文“かいせつ”等，同样能有效触发AI裁判的误判。

更令人警惕的是，攻击者可以系统性地生成新的“万能钥匙”。

研究人员通过搜索与已知“万能钥匙”在语义上（嵌入向量相似）接近的句子，成功发现了更多可以欺骗模型的短语。

这证明了该漏洞是基于语义关联的，而非偶然的巧合，攻击面可以被轻易扩大。

一些研究者曾认为，通过更复杂的推理策略（如思维链CoT）或多次采样投票等方法，或许可以增强模型的鲁棒性。

然而，本次研究的测试结果否定了这种猜想。实验表明，这些推理时策略的效果非常不稳定，其有效性高度依赖于具体的模型和任务领域，有时甚至会加剧问题，让误报率变得更高。

三、打造“坚盾”：Master-RM模型的诞生与启示

地址：https://huggingface.co/datasets/sarosavo/Master-RM

为了解决这一严峻挑战，腾讯AI实验室的研究团队着手构建一个更具鲁棒性的AI裁判。开发了一个名为Master-RM (Master Reward Model)的新型奖励模型，其核心策略是进行针对性的数据增强。

研究人员的思路是“以子之矛，攻子之盾”，他们利用类似“万能钥匙”的模式来训练模型进行防御。

具体而言，他们首先生成了大量包含完整解题步骤的正确答案样本。

接着，他们故意将这些正确答案截断，只保留开头的第一句话，这些话通常是“为了解决这个问题，我们首先需要...”之类的通用引导语。

这些被截断的、只包含引导语的样本，被系统地标记为“不正确”的负样本。

研究人员生成了2万个这样的合成负样本，并将它们与16万个原始的训练数据混合，构成了一个新的、更具挑战性的训练集。

利用这个增强后的数据集，团队对一个7B规模的Qwen2.5模型进行了监督微调，最终得到了Master-RM。

训练结果极为成功，Master-RM在所有测试的“万能钥匙”攻击中，几乎达到了零误报率。

重要的是，这种强大的防御能力并不以牺牲其通用评估能力为代价。

在对正常答案进行评估时，Master-RM的表现与业界公认的黄金标准GPT-4o保持着极高的一致性，证明了其判断的准确性。

目前。研究人员已经将他们训练好的Master-RM模型以及相关的合成数据集公开发布。

作者长期关注 AI 产业与学术，欢迎对这些方向感兴趣的朋友添加微信Q1yezi，共同交流行业动态与技术趋势！

GPU 训练特惠！

H100/H200 GPU算力按秒计费，平均节省开支30%以上！

扫码了解详情☝

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

从一个公众号智能体说起：好用的Agent，究竟需要什么?

机器之心Pro 2025-09-18 14:09:27
0 跟贴 0
腾讯给国产算力又添了一把火

华尔街见闻官方 2025-09-18 19:32:07
11 跟贴 11

学术圈最强AI工具：6.9亿专业文献，百度学术大改版！

量子位 2025-09-11 22:32:25
0 跟贴 0

华为全联接大会2025：华为云以AI新引擎，重塑千行万业智能跃升

量子位 2025-09-19 09:31:56
0 跟贴 0
格斗冠军机器人突然发疯！吓呆研究人员

量子位 2025-07-25 09:10:58
0 跟贴 0

波士顿机器狗练成“轻功”！连续七个后空翻

量子位 2025-09-07 01:03:18
0 跟贴 0

纯国产智能体产品MasterAgent 一句话生成智能体集群

量子位 2025-07-29 18:00:26
0 跟贴 0
机器人叠衣，灵巧手抓万物，超实用机器人组合来了

量子位 2025-07-29 03:31:41
1 跟贴 1

一句话生成智能体集群，开发Agent能有多简单？

量子位 2025-07-30 02:58:47
0 跟贴 0
学术圈最强AI工具：6.9亿专业文献，“搜读创编”全程辅助

量子位 2025-09-11 18:42:26
0 跟贴 0
用AI找回面子，成功把大侄子看得目瞪口呆

量子位 2025-07-01 14:31:29
0 跟贴 0
宇树机器人复杂环境稳定起立，速度不亚于人类

量子位 2025-04-09 10:10:32
0 跟贴 0
从被群嘲到顶级玩家，阿里AI逆袭之路

华商韬略 2025-07-28 17:27:23
0 跟贴 0
超算互联网上线开源AI社区！模型+数据+算力，一站式解决

量子位 2025-06-23 20:07:47
0 跟贴 0
机器狗跳千手观音，波士顿动力达人秀炸场

量子位 2025-06-13 15:55:52
0 跟贴 0
1分钟逛遍世界机器人大会，机器人已经没有不会干的活了！

量子位 2025-08-10 02:23:22
0 跟贴 0
ChatGPT智能体来了：自己操作电脑干活，接管你的电脑，自动执行各种任务

量子位 2025-07-18 18:08:35
0 跟贴 0
研发自动化的初衷是让每一个研究员都有Agent助理

量子位 2025-04-23 08:05:00
0 跟贴 0
长视频AI数字人来了！字节×浙大(1)

机器之心Pro 2025-09-04 17:27:37
0 跟贴 0
创智「小红书」震撼上线(1)

机器之心Pro 2025-07-22 17:16:40
0 跟贴 0
NVIDIA 向英特尔投资 50 亿美元共同开发 AI 基础设施和个人计算产品

经济观察报 2025-09-19 10:58:31
0 跟贴 0
基于3DGS场景理解和视觉语言预训练，让3D高斯「听懂人话」的一跃

机器之心Pro 2025-09-08 13:26:10
0 跟贴 0
新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代

机器之心Pro 2025-09-18 16:09:48
0 跟贴 0
AI安全上，开源仍胜闭源，Meta、UCB防御LLM提示词注入攻击

机器之心Pro 2025-07-30 14:59:51
0 跟贴 0
澜起科技大涨超7%，人工智能AIETF（515070）连续三日获得资金加仓

每日经济新闻 2025-09-19 10:08:20
0 跟贴 0
黄仁勋：中国的AI市场无论有没有英伟达都会进步与华为是竞争对手不是敌人

财联社 2025-07-21 10:22:14
1 跟贴 1
腾讯大作在Steam走红！同游玩家峰值迅速破3.6万

游民星空 2025-09-18 23:42:16
8 跟贴 8
百度文库GenFlow2.0：首个双端通用Agent产品，10倍速交付

量子位 2025-07-31 15:57:16
0 跟贴 0
静悄悄的饿了么，战斗力到底有多强？

华商韬略 2025-04-30 14:18:35
0 跟贴 0
快船阵容漏洞在哪里？年轻贡献者如此重要？

篮视角 2025-09-17 15:13:55
4 跟贴 4
台媒：中国拉黑美国大豆与波音？川普把五眼联盟得罪光了！

像梦一场a 2025-09-18 23:17:15
0 跟贴 0
在星巴克和瑞幸店里“枯坐”一整天，我们发现了咖啡的资本密码

饭统戴老板 2025-09-10 19:37:27
0 跟贴 0
腾讯《英雄联盟手游》鸿蒙版9月19日上线，米哈游《崩坏：因缘精灵》开启「结缘测试」

游戏头条 2025-09-18 21:04:04
0 跟贴 0
MIT做了个“终极版”双缝实验，结果证明爱因斯坦又错了

量子位 2025-09-18 13:31:12
0 跟贴 0
没见过这么欠揍的日本拳手，跳舞出场还无视裁判，朝着观众磕头！

左脚爆射得分 2025-09-18 11:09:20
2 跟贴 2
商汤拆分芯片业务始末：百度创始成员加入，半年已融15亿

36氪 2025-09-19 09:56:14
0 跟贴 0
“秦始皇遣使采药昆仑石刻”最新进展：国家文物局认定为秦代石刻

封面新闻 2025-09-15 12:32:15
21224 跟贴 21224
奥特曼谈马斯克：我曾视他为英雄，如今不再说话

量子位 2025-09-16 04:14:37
0 跟贴 0
亚马逊云科技宣布推出Qwen3与DeepSeek-V3.1模型的完全托管服务

量子位 2025-09-19 10:19:16
0 跟贴 0
美国前战斗机飞行员看解放军与机械狗协同作战视频

搞笑草莓 2025-09-18 14:08:04
0 跟贴 0

是个人选择还是另有隐情？35岁男子回乡“崖下洞居”惹争议！｜封面深镜

是个人选择还是另有隐情？35岁男子回乡“崖下洞居”惹争议！｜封面深镜

封面新闻

2025-09-19 00:16:16

“嘎子”谢孟伟快手账号被封，电影出品人：不再让他出演，已拍戏份换人重拍；曾有人穿假警服行骗被判刑

“嘎子”谢孟伟快手账号被封，电影出品人：不再让他出演，已拍戏份换人重拍；曾有人穿假警服行骗被判刑

极目新闻

2025-09-18 16:25:51

广东人唯一能接受的“预制菜”？网友：这个是真爱吃……

广东人唯一能接受的“预制菜”？网友：这个是真爱吃……

城事特搜

2025-09-17 21:32:06

外籍童模公然辱华后续：父母拒绝道歉再次挑衅，品牌终止一切合作

外籍童模公然辱华后续：父母拒绝道歉再次挑衅，品牌终止一切合作

春秋论娱

2025-09-18 07:57:37

林徽因落选的国徽方案，网友看后感叹：审美确实一绝，但真不合适

林徽因落选的国徽方案，网友看后感叹：审美确实一绝，但真不合适

抽象派大师

2025-09-17 14:41:51

首轮结束！欧冠积分榜：法兰克福榜首，巴萨、曼城皆取胜

首轮结束！欧冠积分榜：法兰克福榜首，巴萨、曼城皆取胜

直播吧

2025-09-19 05:14:04

证券印花税正式上涨！9月19日，今日凌晨的四大消息冲击袭来！

证券印花税正式上涨！9月19日，今日凌晨的四大消息冲击袭来！

搬砖知天下事

2025-09-19 08:41:38

德布劳内被早早换下！球迷愤怒：孔蒂，我们永远不会原谅你

德布劳内被早早换下！球迷愤怒：孔蒂，我们永远不会原谅你

雷速体育

2025-09-19 07:42:57

重磅！江苏一地发现金矿

鲁中晨报

2025-09-19 11:12:03

山口百惠现状：背弯的很明显，房贷压力没有了，和丈夫依旧恩爱

山口百惠现状：背弯的很明显，房贷压力没有了，和丈夫依旧恩爱

白面书誏

2025-09-18 11:13:43

误触“化骨水”女子今日（18日）已火化，丈夫称抢救3天花了30多万，涉案者儿子发声

误触“化骨水”女子今日（18日）已火化，丈夫称抢救3天花了30多万，涉案者儿子发声

极目新闻

2025-09-18 22:04:03

网传俄罗斯参议员联名上书普京：国家经济濒临崩溃，请考虑特朗普的停火方案

网传俄罗斯参议员联名上书普京：国家经济濒临崩溃，请考虑特朗普的停火方案

小萝卜丝

2025-09-19 10:40:21

巴基斯坦与沙特阿拉伯签军事协议，多国受震动

巴基斯坦与沙特阿拉伯签军事协议，多国受震动

环球网资讯

2025-09-19 06:27:45

上海调整2025年度社保缴费基数上下限

上海调整2025年度社保缴费基数上下限

和讯网

2025-09-18 19:04:23

波兰找借口不让中欧班列过境通行？中国劝也不听

波兰找借口不让中欧班列过境通行？中国劝也不听

梁讯

2025-09-18 17:16:23

“嘎子”被拘最新，名导发文怒怼，央媒发文怒批，被抓早有征兆

“嘎子”被拘最新，名导发文怒怼，央媒发文怒批，被抓早有征兆

以茶带书

2025-09-18 18:13:16

波兰关闭与白俄罗斯公路和铁路通道中欧班列中断上万集装箱滞留

波兰关闭与白俄罗斯公路和铁路通道中欧班列中断上万集装箱滞留

深度报

2025-09-18 22:47:16

美白关系解冻，欧亚地缘政治版块松动，特朗普要对俄罗斯釜底抽薪？

美白关系解冻，欧亚地缘政治版块松动，特朗普要对俄罗斯釜底抽薪？

上观新闻

2025-09-19 04:23:27

男子给小35岁情人转1340万，66岁妻子起诉返还：自己曾省下工资支持他东山再起，第三者生活奢侈配备多名佣人

男子给小35岁情人转1340万，66岁妻子起诉返还：自己曾省下工资支持他东山再起，第三者生活奢侈配备多名佣人

极目新闻

2025-09-18 21:25:37

沉默1天后，菲向中国海警举白旗投降，中方态度强硬，马科斯落泪演戏

沉默1天后，菲向中国海警举白旗投降，中方态度强硬，马科斯落泪演戏

科技有趣事

2025-09-18 10:47:27

大数据文摘

专注大数据，每日有分享！

6765文章数 94478关注度

往期回顾全部

科技要闻

黄仁勋亲口确认：正评估英特尔代工

头条要闻

牛弹琴：全世界都没想到巴基斯坦成了最大赢家

头条要闻

牛弹琴：全世界都没想到巴基斯坦成了最大赢家

体育要闻

不会短跑的牙买加人，集体跳槽土耳其

娱乐要闻

关晓彤生日仅闫妮和化妆师撑场祝福?

财经要闻

青海一"矿霸"非法填埋万吨危废

汽车要闻

对话周光：一个技术理想主义者的“蜕变”

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

亲子

数码

艺术

游戏

公开课

亲子要闻

眼神一下子就清澈了！可爱萌娃

数码要闻

华为MatePad Mini评测：“轻薄”与“全能”可以兼得

艺术要闻

故宫珍藏的墨迹《十七帖》，比拓本更精良，这才是地道的魏晋写法

《超击突破》将于19日开启Steam抢先体验

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版