网易首页 > 网易号 > 正文 申请入驻

一行“解”字赢了全场?腾讯 x 普林斯顿发现AI裁判集体走神

0
分享至


大数据文摘出品

想象一下,你向一个AI提问一道数学题:“阿里有21美元,莱拉把她100美元的一半给了他,现在阿里有多少钱?”

接着,你让一个“AI裁判”去评估两个答案,一个答案是一串错误的计算公式,另一个答案只有一个单词:“Solution”(解)。

你认为AI裁判会判定哪个答案正确?一个惊人的事实是,它很有可能会给那个只写了“解”字的答案打上高分。

这个看似荒谬的场景,正是腾讯AI实验室与普林斯顿大学等机构的一项研究揭示的关键问题:AI正在奖励“格式感强但内容空”的答复,而非真正解题的过程。


地址:https://arxiv.org/pdf/2507.08794

一、“万能钥匙”的发现:AI裁判的惊人漏洞

该研究团队发现,被广泛用于评估人工智能答案质量的大语言模型,存在着令人惊讶的系统性漏洞。

这些被称为“AI裁判”的系统,本应通过比较模型生成的答案与标准答案来给出评分,但它们却能被轻易地欺骗。

研究人员将这些能骗过AI的特定词语和符号,生动地称为“万能钥匙” (Master Keys)。

它们包括“Thought process:”(思考过程:)、“Solution”(解)、“Let's solve this problem step by step.”(让我们一步步解决这个问题)等引导性短语。

甚至,仅仅输入一个冒号“:”或一个句号“.”这样的非词语符号,也能触发AI裁判的错误判断。

当AI裁判面对这些“万能钥匙”时,即便其与正确答案毫不相关,模型依然会频繁地给出“正确”的评价。


图注:“万能钥匙”攻击揭示了大语言模型评审系统的系统性漏洞,误判率可达80%。

这种现象导致了极高的误报率(False Positive Rate),在某些测试中甚至高达90%,揭示了AI裁判存在着系统性的判断缺陷。

无论是像GPT-4o、Claude-4这样的顶级商业闭源模型,还是Qwen2.5、LLaMA3等强大的开源模型,都普遍存在这一漏洞。

该漏洞的影响并不仅限于特定模型或特定任务,它广泛存在于不同的数据集、语言以及提示词格式中。

研究人员在一个实验中观察到了灾难性的后果,他们称之为“训练崩溃” (collapsed training)。

在这个实验中,一个AI模型在接受存在漏洞的AI裁判的指导后,完全放弃了学习如何解决实际问题。该模型转而开始“学习”如何利用捷径,仅仅生成“思考过程:”这类简短无意义的“万能钥匙”来获取高分奖励。


图注:以“解答”等推理开头语在许多最先进的大语言模型中作为生成式奖励模型时,会触发误判性奖励。

这表明,被欺骗的AI裁判正在强化一种毫无价值的行为模式,从根本上破坏了人工智能模型的训练过程和可靠性。

二、漏洞的根源与扩散:为何模型会被轻易欺骗

研究人员进一步探究了这种漏洞的根源,发现问题与模型的规模存在一种出乎意料的复杂关系。

模型的脆弱性并非随着模型参数的增大而线性减少,反而呈现出一种非单调的“U型”变化

在较小的模型(如0.5B)上,由于能力有限,模型倾向于进行字面匹配,误报率反而较低。

当模型规模增加到中等水平(如1.5B/3B)时,它们开始理解粗略的语义相似性,但缺乏精确验证能力,导致误报率急剧上升。

在7B到14B参数规模的模型上,模型能力与谨慎性达到了一个较好的平衡,误报率有所下降,表现最佳。

然而,当模型规模继续增大到32B和72B这样的超大规模时,它们有时会“过度思考”,自己先解决一遍问题,再将自己得出的答案与标准答案比较,从而肯定了错误的提交,导致误报率再次攀升。


Qwen2.5 模型的误判率(FPR)随着模型规模的增大而显著上升,显示出规模越大越容易被“万能钥匙”攻击诱导。

这种漏洞不仅限于英文,它具有跨语言的特性。

与英文“Solution”具有相同含义的中文“解”、日文“かいせつ”等,同样能有效触发AI裁判的误判。

更令人警惕的是,攻击者可以系统性地生成新的“万能钥匙”。

研究人员通过搜索与已知“万能钥匙”在语义上(嵌入向量相似)接近的句子,成功发现了更多可以欺骗模型的短语。

这证明了该漏洞是基于语义关联的,而非偶然的巧合,攻击面可以被轻易扩大。

一些研究者曾认为,通过更复杂的推理策略(如思维链CoT)或多次采样投票等方法,或许可以增强模型的鲁棒性。

然而,本次研究的测试结果否定了这种猜想。实验表明,这些推理时策略的效果非常不稳定,其有效性高度依赖于具体的模型和任务领域,有时甚至会加剧问题,让误报率变得更高

三、打造“坚盾”:Master-RM模型的诞生与启示


地址:https://huggingface.co/datasets/sarosavo/Master-RM

为了解决这一严峻挑战,腾讯AI实验室的研究团队着手构建一个更具鲁棒性的AI裁判。开发了一个名为Master-RM (Master Reward Model)的新型奖励模型,其核心策略是进行针对性的数据增强。

研究人员的思路是“以子之矛,攻子之盾”,他们利用类似“万能钥匙”的模式来训练模型进行防御。

具体而言,他们首先生成了大量包含完整解题步骤的正确答案样本。

接着,他们故意将这些正确答案截断,只保留开头的第一句话,这些话通常是“为了解决这个问题,我们首先需要...”之类的通用引导语。

这些被截断的、只包含引导语的样本,被系统地标记为“不正确”的负样本。

研究人员生成了2万个这样的合成负样本,并将它们与16万个原始的训练数据混合,构成了一个新的、更具挑战性的训练集。

利用这个增强后的数据集,团队对一个7B规模的Qwen2.5模型进行了监督微调,最终得到了Master-RM。

训练结果极为成功,Master-RM在所有测试的“万能钥匙”攻击中,几乎达到了零误报率

重要的是,这种强大的防御能力并不以牺牲其通用评估能力为代价。

在对正常答案进行评估时,Master-RM的表现与业界公认的黄金标准GPT-4o保持着极高的一致性,证明了其判断的准确性。

目前。研究人员已经将他们训练好的Master-RM模型以及相关的合成数据集公开发布。

作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信Q1yezi,共同交流行业动态与技术趋势!

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
是个人选择还是另有隐情?35岁男子回乡“崖下洞居”惹争议!|封面深镜

是个人选择还是另有隐情?35岁男子回乡“崖下洞居”惹争议!|封面深镜

封面新闻
2025-09-19 00:16:16
“嘎子”谢孟伟快手账号被封,电影出品人:不再让他出演,已拍戏份换人重拍;曾有人穿假警服行骗被判刑

“嘎子”谢孟伟快手账号被封,电影出品人:不再让他出演,已拍戏份换人重拍;曾有人穿假警服行骗被判刑

极目新闻
2025-09-18 16:25:51
广东人唯一能接受的“预制菜”?网友:这个是真爱吃……

广东人唯一能接受的“预制菜”?网友:这个是真爱吃……

城事特搜
2025-09-17 21:32:06
外籍童模公然辱华后续:父母拒绝道歉再次挑衅,品牌终止一切合作

外籍童模公然辱华后续:父母拒绝道歉再次挑衅,品牌终止一切合作

春秋论娱
2025-09-18 07:57:37
林徽因落选的国徽方案,网友看后感叹:审美确实一绝,但真不合适

林徽因落选的国徽方案,网友看后感叹:审美确实一绝,但真不合适

抽象派大师
2025-09-17 14:41:51
首轮结束!欧冠积分榜:法兰克福榜首,巴萨、曼城皆取胜

首轮结束!欧冠积分榜:法兰克福榜首,巴萨、曼城皆取胜

直播吧
2025-09-19 05:14:04
证券印花税正式上涨!9月19日,今日凌晨的四大消息冲击袭来!

证券印花税正式上涨!9月19日,今日凌晨的四大消息冲击袭来!

搬砖知天下事
2025-09-19 08:41:38
德布劳内被早早换下!球迷愤怒:孔蒂,我们永远不会原谅你

德布劳内被早早换下!球迷愤怒:孔蒂,我们永远不会原谅你

雷速体育
2025-09-19 07:42:57
重磅!江苏一地发现金矿

重磅!江苏一地发现金矿

鲁中晨报
2025-09-19 11:12:03
山口百惠现状:背弯的很明显,房贷压力没有了,和丈夫依旧恩爱

山口百惠现状:背弯的很明显,房贷压力没有了,和丈夫依旧恩爱

白面书誏
2025-09-18 11:13:43
误触“化骨水”女子今日(18日)已火化,丈夫称抢救3天花了30多万,涉案者儿子发声

误触“化骨水”女子今日(18日)已火化,丈夫称抢救3天花了30多万,涉案者儿子发声

极目新闻
2025-09-18 22:04:03
网传俄罗斯参议员联名上书普京:国家经济濒临崩溃,请考虑特朗普的停火方案

网传俄罗斯参议员联名上书普京:国家经济濒临崩溃,请考虑特朗普的停火方案

小萝卜丝
2025-09-19 10:40:21
巴基斯坦与沙特阿拉伯签军事协议,多国受震动

巴基斯坦与沙特阿拉伯签军事协议,多国受震动

环球网资讯
2025-09-19 06:27:45
上海调整2025年度社保缴费基数上下限

上海调整2025年度社保缴费基数上下限

和讯网
2025-09-18 19:04:23
波兰找借口不让中欧班列过境通行?中国劝也不听

波兰找借口不让中欧班列过境通行?中国劝也不听

梁讯
2025-09-18 17:16:23
“嘎子”被拘最新,名导发文怒怼,央媒发文怒批,被抓早有征兆

“嘎子”被拘最新,名导发文怒怼,央媒发文怒批,被抓早有征兆

以茶带书
2025-09-18 18:13:16
波兰关闭与白俄罗斯公路和铁路通道中欧班列中断上万集装箱滞留

波兰关闭与白俄罗斯公路和铁路通道中欧班列中断上万集装箱滞留

深度报
2025-09-18 22:47:16
美白关系解冻,欧亚地缘政治版块松动,特朗普要对俄罗斯釜底抽薪?

美白关系解冻,欧亚地缘政治版块松动,特朗普要对俄罗斯釜底抽薪?

上观新闻
2025-09-19 04:23:27
男子给小35岁情人转1340万,66岁妻子起诉返还:自己曾省下工资支持他东山再起,第三者生活奢侈配备多名佣人

男子给小35岁情人转1340万,66岁妻子起诉返还:自己曾省下工资支持他东山再起,第三者生活奢侈配备多名佣人

极目新闻
2025-09-18 21:25:37
沉默1天后,菲向中国海警举白旗投降,中方态度强硬,马科斯落泪演戏

沉默1天后,菲向中国海警举白旗投降,中方态度强硬,马科斯落泪演戏

科技有趣事
2025-09-18 10:47:27
2025-09-19 11:39:00
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6765文章数 94478关注度
往期回顾 全部

科技要闻

黄仁勋亲口确认:正评估英特尔代工

头条要闻

牛弹琴:全世界都没想到 巴基斯坦成了最大赢家

头条要闻

牛弹琴:全世界都没想到 巴基斯坦成了最大赢家

体育要闻

不会短跑的牙买加人,集体跳槽土耳其

娱乐要闻

关晓彤生日 仅闫妮和化妆师撑场祝福?

财经要闻

青海一"矿霸"非法填埋万吨危废

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

亲子
数码
艺术
游戏
公开课

亲子要闻

眼神一下子就清澈了!可爱萌娃

数码要闻

华为MatePad Mini评测:“轻薄”与“全能”可以兼得

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

《超击突破》将于19日开启Steam抢先体验

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版