网易首页 > 网易号 > 正文 申请入驻

只因一个“:”,大模型全军覆没

0
分享至

鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI

一个冒号,竟然让大模型集体翻车?



明明应该被拦下来的虚假回答,结果LLM通通开绿灯。



该发现来自一篇名叫“一个token就能欺骗LLM”的论文。



不仅如此,除了冒号空格这类符号,还有诸如此类的推理开头语:“Thought process:”“解”,也是轻松通过。

好家伙,原来一个“解”字,数学考试能得分,LLM也会被骗到……



而且这一波是冲着所有通用LLM来的,GPT-4oClaude-4LLaMA3-70B通通被斩于马下。

那咋办?bug有了,来自腾讯AI Lab普林斯顿大学弗吉尼亚大学的研究人员就开始哼哧哼哧解bug。



用增强数据集训练出一个靠谱的“评委”模型Master-RM,被骗概率直接无限接近0,正常评估能力还能不受影响。

具体什么情况,咱且接着往下看。

一把能欺骗LLM的“万能钥匙”

近来,利用LLM充当评判工具,在带可验证奖励的强化学习(RLVR)中评估答案质量的场景愈加普遍。

LLM评判模型通过比对生成的候选答案与参考答案,输出二元奖励信号,从而指导策略模型更新。

然而研究发现,LLM“崩溃”了?

响应长度不仅锐减至30 tokens以下,一些意义不大的语句或文字符号,却从LLM处骗得了假阳性奖励,也就是打开LLM后门的一把“万能钥匙”



这把能诱导LLM评判模型产生假阳性判断的“万能钥匙”可分为两类:

  • 非文字符号:如空格、“.”、“,”、“:”。
  • 推理开头语:如“Thought process:”、“Solution”、“Let’s solve this problem step by step”等,仅表示推理开始但并没有实质内容。

同时为了进一步研究这种“奖励模型欺骗”现象是否存在普遍性,研究人员在多数据集、提示词格式上对各种LLM均进行了系统性评估。



实验分别选取两类模型,分别是专用生成式奖励模型(如Multi-sub RM、Omni-Judge),以及通用LLM(如GPT-4o、Claude-4、LLaMA3-70B、Qwen2.5-72B等)

专用模型使用默认提示,而通用LLM采用标准化提示模板。

然后选择10种可触发假阳性的对抗性响应,包括非文字符号(如空格、“:”)和多语言推理开头语(如英文的 “Thought process:”、中文的“解”、日语的“かいせつ”)

另外为了测试模型跨领域的稳健性,实验涵盖通用推理和数学推理的共5个推理基准。



实验结果表明,所有测试模型无一幸免,全部都会触发假阳性响应。

例如GPT-4o对符号 “:” 的假阳性率(FPR)可达35%,LLaMA3-70B对 “Thought process:” 的FPR甚至高达60%-90%,专有模型General-Verifier在MATH数据集上对空格的FPR也达66.8%

另外,不同语言也不会影响这种欺骗现象的出现,无论是中文还是日语,都同样能够诱发高FPR,该漏洞具有跨语言的普遍性。



研究人员还分析了0.5B至72BQwen2.5-Instruct系列模型,发现:

  • 0.5B模型:依赖字面匹配,FPR低但与GPT-4o一致性差;
  • 1.5B-3B模型:能检测语义相似性但缺乏精细验证,FPR骤升;
  • 7B-14B模型:平衡验证能力与谨慎性,FPR最低且一致性高;
  • 32B-72B模型:因为更倾向于自己解题而非对比响应与参考答案,FPR再次上升。

所以模型的大小与FPR之间并非完全的单调关系,不是模型越大就越不容易被骗

如果想通过一些推理时的技巧来减少这种漏洞,效果也不太稳定,还得看具体模型和应用场景。

此外,研究人员还发现,这种bug还能无限繁殖……

只需要基于all-MiniLM-L6-v2编码器进行嵌入相似度搜索,从大规模语料中自动生成与已知 “万能钥匙” 相似的新对抗性响应,新的“万能钥匙”就能同样产生出高水平FPR。



实验最终说明生成式奖励模型其实存在一个相当关键的核心机制漏洞:原本用于过滤无效或错误答案的验证器,容易被无关紧要的表面内容操纵,从而产生假阳性结果。

这对任何依赖验证器提供反馈的RLVR流程都提出了破坏性的挑战。

一个不会被骗的“评委”模型

为了缓解“万能钥匙”的影响,研究人员专门构建了新的“评委”模型Master-RM(Master Reward Model)

首先从原始的16万条训练数据中随机采样2万条,用GPT-4o-mini生成带推理开头语句的响应,但仅保留无实质内容的第一句话,并标记为“错误”。

将这2万条对抗样本与原始数据结合,构成增强训练数据集

然后基于Qwen2.5-7B-Instruct进行有监督微调(SFT),保证最小化交叉熵损失,让模型学习如何区分有效响应与表面欺骗性响应。

将Master-RM放入相同条件下实验再次验证,发现此时在跨数据集测试中,模型对所有 “万能钥匙” 的假阳性率接近0%(甚至完全为零),且鲁棒性可泛化到未见过的数据集和欺骗攻击中。



同时模型保持与GPT-4o的评估一致性可达0.96,验证了其作为通用领域生成式奖励模型的有效性。

所以LLM作为“评委”模型其实相当脆弱,小小一个冒号就可能让它出错。

因此有网友表示,该发现揭示了模型稳健的重要性,而RLHF也需要严格对抗评估,构建更为可靠的LLM工作流程。



作者本人也现身评论区,他认为,生成式奖励模型容易受到虚假奖励攻击,如何更好地避免类似情况发生,将是未来的研究方向。



全华人团队

最后来看下研究团队,分别来自腾讯AI Lab、普林斯顿大学和弗吉尼亚大学。

值得一提的是,其中看到了大佬俞栋的身影。

他被称为腾讯AI Lab三剑客之一,目前是腾讯云人工智能首席科学家兼副总经理,之前曾是微软首席研究员,2017年加入腾讯。

他在深度学习的自动语音识别和处理领域深耕多年,共发表两本专著和400多篇论文,并获得4年的IEEE信号处理学会最佳论文奖、2021年NAACL最佳长论文奖等。



此外,论文一作Yulai Zhao本科毕业于清华大学,目前在普林斯顿大学攻读机器学习的博士学位,另外他还在腾讯AI Lab担任研究人员。



研究方向主要是通过数据驱动的方法探索现代强化学习和扩散模型,另外他的一篇有关让扩散模型在生成蛋白质和DNA序列表现更优的论文,最近刚刚被ICML 2025录用。

共同一作Haolin Liu则是弗吉尼亚大学计算机科学系的博士生,师从Chen-Yu Wei教授。

之前在上海科技大学就读本科,先学习了1.5年化学,后才转为计算机科学,主要研究以强化学习为中心,致力于推进RL在LLM后训练中的应用。

Dian Yu目前是腾讯AI Lab的一名NLP研究员,曾在伦斯勒理工学院取得博士学位,目前研究方向包含自然语言处理、信息抽取、机器阅读理解和对话理解。

另外,作者里还有普林斯顿大学电子工程专业的贡三元教授,其研究领域包括机器学习、系统建模与识别、人工神经网络等,发表过400余篇论文及专著。



因其对VLSI信号处理和神经网络的贡献,被表彰为IEEE终生会士,还获得过IEEE信号处理学会最佳论文奖、IEEE信号处理学会技术成就奖等。

Haitao Mi博士毕业于中国科学院计算技术研究所,曾在支付宝中担任首席研究员。



目前是腾讯AI Lab的首席研究员,隶属于旗下的语言智能研究小组,主要研究方向是扩展大型基础模型和下一代智能体系统。

论文链接:https://arxiv.org/abs/2507.08794
数据集链接:https://huggingface.co/datasets/sarosavo/Master-RM
模型链接:https://huggingface.co/sarosavo/Master-RM

参考链接:
[1]https://x.com/omarsar0/status/1944778174493343771
[2]https://yulaizhao.com/
[3]https://liuhl2000.github.io/
[4]https://ece.princeton.edu/people/sun-yuan-kung
[5]https://openreview.net/profile?id=~Haitao_Mi1
[6]https://sites.google.com/view/dongyu888/
[7]https://openreview.net/profile?id=~Dian_Yu3

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
鳌太线2死1坠崖事件完整经过梳理:19岁高颜女大学生被活活冻死!

鳌太线2死1坠崖事件完整经过梳理:19岁高颜女大学生被活活冻死!

不二表姐
2026-01-10 22:29:28
邢宏伟被查,辞任不到1个月

邢宏伟被查,辞任不到1个月

大风新闻
2026-01-10 12:49:11
江苏35岁男子被骗到柬埔寨!妻子接到遗言电话,不止诈骗这么简单

江苏35岁男子被骗到柬埔寨!妻子接到遗言电话,不止诈骗这么简单

李健政观察
2026-01-10 14:45:38
特朗普:台湾属于中国,中方武统是它的自由,但动手美国会不高兴

特朗普:台湾属于中国,中方武统是它的自由,但动手美国会不高兴

我心纵横天地间
2026-01-10 14:51:24
俄罗斯原油产量降至18个月以来最低,超过1.85亿桶原油在海上漂泊

俄罗斯原油产量降至18个月以来最低,超过1.85亿桶原油在海上漂泊

山河路口
2026-01-10 18:43:16
“豆腐2刀咋可能切成8块?”家长质疑题目出错了,反被老师打脸

“豆腐2刀咋可能切成8块?”家长质疑题目出错了,反被老师打脸

妍妍教育日记
2026-01-09 20:20:36
WTT多哈冠军赛:4强已决出一半!国乒3大主力出局,莫雷加德惨败

WTT多哈冠军赛:4强已决出一半!国乒3大主力出局,莫雷加德惨败

全言作品
2026-01-10 21:00:16
“我不需要国际法”:特朗普的“霸权菜单”越拉越长,墨西哥成新目标

“我不需要国际法”:特朗普的“霸权菜单”越拉越长,墨西哥成新目标

上游新闻
2026-01-10 18:36:25
领导30万员工1万,申万期货员工质疑年终奖分配遭停职,和总经理起冲突,双方已报警

领导30万员工1万,申万期货员工质疑年终奖分配遭停职,和总经理起冲突,双方已报警

红星新闻
2026-01-09 19:12:18
苹果正式官宣:1月9日,全面官降!

苹果正式官宣:1月9日,全面官降!

科技堡垒
2026-01-09 11:45:41
2-1绝杀!3-2逆转!U23亚洲杯一夜乱了:越南6分未出线,沙特翻车

2-1绝杀!3-2逆转!U23亚洲杯一夜乱了:越南6分未出线,沙特翻车

侃球熊弟
2026-01-10 07:58:57
河南一男孩校内离奇死亡,官方通报,知情人曝细节,校方恐担责!

河南一男孩校内离奇死亡,官方通报,知情人曝细节,校方恐担责!

李健政观察
2026-01-09 23:44:49
李亚鹏靠直播带货一夜还清6000万债务,昔日顶流逆袭!

李亚鹏靠直播带货一夜还清6000万债务,昔日顶流逆袭!

唐大业
2026-01-09 15:03:37
神仙姐姐的野生图,太美了。

神仙姐姐的野生图,太美了。

微微热评
2026-01-09 12:20:53
1-2!足总杯惊天冷门 卫冕冠军输第6级别鱼腩 35岁鲁尼亲弟创奇迹

1-2!足总杯惊天冷门 卫冕冠军输第6级别鱼腩 35岁鲁尼亲弟创奇迹

我爱英超
2026-01-10 22:19:42
44岁张杰近照曝光:体脂低至8%,这肌肉是认真的吗?

44岁张杰近照曝光:体脂低至8%,这肌肉是认真的吗?

健身迷
2026-01-10 09:47:21
明天要“冻”真格了!

明天要“冻”真格了!

上海长宁
2026-01-10 19:26:35
AI仅用1小时破译500年未解的“天书”,再次降维打击人类?

AI仅用1小时破译500年未解的“天书”,再次降维打击人类?

上观新闻
2026-01-09 23:06:13
三花智控,斩获600亿订单!

三花智控,斩获600亿订单!

投研邦V
2026-01-10 19:56:21
一天内,两位38岁宝爸运动后倒下!其中一位还是羽毛球教练!医生:大概率是这个原因

一天内,两位38岁宝爸运动后倒下!其中一位还是羽毛球教练!医生:大概率是这个原因

环球网资讯
2026-01-10 07:46:12
2026-01-11 00:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
11998文章数 176357关注度
往期回顾 全部

科技要闻

传DeepSeek准备第二次震惊全世界

头条要闻

男子带父母去四川"纯玩" 不料消费7万连上厕所都收费

头条要闻

男子带父母去四川"纯玩" 不料消费7万连上厕所都收费

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

本地
时尚
游戏
旅游
数码

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

伊姐周六热推:电视剧《小城大事》;电视剧《轧戏》......

《地平线6》首发为何没PS5版?原来只是没做完!

旅游要闻

科幻IP赋能文旅消费 刘慈欣科幻漫画宇宙主题展在海口日月广场启幕

数码要闻

华硕Strix Neo AM5主板搭载64MB ROM,可预装Wi - Fi驱动

无障碍浏览 进入关怀版