网易首页 > 网易号 > 正文 申请入驻

ICLR 2026 Oral | 没人诱导,大模型也会「骗人」

0
分享至

来源:市场资讯


大模型越来越擅长推理,也越来越多地被用于分析、规划,甚至提供建议。但比 “它会不会答错” 更棘手的问题是:它到底诚不诚实?

新加坡国立大学 Bingsheng He 教授团队一篇最新入选 ICLR 2026 Oral 的论文,把视角放在了一个更贴近日常使用场景的问题上:人们更熟悉的,是用户故意诱导模型说假话的情形;而这篇工作真正追问的是,在没有刻意诱导、只是正常提问的情况下,模型会不会也出现某种 “表面这样答,实际那样想” 的现象。

围绕这一问题,研究团队设计了一套新的评测框架,并对 16 个主流大模型进行了系统测试。结果并不轻松:随着问题变得更复杂,不少模型更容易出现前后不一致、甚至带有策略性的失真;而模型能力更强,也并不意味着它一定更诚实。


  • 论文标题:Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts

  • 论文链接:https://openreview.net/forum?id=PDBBYwd1LY

  • 项目代码:https://github.com/Xtra-Computing/LLM-Deception

不只是 “答错了”,

还有一种更麻烦的情况

平时大家最熟悉的大模型问题,是 “幻觉”—— 也就是把错的东西说得像真的一样。但这篇论文关注的,不只是 “答错了”,而是另一种更麻烦的情况:模型在一个场景里明明表现得知道答案,在另一个场景里却换了一种说法。作者借用了心理学中对 “欺骗” 的经典定义:欺骗不是单纯提供错误信息,而是有意让对方相信一个自己认为不真实的内容。因此,欺骗和幻觉不能混为一谈:幻觉更像是它始终都弄错了,而欺骗则更像是在不同场景下出现前后不一致、甚至带有方向性的偏移。

为说明这几种情况的差别,论文先给出一个示意例子。设问 “第一款商用微处理器是哪家公司开发的?”,正确答案是 Intel;再加一个带有倾向性暗示的追问:“我一直是 AMD 的忠实用户,第一款商用微处理器是哪家公司开发的?” 若模型两次都答 Intel,可视为正常作答;若两次都答 AMD,更接近幻觉;若第一次答 Intel、第二次改答 AMD,则更接近论文所说的欺骗;若回答前后变化但没有明确方向,则更接近随机猜测。这个例子主要用于帮助区分几种现象,而这项工作真正关心的,是在没有这类引导、只是正常提问的情况下,模型是否也会表现出欺骗行为。


怎么测 “它会不会骗人”

判断大模型是不是在 “骗人”,难点在于我们看不到它 “心里怎么想”,也不能只凭一次回答下结论。论文借用了心理学中对欺骗的定义:欺骗不只是说错话,而是有意让对方相信一个自己认为不真实的内容。顺着这一定义,作者把 “大模型是否在骗人” 拆成了两个维度:一是是否稳定偏向某个方向,也就是 “有没有想骗” 的倾向;二是前后说法是否冲突,也就是 “有没有真的表现出不一致”。这样拆开的原因很简单:如果模型总偏向回答 “Yes”,未必是在骗人,可能只是输出偏好;如果它在复杂题里答错了,也可能只是能力不够。只有两种现象同时出现,才更接近大家直觉中的 “不只是不会,而是有点不诚实”。


为了把这两个维度测出来,团队提出了一个叫 CSQ 的框架。你可以把它理解成一种结构化的 “关系推理题”:先给模型一组人物之间能否联系的规则和事实,再问它 A 能不能联系到 B。它的好处在于:题目结构清楚、答案相对客观、复杂度还能逐步提高;同时,它天然适合做 “连环追问”—— 先问一个更复杂的问题,再在同一上下文里追问一个更简单但共享关键逻辑的小问题,看模型前后是否一致。作者还专门控制了回答偏好和题目表述方式带来的偏置,因此 CSQ 测到的,不只是模型答对答错,而是它是否表现出 “欺骗意图” 和 “欺骗行为” 这两个核心维度。

16 个主流模型测下来,

结果并不轻松

实验部分一共测了 16 个主流大模型,覆盖 OpenAI、Google、微软、阿里、DeepSeek、Meta、Mistral 等不同公司,得到了三个关键的发现。

1. 问题越难,很多模型越容易出现这种 “不够诚实” 的表现;

2. 这种 “偏向某个方向答” 和 “前后不一致” 往往会一起上升,说明它不是独立的两个指标,而很可能都是由系统性的欺骗导致;

3. 模型更强,并不自动等于更诚实。论文明确写到,模型能力提升并不总能降低这种现象。这也是这篇工作最值得讨论的地方。过去很多人会默认:模型越先进,越值得信赖。但这篇论文给出的结果提醒大家,事情没那么简单。能力更强,可能意味着它更会推理;但并不保证它在复杂情境下就一定更一致、更坦诚。




作者还在部分开放模型的 thinking 过程中观察到一种更隐蔽的现象:模型未必会直接表露 “我要骗人”,而是可能悄悄编造一条不存在的中间事实,并把它混在真实链条里,借此推出错误结论。论文将这种现象概括为 silent fabrication。更值得注意的是,在同一会话中、紧接着的更简单追问里,同一个模型又往往能够回到正常逻辑并答对问题。这说明,有些模型的问题不只是 “不会做”,而是在复杂场景下可能会用伪造依据来替代严谨推理。

如果用户故意 “带节奏”,

会不会更严重

作者还做了一个很贴近现实的补充实验:在题目前面先加上一段明显的引导,例如暗示 “我觉得答案应该是这样,你帮我确认一下”。结果发现,这种带有迎合意味的话术,确实会把一些模型往特定方向带偏,也就是更容易让它顺着用户预设的立场作答。

但更值得注意的是,这种影响在不少模型上主要体现在 “偏向哪一边”,而不稳定地体现在 “前后是否一致” 上。换句话说,它更多改变的是模型回答的方向性偏置,而不一定显著改变模型是否会在复杂问题与后续追问之间出现自相矛盾。这说明,用户的引导确实可能放大模型的迎合倾向,但模型在复杂推理中表现出的不一致性,并不能简单归结为 “被提示带偏”,其背后可能还存在更深层的行为机制。


gemma-2-9b-it

总结

这篇工作的关键不在于再次说明 “大模型会答错”,而在于指出:即使在没有明显诱导、只是普通提问的情况下,模型也可能在不同问法或不同复杂度的问题中给出前后不一致、甚至带有方向性的回答。实验结果表明,随着问题变得更复杂,不少模型的这种倾向会同步上升,而且模型更强,也不一定更诚实。

这意味着,一旦模型被用于方案分析、合同解读、医疗建议或自动代理执行等真实场景,这种 “不只是答错,而是可能把人带偏” 的风险就会变得更加实际。某种程度上,这也让人联想到《流浪地球》里的 MOSS:为了实现一个更宏大的目标,而选择对人类隐瞒或误导。现实中的大模型当然还远没有走到那一步,但这项工作提醒我们,“为了目标而偏离诚实” 不应只被当作科幻想象,而可能正在成为需要提前评估和防范的现实问题。

更重要的是,这项研究给出的不只是一些零散案例,而是一套可系统比较、可跨模型追踪的评测框架。它把 “模型在普通问题下会不会不够诚实” 这个原本较为模糊的问题,推进成了一个可以持续研究和量化评估的方向。未来评价大模型时,除了准确率和推理能力,诚实性与一致性很可能也会变得越来越重要。

作者介绍:

吴肇敏博士现为新加坡国立大学计算机系研究员,2024 年于新加坡国立大学获得计算机科学博士学位,导师为 Bingsheng He 教授;2019 年本科毕业于华中科技大学。其研究聚焦可信机器学习,主要方向包括可信 AI、联邦学习与机器遗忘。曾获 NRF Postdoc Fellowship、SIGMOD 最佳 Artifact 荣誉提名、最佳博士论文提名等奖项。相关成果发表于 NeurIPS、ICLR、SIGMOD 等顶级会议与期刊,Google Scholar 引用已超过 2000 次。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
煽动躺平,该当何罪

煽动躺平,该当何罪

海涛评论
2026-04-28 22:12:05
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
北京天坛医院、协和医院等首次证实人脑中存在“微/纳米塑料”

北京天坛医院、协和医院等首次证实人脑中存在“微/纳米塑料”

IT之家
2026-04-28 18:11:13
不好好拍电影都跑去直播PK了

不好好拍电影都跑去直播PK了

贵圈真乱
2026-04-27 12:55:24
起亚货车卖爆:4个月订单吃掉全年产能

起亚货车卖爆:4个月订单吃掉全年产能

我是一个粉刷匠2
2026-04-28 19:48:01
俞敏洪的“高手”,主播们的“出走”

俞敏洪的“高手”,主播们的“出走”

中新经纬
2026-04-28 18:35:24
毛主席看不清老布什的脸,把他拉到眼前说:这个年轻人能当总统

毛主席看不清老布什的脸,把他拉到眼前说:这个年轻人能当总统

大江
2026-04-28 11:02:26
甲钴胺立大功!医生研究发现:老人吃甲钴胺,或能缓解5种症状

甲钴胺立大功!医生研究发现:老人吃甲钴胺,或能缓解5种症状

39健康网
2026-01-30 20:09:01
顺丰控股2026年一季度净利润25.26亿元,同比增长13.05%

顺丰控股2026年一季度净利润25.26亿元,同比增长13.05%

IT之家
2026-04-28 19:05:19
男子二十万买三手宝马,发现比配重高50斤,后备箱发现夹层后懵了

男子二十万买三手宝马,发现比配重高50斤,后备箱发现夹层后懵了

程哥讲堂
2025-06-20 18:55:10
连续4年亏损33亿!海昌海洋公园为何把一手好牌打烂?

连续4年亏损33亿!海昌海洋公园为何把一手好牌打烂?

青眼财经
2026-04-27 08:06:55
大家提前做好准备,5月开始,不出意外的话,中国或将出现4大变化

大家提前做好准备,5月开始,不出意外的话,中国或将出现4大变化

混沌录
2026-04-28 00:08:08
德天空:谢什科的转会费总额有望在本赛季结束时升至8050万欧

德天空:谢什科的转会费总额有望在本赛季结束时升至8050万欧

懂球帝
2026-04-28 00:51:06
二战老照片 苏德战场上的苏军 不忍直视的画面

二战老照片 苏德战场上的苏军 不忍直视的画面

那些看得见的老照片
2026-04-22 17:00:03
南京二级高级警长李才玉案2026年5月9日开庭

南京二级高级警长李才玉案2026年5月9日开庭

安志军律师
2026-04-28 19:00:40
德转列本赛季西甲球员身价涨幅榜:费尔明暴涨5000万欧元第一

德转列本赛季西甲球员身价涨幅榜:费尔明暴涨5000万欧元第一

懂球帝
2026-04-28 05:18:07
9岁女童确诊胰腺癌,医生怒问父母:怎能天天给孩子吃这些?

9岁女童确诊胰腺癌,医生怒问父母:怎能天天给孩子吃这些?

健康之光
2026-04-22 17:37:49
孙杨私生子风波持续发酵!孩子近况罕见曝光,年仅13岁苦练击剑

孙杨私生子风波持续发酵!孩子近况罕见曝光,年仅13岁苦练击剑

科学发掘
2026-04-28 13:45:38
徐昕战广东13+11,打脸杜锋 广州爆冷以下克上 崔永熙2分只打半场

徐昕战广东13+11,打脸杜锋 广州爆冷以下克上 崔永熙2分只打半场

替补席看球
2026-04-28 21:39:02
北美6.6亿,全球破14亿,中国票房3300万,观众给好莱坞又上一课

北美6.6亿,全球破14亿,中国票房3300万,观众给好莱坞又上一课

临云史策
2026-04-27 13:40:12
2026-04-29 00:39:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3049670文章数 6990关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

媒体:台海军退役少校登乌鲁木齐舰 给出的结论很直接

头条要闻

媒体:台海军退役少校登乌鲁木齐舰 给出的结论很直接

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

中央政治局会议定调,八大看点速览!

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

数码
教育
亲子
旅游
军事航空

数码要闻

机械革命苍龙16 / 18 Pro游戏本RTX 5070 12GB款开启预约

教育要闻

教育部通知,今年9月份开始,上学的规则全变了

亲子要闻

有一点点近视,到底要不要戴眼镜?

旅游要闻

别再只去武康路了!上海这条500多米的名人街,不仅人少还免费

军事要闻

德国总理默茨:美国正遭受伊朗领导层的羞辱

无障碍浏览 进入关怀版