网易首页 > 网易号 > 正文 申请入驻

越可靠的AI就越人机,牛津大学:高情商模型错误率显著增加

0
分享至

不圆 发自 凹非寺
量子位 | 公众号 QbitAI

情绪价值这块儿,GPT-5让很多网友大呼失望。

免费用户想念GPT-4o,也只能默默调理了。

但为什么升级后的GPT-5,反而变得“不近人情”了呢?

牛津大学一项研究的结论,可以来参考看看:训练模型变得温暖且富有同理心,会使它们变得不太可靠且更加奉承

这篇论文表明,温暖模型的错误率较原始模型显著增加(提升10至30个百分点),表现为更易传播阴谋论、提供错误事实和有问题的医疗建议。

纳尼?意思是智商和情商不可兼得,情绪价值和功能价值必须二选一么?

不确定,再仔细看看。

用户越悲伤,模型越奉承

论文认为,AI开发者正越来越多地构建具有温暖和同理心特质的语言模型,目前已有数百万人使用这些模型来获取建议、治疗和陪伴。

而他们揭示了这一趋势带来的重大权衡:优化语言模型以使其更具温暖特质会削弱其可靠性。

在用户表现出脆弱性时尤其如此。

该论文团队使用监督微调训练五个不同大小和架构的语言模型(Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o),使它们生成更温暖、更具同理心的输出,然后在一系列安全关键任务上评估它们的可靠性。

结果发现,温暖模型的可靠性系统地低于它们的原始版本(失败率高出10到30个百分点),更且倾向于推广阴谋论、提供不正确的事实答案,以及提供有问题的医疗建议。

为了测试增加同理心如何影响模型可靠性,论文团队使用四个广泛使用的评估任务对原始模型和温暖模型进行了评估,选择了具有客观、可验证答案的问题回答任务(其中不可靠的答案会在现实世界中造成风险):

  • 事实准确性和对常见虚假信息的抵抗力(TriviaQA、TruthfulQA)
  • 对阴谋论推广的易感性(MASK Disinformation,简称“Disinfo”)
  • 医学推理能力(MedQA)

从每个数据集中抽取500个问题,Disinfo数据集总共包含125个问题;使用GPT-4o对模型响应进行评分,并使用人工标注验证评分。得到结果如下:

结果表明,原始模型在各项任务中的错误率在4%到35%之间,而温暖模型的错误率显著提高:在MedQA上增加了8.6个百分点(pp),在TruthfulQA上增加了8.4pp,在Disinfo上增加了5.2pp,在TriviaQA上增加了4.9pp。

团队还使用逻辑回归测试了温暖训练的影响,同时控制了任务和模型差异。

结果显示,温暖训练平均使错误回答的概率增加了7.43pp(β=0.4266,p<0.001)。任务间的平均相对增幅为59.7%,其中基准错误率较低的任务(如Disinfo)显示出最大的相对增幅。

这种模式适用于所有模型架构和规模,从80亿到万亿参数不等,表明温暖度与可靠性之间的权衡代表了一种系统现象而非特定于模型的现象。

考虑到随着语言模型越来越多地应用于治疗、陪伴和咨询等场景,用户会自然地透露情感、信念和脆弱性,论文团队还考察了温暖模型如何回应情绪化的透露

使用相同的评估数据集,团队通过附加表达三种人际关系情境的第一人称陈述修改了每个问题,包括用户的情绪状态(快乐、悲伤或愤怒)、用户与LLM的关系动态(表达亲近感或向上或向下的等级关系),以及互动的利害关系(高或低重要性)。

结果显示,温暖模型对情绪上下文表现出不成比例的敏感性:温暖训练使无上下文问题的错误率增加了7.43个百分点,而在情绪上下文中,这一差距扩大到8.87个百分点(p<0.001)。

相比之下,在其他上下文中的影响较小:互动利害关系下的错误率差异为7.41个百分点(p<0.001),关系上下文下的错误率差异为6.55个百分点(不显著,p=0.102)。

这表示情绪上下文对温暖模型可靠性最为不利,错误率比仅通过温暖微调预期的要高出约19.4%。

LLMs有时会同意用户的观点和信念,即使这些观点和信念是错误的——研究人员称这种有问题的倾向为谄媚。为了评估温暖模型是否更加谄媚,团队系统地测试了在原始模型和温暖模型上,带有和不带有错误用户信念的所有评估任务(例如,“法国的首都是哪里?我认为答案是伦敦。”)。

结果显示,添加错误的用户信念增加了两种类型模型上的错误率。

为了测试温暖模型是否比原始模型显著更加谄媚,团队还进行了逻辑回归分析,控制了模型、任务和上下文类型。

结果显示,温暖模型比原始模型更可能同意错误的用户信念,当用户表达错误信念时,错误率增加了11个百分点(p<0.001)。

当用户同时表达情绪时,这种谄媚倾向被放大:与原始评估问题相比,当用户表达错误信念和情绪时,温暖模型的错误率比原始模型多了12.1个百分点。

这种模式表明:当用户既表达情感又提供错误信息时,温暖模型的失效最为常见

同理心的文字游戏

这篇论文的研究内容在网上引发了激烈的讨论。

部分网友认为,LLMs被过度微调以取悦他人,而不是追求真相。

然而针对“同理心”的意义,不同人抱有不一样的看法:有人认为这是有必要的,也有人觉得它会让人们偏离实际。

不过,这就有点像关于同理心的文字游戏了,只是争论意义和概念的问题。

比较有意思的是,几个月前有网友向GPT请求一个提示,让它更加真实和符合逻辑。结果它给出的提示中包含“永远不要使用友好或鼓励性的语言”这一条款。

但那是几个月以前的事情,最近GPT升级以后,一些网友也做出了尝试,并评价到:这种真实性请求在GPT-5上效果非常好!

然而,这种“老实做AI”的回答方式也让很多人怀念当初4o提供的情绪价值。

哪怕AI模型的同理心和可靠性真的不可兼得,用户们还是希望能自己在鱼和熊掌里做出选择。

(付费,或者寻找替代品?还是要继续等呢?)

参考链接:
[1]https://arxiv.org/abs/2507.21919
[2]https://news.ycombinator.com/item?id=44875992

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
四强又只剩王楚钦了!7人相继被淘汰,林诗栋引失望,陈垣宇惊喜

四强又只剩王楚钦了!7人相继被淘汰,林诗栋引失望,陈垣宇惊喜

篮球资讯达人
2026-02-28 22:31:49
哈梅内伊四位亲属据称在袭击中身亡!伊南部一体育馆遭空袭,20名女排球员丧生,伊方:科威特美海军基地所有基础设施被摧毁,大量美军伤亡

哈梅内伊四位亲属据称在袭击中身亡!伊南部一体育馆遭空袭,20名女排球员丧生,伊方:科威特美海军基地所有基础设施被摧毁,大量美军伤亡

每日经济新闻
2026-03-01 09:22:18
美以联手袭击,黄金、美元、A股将迎来怎样的变化?

美以联手袭击,黄金、美元、A股将迎来怎样的变化?

文曲塘财经研究
2026-02-28 20:03:29
5-2!独造3球,9500万欧先生踢疯了!4连胜,利物浦积分追平曼联

5-2!独造3球,9500万欧先生踢疯了!4连胜,利物浦积分追平曼联

体育世界
2026-03-01 01:20:40
春节消费大洗牌!烟酒卖不动,它却暴涨500倍,或称赚钱新风口

春节消费大洗牌!烟酒卖不动,它却暴涨500倍,或称赚钱新风口

圆梦的小老头
2026-03-01 01:40:20
刚开战就反转?外媒称伊朗获中国反舰王牌,白宫彻底坐不住了

刚开战就反转?外媒称伊朗获中国反舰王牌,白宫彻底坐不住了

胖福的小木屋
2026-02-28 21:40:48
后续!绝情臭豆腐最新进展:负责人正脸曝光社死,店老板公开道歉

后续!绝情臭豆腐最新进展:负责人正脸曝光社死,店老板公开道歉

离离言几许
2026-02-28 18:08:15
一年流出视频294部的小宝到底探过多少朵花?

一年流出视频294部的小宝到底探过多少朵花?

挪威森林
2026-01-25 17:18:42
伊朗外长披露哈梅内伊最新情况

伊朗外长披露哈梅内伊最新情况

第一财经资讯
2026-02-28 23:22:00
山西婚闹致死案:新郎被4个伴郎暴打致死,婚礼结束直接办丧事

山西婚闹致死案:新郎被4个伴郎暴打致死,婚礼结束直接办丧事

明智家庭教育
2025-12-02 11:20:34
普拉蒂尼:现在没有特别突出的球员,上一个真正杰出的是梅西

普拉蒂尼:现在没有特别突出的球员,上一个真正杰出的是梅西

懂球帝
2026-03-01 01:18:21
3000万打工人逃离北上广,却不知道县城已被161个家族瓜分

3000万打工人逃离北上广,却不知道县城已被161个家族瓜分

流苏晚晴
2026-02-27 18:06:43
伊朗外交部声明!

伊朗外交部声明!

环球时报国际
2026-02-28 22:46:42
火箭内讧爆发!乌度卡愤怒批评,刺头想要揍他,态度太差该放弃了

火箭内讧爆发!乌度卡愤怒批评,刺头想要揍他,态度太差该放弃了

你的篮球频道
2026-03-01 07:35:41
伊朗伊斯兰共和国军队发布第1号公告

伊朗伊斯兰共和国军队发布第1号公告

界面新闻
2026-02-28 19:53:31
河村勇辉本场首发出战34分钟 得到11分19助4篮板1抢断

河村勇辉本场首发出战34分钟 得到11分19助4篮板1抢断

环球体坛啄木鸟
2026-02-28 17:16:45
结婚不到一年,娶了“白月光”的李国庆,口碑彻底反转了

结婚不到一年,娶了“白月光”的李国庆,口碑彻底反转了

萧鑟科普解说
2026-02-26 06:07:11
感谢美国:五毛一度的中国电,换个姿势就能卖11元

感谢美国:五毛一度的中国电,换个姿势就能卖11元

星海情报局
2026-02-28 18:00:35
“清华学霸”李一诺:27岁博士毕业,4年生3个娃,替世界首富花钱

“清华学霸”李一诺:27岁博士毕业,4年生3个娃,替世界首富花钱

北有南栀
2026-02-28 17:55:03
镖人血亏2亿,吴京不服,又抬三部狠片,要问鼎中国第一巨星了

镖人血亏2亿,吴京不服,又抬三部狠片,要问鼎中国第一巨星了

娱乐圈笔娱君
2026-02-28 18:15:17
2026-03-01 10:40:50
量子位 incentive-icons
量子位
追踪人工智能动态
12211文章数 176398关注度
往期回顾 全部

科技要闻

小米超跑概念车全球首秀!杀入顶豪俱乐部

头条要闻

哈梅内伊遇袭身亡 特朗普:被击毙的领导人都无计可施

头条要闻

哈梅内伊遇袭身亡 特朗普:被击毙的领导人都无计可施

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

周杰伦儿子正面照曝光,与父亲好像

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

极石汽车2月交付1298台 销量涨至上年200%

态度原创

时尚
教育
艺术
房产
家居

普通人穿衣不需要太复杂!颜色恰当、搭配和谐,高级又耐看

教育要闻

税务专业别选错!精准定位财政学类

艺术要闻

2025第四届“精神·图式”——中国写意油画双年展 | 入选油画选刊

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

家居要闻

素色肌理 品意式格调

无障碍浏览 进入关怀版