网易首页 > 网易号 > 正文 申请入驻

AI聊天机器人避开了危险回答,却在关键时刻"掉链子"

0
分享至

西雅图创业公司Mpathic周二发布了一份让Claude、ChatGPT和Gemini都坐不住的评测报告。这家公司专门帮AI企业给自家模型做"压力测试",看看它们在危险对话里会不会说错话。这次的新基准叫mPACT,由临床医生主导设计,专门测试主流AI模型如何处理高风险对话——包括自杀风险、饮食失调和虚假信息三类场景。

测试结果有点尴尬:各大模型确实越来越安全了,基本能避开有害回答,也能识别出用户的痛苦信号。但真到了危机时刻,它们的表现距离临床医生的标准还差得远。


"大多数人不会直接说'我有危险',而是通过长期细微的行为表现出来——人类医生一眼就能看出来,"Mpathic联合创始人兼CEO Grin Lord说。她是持证心理学家。"模型识别这些信号的能力在提升,但回应还得跟上这种细腻度,给出真正的支持。"

以下是Mpathic发现的具体情况。

自杀风险:表现最好,但各有短板

这是三个测试领域中模型表现最好的,不过没有哪家能包揽所有维度。

Claude Sonnet 4.5的综合mPACT得分最高——这个分数综合了检测、解读和回应三个维度的临床契合度——评测方认为它的回答最接近人类医生的处理方式。

GPT-5.2在简单避险上领先,也就是最擅长"不做错事",但评测人员指出它有时候不够主动。

Gemini 2.5 Flash在风险信号明显时表现不错,但对早期细微征兆的识别较弱。

饮食失调:全军覆没,集体踩雷

这是所有模型表现最差的领域,分数扎堆在中性基线附近。核心难点在于:饮食失调风险往往是间接的、被文化正常化的——用户会包装成"节食""自律"或"健康优化",模型很难识别这其实是危险信号。

Claude Sonnet 4.5再次在整体临床契合度上领先,有害行为发生率也最低。

Gemini 2.5 Flash在高风险场景下表现更好,但对细微信号依然吃力。

GPT-5.2呈现矛盾面貌:支持性行为很强,但同时也是最可能提供有害或风险信息的模型。

虚假信息:不说谎,但会"捧臭脚"

模型在这里的问题很隐蔽——不是直接说假话,而是通过强化可疑信念、表达不必要的自信、呈现单方面信息却不挑战用户假设来"带偏"用户。

基准测试发现,这类失败在多轮对话中尤其严重:模型会逐渐放大用户的错误推理。

GPT-5.2在帮助用户清晰思考而非强化错误假设方面表现最好。

Claude Sonnet 4.5紧随其后,评测方特别指出它更严格。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不甘心的罗玉凤,令人敬佩

不甘心的罗玉凤,令人敬佩

廖保平
2026-03-22 10:49:24
2004年,38岁的黎明和35岁的王菲,两人看起来挺有夫妻相的

2004年,38岁的黎明和35岁的王菲,两人看起来挺有夫妻相的

喜文多见01
2026-05-14 11:00:26
曝黑海舰队成铁笼!俄乌战争以来首次安装无人机“防护网”

曝黑海舰队成铁笼!俄乌战争以来首次安装无人机“防护网”

项鹏飞
2026-05-12 18:14:38
哈登撑住了天王山,才有了其他人的救赎

哈登撑住了天王山,才有了其他人的救赎

只关于篮球
2026-05-14 12:56:08
今年世界杯转播格式确定!最高4K加HDR格式,中国用户能看到么?

今年世界杯转播格式确定!最高4K加HDR格式,中国用户能看到么?

杰夫视点
2026-05-13 13:06:43
CBA前四会师四强!半决赛对阵出炉:上海vs北京 广厦vs深圳

CBA前四会师四强!半决赛对阵出炉:上海vs北京 广厦vs深圳

醉卧浮生
2026-05-13 21:31:24
炸了!奥尼尔评 NBA 历史前十巨星 詹皇仅第 3

炸了!奥尼尔评 NBA 历史前十巨星 詹皇仅第 3

澜归序
2026-05-14 04:07:21
为嫁50亿富豪抛弃同居5年的周一围,今成笑柄

为嫁50亿富豪抛弃同居5年的周一围,今成笑柄

青杉依旧啊啊
2026-04-27 14:03:21
世乒赛最痛苦的人莫过于张本宇了,不是儿女惨败,而是地位不保

世乒赛最痛苦的人莫过于张本宇了,不是儿女惨败,而是地位不保

阿伧说事
2026-05-12 16:30:31
北大才子将癌症晚期父亲骗出国,让其高空跳伞,88天后结局怎样

北大才子将癌症晚期父亲骗出国,让其高空跳伞,88天后结局怎样

云景侃记
2026-04-17 17:00:39
白色紧身裤的致命暴击!这“肥臀”曲线,看一眼就移不开眼

白色紧身裤的致命暴击!这“肥臀”曲线,看一眼就移不开眼

只要高兴就好
2026-05-14 13:29:35
高二男生下晚自习在校内跑步后猝死 校方:非老师罚跑,赔偿问题与家长未达成一致

高二男生下晚自习在校内跑步后猝死 校方:非老师罚跑,赔偿问题与家长未达成一致

红星新闻
2026-05-13 13:54:49
国务院刚发文!这43所双一流入选,选调生直接起飞

国务院刚发文!这43所双一流入选,选调生直接起飞

优墨出品
2026-05-14 12:12:42
“还没成年,脖子就有草莓了!”原来穷人富养女,才是悲剧的祸根

“还没成年,脖子就有草莓了!”原来穷人富养女,才是悲剧的祸根

妍妍教育日记
2026-05-11 19:20:59
中印冲突全面升级:中国避让换来印度强硬对抗

中印冲突全面升级:中国避让换来印度强硬对抗

张鴘喜欢软软糯糯
2026-05-12 16:53:24
纪委已明确!公职人员“8小时外”的社交篇 , 这4种行为绝不能碰

纪委已明确!公职人员“8小时外”的社交篇 , 这4种行为绝不能碰

细说职场
2026-05-13 14:18:41
波兰媒体:利雅得新月向莱万开出9000万欧元年薪

波兰媒体:利雅得新月向莱万开出9000万欧元年薪

懂球帝
2026-05-14 02:31:07
后续来了!合唱团女子穿礼服退款,账号被扒,拒不认错终“社死”

后续来了!合唱团女子穿礼服退款,账号被扒,拒不认错终“社死”

用外语夸女孩
2026-05-14 07:21:03
很多男人已经养不起家了,无数普通顶梁柱被压垮!

很多男人已经养不起家了,无数普通顶梁柱被压垮!

黯泉
2026-05-14 10:57:59
肖战首次提名金海燕奖最佳男主,这一步走得太稳

肖战首次提名金海燕奖最佳男主,这一步走得太稳

浅娱视界
2026-05-14 09:44:57
2026-05-14 14:27:00
我是一个粉刷匠2
我是一个粉刷匠2
有态度网友ytd
2703文章数 34关注度
往期回顾 全部

科技要闻

马斯克:只有我和黄仁勋坐上了"空军一号"

头条要闻

十四世达赖的亲侄子被指诱奸超25名女孩 带女下属开房

头条要闻

十四世达赖的亲侄子被指诱奸超25名女孩 带女下属开房

体育要闻

登海报!哈登30+8+6创多项纪录 第8次赢天王山

娱乐要闻

肖战提名金海燕奖,这一步走得太稳

财经要闻

片仔癀依旧困在“片仔癀”

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

本地
旅游
房产
时尚
公开课

本地新闻

用苏绣的方式,打开江西婺源

旅游要闻

连免4天!洛阳木札岭景区中国旅游日免门票

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

T恤+低腰阔腿裤、衬衫+低腰半裙,今年夏天最时髦的搭配,谁穿谁好看!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版