网易首页 > 网易号 > 正文 申请入驻

AI问诊翻车现场:五款主流机器人半数回答有问题

0
分享至

研究人员把250个医疗问题丢给ChatGPT、Gemini、Grok、Meta AI和DeepSeek,结果一半回答踩了红线——要么信息残缺,要么直接误导。更讽刺的是,这些答案看起来都很专业。

测试设计:故意"刁难"还是模拟真实?


研究团队选了癌症、疫苗、干细胞、营养、运动表现五个领域,问题分成两类:开放式("某种疗法有用吗")和封闭式(带选项的限定提问)。

开放式问题才是杀招。真实用户不会用考试卷的方式问AI,他们会问"疫苗安全吗""怎么提升运动表现"。这种模糊提问让机器人更容易把可靠证据和垃圾信息搅在一起端出来。

封闭式问题表现稍好,但代价是场景失真——没人看病时先给自己编四个选项。

参考文献:40%完整度的信任危机

用户信AI的一个重要原因是"它有出处"。研究打脸:平均参考文献完整度只有40%,没有一款机器人能给出完全准确的引用列表。

更糟的是编造。某些回答附带的文献根本不存在,但机器人照样言之凿凿,几乎不加任何风险提示。

这对产品设计是个死结:引用功能本是为建立信任,结果成了幻觉(人工智能生成虚假信息的倾向)的帮凶。用户越信"有来源",被误导时伤得越深。

五款产品的众生相

研究没公布具体排名,但点明了共性缺陷:面对证据型医疗话题,所有模型都有约半数回答滑向问题区间。Gemini、ChatGPT、Grok、Meta AI、DeepSeek,谁也没逃过。

快速迭代是研究者的免责声明——这些产品更新太快,今天的结果明天可能过时。但核心矛盾不会消失:大语言模型的训练目标是对话流畅,不是医学精确。

流畅和精确在医疗场景经常打架。模型要" helpful"(有帮助),用户要"correct"(正确),中间隔着一道产品伦理的窄门。

用户行为的隐形推手

研究团队承认测试有"加压"成分,可能高估日常场景的出错率。但另一个角度:当用户把AI当搜索引擎用,提问方式天然偏向开放式。

搜索"糖尿病饮食"和问AI"我这种情况该怎么吃",后者给模型留了巨大的发挥空间。而模型最擅长的就是"自信地填补空白"。

这不是技术缺陷,是交互设计的错位。搜索结果的免责声明放在页面底部,AI回答把权威性写进每一句话的语调里。

产品启示:辅助定位的边界在哪

研究的结论很克制:聊天机器人可以帮忙总结信息、整理后续问题,但"不足以支撑有意义的医疗决策"。

对从业者来说,这划了一条清晰的产品红线。健康类AI的合规设计、风险分级、人工兜底机制,都需要围绕这条线展开。

一个可能的进化方向:强制结构化提问。不是让用户自己组织语言,而是用引导式界面把开放式问题拆解成可验证的子项。代价是交互摩擦,收益是可控性。

另一个方向是引用系统的重构。40%的完整度 unacceptable(不可接受),但100%准确又可能限制回答范围。中间有没有"可验证但有限"的甜蜜点?

冷幽默收尾

最黑色幽默的是研究场景本身:科学家用精心设计的问题测试AI,发现AI在精心设计的问题上表现不佳。而真实用户的问题,只会更随意、更模糊、更带着个人焦虑的滤镜。

所以当下最靠谱的"AI医疗产品",可能是一本教你怎么向医生描述症状的小册子——至少人类医生的参考文献完整度,通常高于40%。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
斯波直言三球该被驱逐!鲍尔准绝杀戴大金链:轰30+10自我救赎

斯波直言三球该被驱逐!鲍尔准绝杀戴大金链:轰30+10自我救赎

颜小白的篮球梦
2026-04-15 11:00:09
欠债2万亿!曝67岁许家印跟大咖们关在一起:吃得好 普通人进不去

欠债2万亿!曝67岁许家印跟大咖们关在一起:吃得好 普通人进不去

风过乡
2026-04-15 07:11:30
CBA最令人失望球队!10天前还是联赛第4,如今连第8都快保不住了

CBA最令人失望球队!10天前还是联赛第4,如今连第8都快保不住了

后仰大风车
2026-04-16 07:55:08
中国移动:4月30日起全国统一执行!话费、流量将迎来重大变化

中国移动:4月30日起全国统一执行!话费、流量将迎来重大变化

Thurman在昆明
2026-04-15 19:05:34
男子晒列车上婴儿撕心裂肺哭闹20分钟,本以为将爆发冲突,没想到男子出手30秒哄睡婴儿,网友:这是本车厢MVP结算画面吗?

男子晒列车上婴儿撕心裂肺哭闹20分钟,本以为将爆发冲突,没想到男子出手30秒哄睡婴儿,网友:这是本车厢MVP结算画面吗?

观威海
2026-04-15 15:48:30
八旗中的“正”“镶”旗有什么区别?进来看看,别再闹笑话了!

八旗中的“正”“镶”旗有什么区别?进来看看,别再闹笑话了!

凡人侃史
2026-04-15 23:19:03
夫妻二人同时被带走调查,二人深耕辽宁金融保险行业数十年

夫妻二人同时被带走调查,二人深耕辽宁金融保险行业数十年

元芳有看法
2026-04-15 21:48:28
中国专家神预言!美国打伊朗不止石油,下一目标也已锁定!

中国专家神预言!美国打伊朗不止石油,下一目标也已锁定!

莫地方
2026-04-16 08:38:36
一个农民去上海看病纪实:住院九天半,花费53000元,超心疼!

一个农民去上海看病纪实:住院九天半,花费53000元,超心疼!

奶茶麦子
2026-04-14 12:20:09
美国封锁霍尔木兹海峡至今,没有任何伊朗油轮成功突破封锁

美国封锁霍尔木兹海峡至今,没有任何伊朗油轮成功突破封锁

山河路口
2026-04-15 19:07:44
陈龙灿:介绍张本宇日本打球,没想到他回来了,对方却改了国籍

陈龙灿:介绍张本宇日本打球,没想到他回来了,对方却改了国籍

以茶带书
2026-04-14 14:10:58
打了45天,伊朗终于发现最大敌人不是美国,不是以色列,而是他们

打了45天,伊朗终于发现最大敌人不是美国,不是以色列,而是他们

面包夹知识
2026-04-15 15:32:31
马筱梅吐槽婆婆别墅没处下脚,背刺兰姐,可见,她是真的坏

马筱梅吐槽婆婆别墅没处下脚,背刺兰姐,可见,她是真的坏

魔都姐姐杂谈
2026-04-16 04:42:28
太开心:随着张安达10-3,多达11名中国选手晋级斯诺克世锦赛正赛

太开心:随着张安达10-3,多达11名中国选手晋级斯诺克世锦赛正赛

侧身凌空斩
2026-04-16 05:36:59
理想汽车被约谈!

理想汽车被约谈!

电动知家
2026-04-15 12:47:41
尿素没骗到的印度,离腐烂不远了

尿素没骗到的印度,离腐烂不远了

下一步思维
2026-04-16 00:32:26
收手吧释小龙!新片乱成一锅粥,有谢苗的心,却没谢苗的命

收手吧释小龙!新片乱成一锅粥,有谢苗的心,却没谢苗的命

得得电影
2026-04-15 09:48:34
河南62岁务工人员清理垃圾时猝死,因超法定退休年龄未被认定工伤,检察院介入:视同工伤,赔偿87万

河南62岁务工人员清理垃圾时猝死,因超法定退休年龄未被认定工伤,检察院介入:视同工伤,赔偿87万

极目新闻
2026-04-15 17:24:12
不想访华了?特朗普召回美驻华大使,贝森特放话:中国“不可靠”

不想访华了?特朗普召回美驻华大使,贝森特放话:中国“不可靠”

攒一兜星星
2026-04-16 07:09:15
吃相越来越难看,都开始硬抢了!

吃相越来越难看,都开始硬抢了!

胖胖说他不胖
2026-04-15 09:00:18
2026-04-16 10:23:00
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
1426文章数 16关注度
往期回顾 全部

科技要闻

39.98万!小鹏GX预售“纯电增程同价”

头条要闻

牛弹琴:伊朗迎来一位非常特殊客人 全世界大舒一口气

头条要闻

牛弹琴:伊朗迎来一位非常特殊客人 全世界大舒一口气

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

谢娜现身环球影城,牵手女儿温馨有爱

财经要闻

油轮被困波斯湾1个多月 船员饱受煎熬

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

教育
数码
游戏
房产
公开课

教育要闻

重磅政策:得州理工将取消所有“性别与性取向”相关专业

数码要闻

华为官宣WATCH FIT 5系列智能手表4月20日发布

拉跨了!《红色沙漠》有望在年底超越《星空》总销量

房产要闻

重磅调规!341亩商改住+中小学用地!宝龙城这把稳了?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版