网易首页 > 网易号 > 正文 申请入驻

医疗AI翻车现场:五个顶流模型,一半答案在瞎说

0
分享至

伦敦的研究人员刚做完一场大型压力测试。他们往五个主流AI聊天机器人里塞了250个医疗问题,结果一半回答都有问题——不是小瑕疵,是可能误导患者的那种。

测试对象包括ChatGPT、Gemini、Grok、Meta AI和DeepSeek,覆盖癌症、疫苗、干细胞、营养和运动表现五个领域。问题设计得很刁钻:既有正常用户的常见疑问,也有网络上流传已久的谣言变体。


开放式提问是重灾区

研究发现一个反直觉的规律:问题越开放,AI越容易翻车。

当用户问"这种疗法有效吗"或"疫苗安全吗"这种日常句式时,五个模型的表现比面对选择题时差得多。它们会把可靠证据和薄弱甚至错误的说法混在一起,包装成流畅、自信的段落。

这恰恰击中了真实场景。没人看病时像做测验那样列选项,人们就是随口一问,然后等着一个听起来专业的答案。

研究人员特意对比了两种提问方式。封闭式提示(有明确选项边界)确实更安全,但现实中几乎没人这么问AI。开放式提示产出的"高度有问题"回答比例,远超团队预期。

参考文献是纸糊的盔甲

更让人头疼的是引用系统。五个模型的参考文献完整度平均分只有40%,没有一个能给出完全准确的文献列表。

这意味着什么?用户看到文末挂着一串论文链接,本能觉得"这回答有据可查"。点进去才发现,要么链接失效,要么文不对题,要么干脆是AI编出来的。

研究团队专门标记了虚构引用的情况。但即便文献是假的,模型回答时依然语气笃定,几乎不加任何"这可能不准确"的缓冲。

这种确定性幻觉比错误本身更危险。一个犹豫的医生会让人再检查一次,一个自信的AI直接让人做出决定。

为什么偏偏是医疗场景

AI在写诗、写代码时的容错率很高。医疗不一样,一个数字错、一个剂量错,后果是真实的身体损伤。

研究设计的250个提示词,核心测试点是"是否偏离科学证据"。这不是在考AI的知识储备,是在考它面对模糊信息时的判断力——而判断力恰恰是当前大模型的短板。

五个被测模型里,没有哪一个展现出稳定的证据筛选能力。它们更像高级的文本拼接器,把训练数据里高频出现的说法重新组织,而非真正理解医学研究的证据等级。

疫苗安全、癌症替代疗法、干细胞宣传,这些领域本来就充斥着商业利益和认知偏差。AI没有免疫能力,反而会把网络上的噪音放大成"权威回答"。

研究本身的局限也要摊开讲

作者团队没回避方法论的限制。只测了五个产品,而AI迭代速度以周计算;提示词设计偏压力测试,日常使用中错误率可能没那么夸张。

但这些 caveat 不影响核心结论:当问题涉及循证医学时,现有聊天机器人的可靠度还撑不起严肃决策。

一个细节值得玩味。研究特意选了"常见误解"作为提示词素材——这些正是搜索引擎时代就反复出现、但从未被彻底清理的信息垃圾。AI没有解决旧问题,只是换了个更礼貌的包装。

现在的AI医疗助手能干什么

研究人员的建议很克制: summarize information(总结信息),shape follow-up questions(帮助形成后续问题)。

翻译一下:可以当信息预处理工具,不能当诊断依据。适合帮用户整理思路、准备面诊时要问医生的问题清单,不适合替代那个"要不要停药"的决定。

这个定位和产品宣传之间的落差,才是问题的根源。厂商演示时展示的是流畅对话和即时响应,用户记住的是"AI懂医学"。研究数据把幻觉戳破了——懂的是语言模式,不是医学。

更深一层的问题在于交互设计。当界面长得像聊天窗口、回答长得像专家建议,用户的警惕心自然下降。这是产品形态的锅,不是用户太轻信。

对从业者的实际影响

如果你是医疗产品经理,这份研究提供了具体的改进 checklist:引用系统需要独立验证层,开放式回答需要不确定性量化,高风险话题需要强制人工复核。

如果你是普通用户,记住一个简单规则:AI给的医疗建议,默认当作"某个热心网友的说法"处理。有用,但得找真人确认。

如果你是政策制定者,研究暴露的监管空白很明显:当AI输出可能直接影响健康决策时,现有的平台责任和医疗广告法规都没跟上。

五个模型、250个问题、50%的问题率。这些数字不会阻止AI进入医疗领域,但应该让所有人把"辅助工具"的定位刻进产品设计的每个环节。

最讽刺的可能是这个:研究测试的五个模型,每一个在通用知识问答上的表现都足够惊艳。但医疗场景不需要惊艳,需要 boring 的正确——而 boring 恰恰是当前技术栈最不擅长的东西。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
乌军女兵沦为指挥官玩物:要么就陪睡,要么就眼睁睁看老公去死?

乌军女兵沦为指挥官玩物:要么就陪睡,要么就眼睁睁看老公去死?

南宗历史
2026-04-15 23:09:24
西班牙反了,法国反了,印度也反了,全世界都看清特朗普最怕啥

西班牙反了,法国反了,印度也反了,全世界都看清特朗普最怕啥

深析古今
2026-04-15 16:00:13
坦克500黑武士正式回归!售价36.5万起,红内饰喜欢吗?

坦克500黑武士正式回归!售价36.5万起,红内饰喜欢吗?

网上车市
2026-04-15 23:17:23
多名院士调查发现:抽一包烟,就等于洗一次肺,真的假的?

多名院士调查发现:抽一包烟,就等于洗一次肺,真的假的?

荆医生科普
2026-04-15 15:06:07
洪秀柱和郑丽文完全不是一路人!

洪秀柱和郑丽文完全不是一路人!

果妈聊娱乐
2026-04-15 08:52:10
好莱坞风流往事:沃伦体力太好,一天数次求欢,让麦当娜欲罢不能

好莱坞风流往事:沃伦体力太好,一天数次求欢,让麦当娜欲罢不能

钱小刀娱乐
2026-04-15 15:40:52
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
医生都惊了!上海一女子体内取出50颗重6斤…密密麻麻遍布!千万别拖️

医生都惊了!上海一女子体内取出50颗重6斤…密密麻麻遍布!千万别拖️

新浪财经
2026-04-15 11:20:13
山西男女骑车遭开门杀1人被碾压身亡,警方回应:涉案两车驾驶人均被传唤,案件正在调查中

山西男女骑车遭开门杀1人被碾压身亡,警方回应:涉案两车驾驶人均被传唤,案件正在调查中

大象新闻
2026-04-15 21:49:03
太吓人!上海至重庆航班硬砸跑道,3倍重力冲击,全程惊魂2秒!

太吓人!上海至重庆航班硬砸跑道,3倍重力冲击,全程惊魂2秒!

科学发掘
2026-04-15 05:51:52
欧冠历史主帅拿分榜:安帅执教8队425分第1,西蒙尼222分第6

欧冠历史主帅拿分榜:安帅执教8队425分第1,西蒙尼222分第6

懂球帝
2026-04-15 22:42:06
玩偶姐姐真实容貌曝光:击败刘玥的,从不止口罩

玩偶姐姐真实容貌曝光:击败刘玥的,从不止口罩

孤独的独角兽影视
2026-04-15 09:50:03
1-0,世界第5击败世界第2,日本女足复仇美国,浜野舞香一剑封喉

1-0,世界第5击败世界第2,日本女足复仇美国,浜野舞香一剑封喉

凌空倒钩
2026-04-15 12:01:01
李兆基女儿现状:老大未晋升集团高层,老二丁克,老三修佛未婚

李兆基女儿现状:老大未晋升集团高层,老二丁克,老三修佛未婚

白面书誏
2026-04-15 19:03:36
2-1!红牌!巴萨惨遭淘汰:欧冠出局,马竞挺进4强,亚马尔进球

2-1!红牌!巴萨惨遭淘汰:欧冠出局,马竞挺进4强,亚马尔进球

足球狗说
2026-04-15 05:01:30
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
特朗普这回闯下大祸了!普京在最关键时刻,给伊朗送上“定心丸”

特朗普这回闯下大祸了!普京在最关键时刻,给伊朗送上“定心丸”

君笙的拂兮
2026-04-14 21:47:11
里夫斯极限回归,参加内训,被看衰!湖人还指望41岁老詹

里夫斯极限回归,参加内训,被看衰!湖人还指望41岁老詹

体育新角度
2026-04-15 22:56:03
和平已无望?特朗普下达总统令,海湾港口被锁死,中国恐将受牵连

和平已无望?特朗普下达总统令,海湾港口被锁死,中国恐将受牵连

说历史的老牢
2026-04-14 23:03:01
红军设立了10个军团,军团司令员是谁?1955年授什么军衔?

红军设立了10个军团,军团司令员是谁?1955年授什么军衔?

勇哥读史
2026-04-15 17:52:08
2026-04-16 00:11:00
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
1407文章数 16关注度
往期回顾 全部

科技要闻

ChatGPT十亿用户又怎样?Anthropic直接贴脸

头条要闻

美航母及1万多士兵将抵中东 特朗普:战争或持续至11月

头条要闻

美航母及1万多士兵将抵中东 特朗普:战争或持续至11月

体育要闻

三球准绝杀戴大金链:轰30+10自我救赎

娱乐要闻

谢娜现身环球影城,牵手女儿温馨有爱

财经要闻

业绩失速的Lululemon:"健康"人设崩塌?

汽车要闻

空间丝毫不用妥协 小鹏GX首发评测

态度原创

家居
健康
游戏
公开课
军事航空

家居要闻

简而不减 暖居之道

干细胞抗衰4大误区,90%的人都中招

母胎单身26年,但“菲比”是我的娃

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

万斯:对当前美伊局势进展“感到乐观”

无障碍浏览 进入关怀版