网易首页 > 网易号 > 正文 申请入驻

AI问诊翻车实录:5大机器人一半答案有问题

0
分享至

「我们以为AI能当医生,结果它连参考文献都是编的。」——这不是段子,是《医学互联网研究杂志》刚发布的实测结论。

研究人员把ChatGPT、Gemini、Grok、Meta AI、DeepSeek扔进考场,250道医学题覆盖癌症、疫苗、干细胞、营养、运动表现。结果?一半的答案都有问题。更讽刺的是,这些机器人回答时语气笃定、格式专业,跟真专家似的。


开放式提问是重灾区

实验设计很刁钻:一半题目是封闭式(有标准答案),一半是开放式("这疗法有用吗""疫苗安全吗")。

后者模拟真实场景——普通人不会用多选题问诊,而是抛出一堆模糊描述。正是这类提问,让AI的翻车率飙升。

问题出在哪?机器人会把可靠证据和垃圾信息搅在一起,输出看似合理的混合体。用户很难分辨哪句对、哪句错。

更坑的是,它们几乎从不加限定词。"可能""建议咨询医生"这类缓冲词极少出现,取而代之的是斩钉截铁的断言。

参考文献是摆设,40%完整度

很多人信任AI,是因为它"有出处"。这次测试把这点底裤扒了。

五款机器人的参考文献完整度平均只有40%,没有一家能给出完全准确的引用列表。部分答案附的文献干脆是编的——标题、作者、期刊全造假。

这形成危险闭环:答案看起来专业→附带文献增强可信度→用户查证时发现文献不存在或文不对题。但多数人不会查证。

研究人员特别点名,Gemini等产品的引用格式极其逼真,足以骗过 casual 扫一眼的用户。

为什么闭源模型也没赢

一个反直觉的发现:OpenAI的GPT-4和谷歌的Gemini并没比开源/半开源选手稳多少。

按理说,资金雄厚的大厂应该更安全。但测试显示,所有模型在开放式医学问题上都出现"幻觉"(即一本正经胡说八道)。区别在于,大厂产品的包装更精致,反而更难识别。

DeepSeek作为后来者,表现并未明显掉队,也没明显领先。这说明医学安全不是砸钱就能解决的工程问题。

实验局限性:被故意刁难了吗

作者自己承认,250个prompt是"压力测试"——特意选了容易出错的领域和问法。日常使用中,用户可能问得更简单,错误率或许更低。

但另一个角度:癌症、疫苗正是普通人最可能搜、也最输不起的话题。如果AI在这些领域都稳不住,"日常简单问题"的安全感又有多少意义?

此外,模型迭代极快。今天的GPT-4和三个月后的版本可能是两个东西。研究的时效性天然受限。

产品经理该抄什么作业

这项研究给AI应用层敲了三记警钟:

第一,置信度显示不是摆设。很多产品为了体验流畅,隐藏了模型的不确定性。医学场景下,宁可让用户觉得"这AI不太确定",也别给虚假安全感。

第二,引用必须可验证。不是"列出参考文献"就完事,要链接直达、要交叉核对。40%完整度的引用还不如没有——没有至少让人警惕,假的引用让人放松警惕。

第三,开放式对话需要主动收敛。用户问得越泛,系统越该引导到具体、可验证的子问题,而不是接招硬答。

一个冷观察

研究发布时,恰好是各大厂疯狂推广AI搜索、AI助手的节点。谷歌把Gemini塞进搜索首页,OpenAI力推ChatGPT的实时搜索,Perplexity估值暴涨。

医学是搜索广告的金矿。但这项研究表明,金矿里可能混着相当比例的有毒矿石。监管还没跟上,用户已经用上了。

最黑色幽默的是结尾:研究人员建议,AI目前只适合"总结信息"或"帮你想下一步问什么"——翻译成人话,就是个高级版"您是不是想找"。

我们花了上百亿美元,造出了一个会胡编的自动补全。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
彻底凉凉!东契奇伤情报告出炉,帕金斯放狠话:老詹赢火箭是GOAT

彻底凉凉!东契奇伤情报告出炉,帕金斯放狠话:老詹赢火箭是GOAT

篮球看比赛
2026-04-16 09:50:19
同门反目!大疆近百名工程师倒戈,核心地盘被昔日自己人抢占

同门反目!大疆近百名工程师倒戈,核心地盘被昔日自己人抢占

火山詩话
2026-04-15 06:41:46
吴昕带郑凯与何老师维嘉聚餐 爆料人称两人在一起7年

吴昕带郑凯与何老师维嘉聚餐 爆料人称两人在一起7年

老吴教育课堂
2026-04-16 16:07:35
45岁守山人遭巨豹跟踪9天,绝望看清它嘴里之物,他瘫在树下大哭

45岁守山人遭巨豹跟踪9天,绝望看清它嘴里之物,他瘫在树下大哭

白云故事
2026-03-14 19:50:07
变天!曝皇马已决定今夏换帅,5大世界级教练候选,老佛爷钦点传奇回归

变天!曝皇马已决定今夏换帅,5大世界级教练候选,老佛爷钦点传奇回归

夕落秋山
2026-04-17 02:33:54
吉林省延边州人大常委会原副主任韩长发被“双开”

吉林省延边州人大常委会原副主任韩长发被“双开”

界面新闻
2026-04-16 16:29:27
紫牛头条|“JD快修”修电脑收6000多元却无维修痕迹,京东:公司无此类业务,不要上当

紫牛头条|“JD快修”修电脑收6000多元却无维修痕迹,京东:公司无此类业务,不要上当

扬子晚报
2026-04-15 21:16:28
圆明园国宝回家,法国将归还全部文物

圆明园国宝回家,法国将归还全部文物

谛听骨语本尊
2026-04-16 14:45:00
为什么访问中国以后,很多“欧美的高管”回去时都感到压力巨大?

为什么访问中国以后,很多“欧美的高管”回去时都感到压力巨大?

哭蓝了海a
2026-04-15 11:28:59
66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

66岁大妈喜欢睡前泡脚,不久脑梗去世,专家怒斥:太无知了

比利
2026-03-21 13:00:22
英军上将警告:若台海开战,英军将同时打击中俄,重点对付中!

英军上将警告:若台海开战,英军将同时打击中俄,重点对付中!

别吵吵
2026-04-15 09:49:16
H3火箭因黏合剂工艺缺陷导致卫星发射任务失败

H3火箭因黏合剂工艺缺陷导致卫星发射任务失败

至顶AI实验室
2026-04-16 22:36:08
银行行长豢养32位女员工,揭秘其专选美人的骇人内幕

银行行长豢养32位女员工,揭秘其专选美人的骇人内幕

雾岛夜话
2025-05-13 14:17:25
北京市朝阳区市场监管局通报小杨生煎北京合生汇店检查情况

北京市朝阳区市场监管局通报小杨生煎北京合生汇店检查情况

北京商报
2026-04-16 20:15:15
郑丽文访陆480万由台民基会报销 国民党:民进党若去大陆也可以!

郑丽文访陆480万由台民基会报销 国民党:民进党若去大陆也可以!

时尚的弄潮
2026-04-16 14:36:12
被活活锯成两半之前,他嘲笑刽子手法太次,锯人要用木板垫着,你到底懂不懂?

被活活锯成两半之前,他嘲笑刽子手法太次,锯人要用木板垫着,你到底懂不懂?

历史按察使司
2026-04-14 14:17:04
国务院免去戴建业澳门特别行政区政府经济财政司司长职务

国务院免去戴建业澳门特别行政区政府经济财政司司长职务

新京报
2026-04-16 10:14:19
何超蕸私生活曝光!信德员工证实:相伴多年伴侣,3位密友陪伴

何超蕸私生活曝光!信德员工证实:相伴多年伴侣,3位密友陪伴

一盅情怀
2026-04-14 09:47:33
2000吨英国潜艇消失,我国暗中打捞拆解研究,39年后首相却上门讨要

2000吨英国潜艇消失,我国暗中打捞拆解研究,39年后首相却上门讨要

睡前讲故事
2026-03-30 13:48:58
人民日报:减少基层机关事业单位职工考核,响应中央的减负政策!

人民日报:减少基层机关事业单位职工考核,响应中央的减负政策!

细说职场
2026-04-09 14:14:38
2026-04-17 04:55:00
摸鱼算法
摸鱼算法
致力于用最前沿的AI技术,换取更多发呆时间的三十岁青年。
1484文章数 16关注度
往期回顾 全部

科技要闻

赵明:智驾之战,看谁在大模型上更高效

头条要闻

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

头条要闻

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

体育要闻

皇马拜仁踢出名局,但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

海尔与医美女王互撕 换血抗衰谁的生意?

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

本地
旅游
时尚
数码
公开课

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

旅游要闻

社评:读懂“China Travel”持续圈粉的逻辑

爆火的前额叶梗,让多少年轻人主动确诊「脑残」?

数码要闻

荣耀史上最短发布会,发布荣耀史上最强MagicBook数字系列

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版