网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

AI问诊翻车实录：5大机器人一半答案有问题

2026-04-15 17:31:22　来源: 摸鱼算法

北京举报

0

分享至

「我们以为AI能当医生，结果它连参考文献都是编的。」——这不是段子，是《医学互联网研究杂志》刚发布的实测结论。

研究人员把ChatGPT、Gemini、Grok、Meta AI、DeepSeek扔进考场，250道医学题覆盖癌症、疫苗、干细胞、营养、运动表现。结果？一半的答案都有问题。更讽刺的是，这些机器人回答时语气笃定、格式专业，跟真专家似的。

开放式提问是重灾区

实验设计很刁钻：一半题目是封闭式（有标准答案），一半是开放式（"这疗法有用吗""疫苗安全吗"）。

后者模拟真实场景——普通人不会用多选题问诊，而是抛出一堆模糊描述。正是这类提问，让AI的翻车率飙升。

问题出在哪？机器人会把可靠证据和垃圾信息搅在一起，输出看似合理的混合体。用户很难分辨哪句对、哪句错。

更坑的是，它们几乎从不加限定词。"可能""建议咨询医生"这类缓冲词极少出现，取而代之的是斩钉截铁的断言。

参考文献是摆设，40%完整度

很多人信任AI，是因为它"有出处"。这次测试把这点底裤扒了。

五款机器人的参考文献完整度平均只有40%，没有一家能给出完全准确的引用列表。部分答案附的文献干脆是编的——标题、作者、期刊全造假。

这形成危险闭环：答案看起来专业→附带文献增强可信度→用户查证时发现文献不存在或文不对题。但多数人不会查证。

研究人员特别点名，Gemini等产品的引用格式极其逼真，足以骗过 casual 扫一眼的用户。

为什么闭源模型也没赢

一个反直觉的发现：OpenAI的GPT-4和谷歌的Gemini并没比开源/半开源选手稳多少。

按理说，资金雄厚的大厂应该更安全。但测试显示，所有模型在开放式医学问题上都出现"幻觉"（即一本正经胡说八道）。区别在于，大厂产品的包装更精致，反而更难识别。

DeepSeek作为后来者，表现并未明显掉队，也没明显领先。这说明医学安全不是砸钱就能解决的工程问题。

实验局限性：被故意刁难了吗

作者自己承认，250个prompt是"压力测试"——特意选了容易出错的领域和问法。日常使用中，用户可能问得更简单，错误率或许更低。

但另一个角度：癌症、疫苗正是普通人最可能搜、也最输不起的话题。如果AI在这些领域都稳不住，"日常简单问题"的安全感又有多少意义？

此外，模型迭代极快。今天的GPT-4和三个月后的版本可能是两个东西。研究的时效性天然受限。

产品经理该抄什么作业

这项研究给AI应用层敲了三记警钟：

第一，置信度显示不是摆设。很多产品为了体验流畅，隐藏了模型的不确定性。医学场景下，宁可让用户觉得"这AI不太确定"，也别给虚假安全感。

第二，引用必须可验证。不是"列出参考文献"就完事，要链接直达、要交叉核对。40%完整度的引用还不如没有——没有至少让人警惕，假的引用让人放松警惕。

第三，开放式对话需要主动收敛。用户问得越泛，系统越该引导到具体、可验证的子问题，而不是接招硬答。

一个冷观察

研究发布时，恰好是各大厂疯狂推广AI搜索、AI助手的节点。谷歌把Gemini塞进搜索首页，OpenAI力推ChatGPT的实时搜索，Perplexity估值暴涨。

医学是搜索广告的金矿。但这项研究表明，金矿里可能混着相当比例的有毒矿石。监管还没跟上，用户已经用上了。

最黑色幽默的是结尾：研究人员建议，AI目前只适合"总结信息"或"帮你想下一步问什么"——翻译成人话，就是个高级版"您是不是想找"。

我们花了上百亿美元，造出了一个会胡编的自动补全。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

中国推出海陆空三栖全地形机器人

装甲铲史官 2026-04-15 11:39:33
3 跟贴 3
打破数据瓶颈，聆动通用以「大小脑」驱动具身智能产业落地

36氪 2026-04-16 21:47:22
10 跟贴 10

刚刚，机器人练成了「白眼」：∞帧画面边看边3D重建我们的世界！

量子位 2026-04-16 20:30:30
0 跟贴 0

刚刚开源了！

机器之心Pro 2026-03-25 15:18:26
0 跟贴 0
28.58万一台，奇瑞跨界造机器人正式开卖！

每日经济新闻 2026-04-15 15:55:15
0 跟贴 0

LLM数据量大管饱，机器人数据却连1%的起跑线都没够到？

量子位 2026-04-13 20:54:19
0 跟贴 0

直面LeCun愿景，智在无界发布最强具身世界模型

机器之心Pro 2026-04-14 10:39:56
0 跟贴 0
这个机器人，凭什么能改变全球物流？

虎嗅APP 2026-04-16 17:22:05
1 跟贴 1

宇树科技王兴兴：给机器人行业多一点耐心

财联社 2026-02-18 18:01:39
0 跟贴 0
新颖鳍足机器人，水陆两栖行动自如，适应各种地形

装甲铲史官 2025-12-25 10:58:04
0 跟贴 0
零样本 Sim-to-Real ！2

机器之心Pro 2026-03-25 11:40:23
0 跟贴 0
机器人打包运输的正确方式

装甲铲史官 2026-02-22 10:41:15
0 跟贴 0
机器人管家Figure 03来了，承包一切家务！

量子位 2025-10-11 10:13:00
0 跟贴 0
前任、同事被炼化成AI，能替代本人吗？

机器之心Pro 2026-04-14 17:21:54
0 跟贴 0
脸谱心智陆弘远团队ACL 2026新作：别再给模型叠加「高级词」了！

机器之心Pro 2026-04-16 17:14:30
0 跟贴 0
AI安全得查祖宗三代？Anthropic登Nature揭秘大模型潜意识传染

新智元 2026-04-16 18:50:56
0 跟贴 0
与谷歌 Genie3 正面交锋，阿里发布世界模型HappyOyster：从被动生成到主动模拟

钛媒体APP 2026-04-16 22:40:08
1 跟贴 1
OpenAI新增智能体后台操作电脑应用功能推进超级应用布局

财联社 2026-04-17 03:27:26
0 跟贴 0
刚刚，Claude Opus 4.7突然发布：不是最强，但奥特曼又得失眠

爱范儿 2026-04-17 01:35:26
0 跟贴 0
10秒爬上5楼，中国自主研发攀爬机器人美国首发

每日经济新闻 2026-04-15 15:54:58
0 跟贴 0
2026人形机器人马拉松测试赛，一半狂飙一半翻车

每日经济新闻 2026-04-16 13:18:06
0 跟贴 0
小心！你的AI正在一本正经地忽悠你

财联社 2026-02-05 16:35:01
0 跟贴 0
Anthropic发布Claude Opus 4.7：金融分析能力登顶公开模型软件工程、多模态全面进阶

财联社 2026-04-17 01:18:06
0 跟贴 0
Claude Opus 4.7连夜突袭：或将抢走全球7亿打工人饭碗！

新智元 2026-04-17 00:27:01
0 跟贴 0
有人把巴菲特芒格炼成AI Agent，Github标星狂揽5w+

量子位 2026-04-15 09:48:11
2 跟贴 2
人活着的唯一理由是善良

叶檀财经 2026-02-01 17:07:04
0 跟贴 0
荒野求生（机器狗全自主版），2025ATEC挑战真实户外无遥操

量子位 2025-12-08 19:24:34
0 跟贴 0
安心养虾！从OpenClaw看云上AI安全落地路径

量子位 2026-03-31 20:40:57
0 跟贴 0
这个时代必须以Agent为中心：三个趋势回顾

量子位 2026-04-05 02:14:15
0 跟贴 0
MIT研究生用NotebookLM两天学完一学期课程

量子位 2026-03-22 10:50:49
0 跟贴 0
如何点亮小龙虾的牛马技能包?

量子位 2026-03-18 12:51:26
0 跟贴 0
陶哲轩：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟贴 0
百度沈抖自曝：老忘吃药，用AI做了个小程序

量子位 2026-03-27 11:25:23
0 跟贴 0
大模型的下半场，属于拥有云+AI全栈引擎的玩家

量子位 2026-01-30 03:29:45
0 跟贴 0
AI Agent是科技革命中的一次真正的范式转移

量子位 2026-04-03 22:52:35
0 跟贴 0
博士生如何用龙虾做知识管理？欢迎围观！

量子位 2026-03-26 23:23:30
0 跟贴 0
丰田篮球机器人CUE全新亮相，动作丝滑超越人类

烈焰童子 2026-04-15 02:18:55
0 跟贴 0
美女演出翻车，上台致谢被“打包”带走，搭档太有梗了！

少年时搞笑 2026-04-15 08:36:22
1 跟贴 1
机器人开问界，正在围观小米的学生无人问津，这波谁赢了！

咔咔看生活 2026-04-16 09:35:17
4 跟贴 4
北京马拉松名场面，本以为是人类操控机器，下一秒机器人直接把操作员“甩飞”

观象视频 2026-04-16 18:04:40
2218 跟贴 2218

彻底凉凉！东契奇伤情报告出炉，帕金斯放狠话：老詹赢火箭是GOAT

彻底凉凉！东契奇伤情报告出炉，帕金斯放狠话：老詹赢火箭是GOAT

篮球看比赛

2026-04-16 09:50:19

同门反目！大疆近百名工程师倒戈，核心地盘被昔日自己人抢占

同门反目！大疆近百名工程师倒戈，核心地盘被昔日自己人抢占

火山詩话

2026-04-15 06:41:46

吴昕带郑凯与何老师维嘉聚餐爆料人称两人在一起7年

吴昕带郑凯与何老师维嘉聚餐爆料人称两人在一起7年

老吴教育课堂

2026-04-16 16:07:35

45岁守山人遭巨豹跟踪9天，绝望看清它嘴里之物，他瘫在树下大哭

45岁守山人遭巨豹跟踪9天，绝望看清它嘴里之物，他瘫在树下大哭

白云故事

2026-03-14 19:50:07

变天！曝皇马已决定今夏换帅，5大世界级教练候选，老佛爷钦点传奇回归

变天！曝皇马已决定今夏换帅，5大世界级教练候选，老佛爷钦点传奇回归

夕落秋山

2026-04-17 02:33:54

吉林省延边州人大常委会原副主任韩长发被“双开”

吉林省延边州人大常委会原副主任韩长发被“双开”

界面新闻

2026-04-16 16:29:27

紫牛头条｜“JD快修”修电脑收6000多元却无维修痕迹，京东：公司无此类业务，不要上当

紫牛头条｜“JD快修”修电脑收6000多元却无维修痕迹，京东：公司无此类业务，不要上当

扬子晚报

2026-04-15 21:16:28

圆明园国宝回家，法国将归还全部文物

圆明园国宝回家，法国将归还全部文物

谛听骨语本尊

2026-04-16 14:45:00

为什么访问中国以后，很多“欧美的高管”回去时都感到压力巨大？

为什么访问中国以后，很多“欧美的高管”回去时都感到压力巨大？

哭蓝了海a

2026-04-15 11:28:59

66岁大妈喜欢睡前泡脚，不久脑梗去世，专家怒斥：太无知了

66岁大妈喜欢睡前泡脚，不久脑梗去世，专家怒斥：太无知了

比利

2026-03-21 13:00:22

英军上将警告：若台海开战，英军将同时打击中俄，重点对付中！

英军上将警告：若台海开战，英军将同时打击中俄，重点对付中！

别吵吵

2026-04-15 09:49:16

H3火箭因黏合剂工艺缺陷导致卫星发射任务失败

H3火箭因黏合剂工艺缺陷导致卫星发射任务失败

至顶AI实验室

2026-04-16 22:36:08

银行行长豢养32位女员工，揭秘其专选美人的骇人内幕

银行行长豢养32位女员工，揭秘其专选美人的骇人内幕

雾岛夜话

2025-05-13 14:17:25

北京市朝阳区市场监管局通报小杨生煎北京合生汇店检查情况

北京市朝阳区市场监管局通报小杨生煎北京合生汇店检查情况

北京商报

2026-04-16 20:15:15

郑丽文访陆480万由台民基会报销国民党：民进党若去大陆也可以！

郑丽文访陆480万由台民基会报销国民党：民进党若去大陆也可以！

时尚的弄潮

2026-04-16 14:36:12

被活活锯成两半之前，他嘲笑刽子手法太次，锯人要用木板垫着，你到底懂不懂？

被活活锯成两半之前，他嘲笑刽子手法太次，锯人要用木板垫着，你到底懂不懂？

历史按察使司

2026-04-14 14:17:04

国务院免去戴建业澳门特别行政区政府经济财政司司长职务

国务院免去戴建业澳门特别行政区政府经济财政司司长职务

新京报

2026-04-16 10:14:19

何超蕸私生活曝光！信德员工证实：相伴多年伴侣，3位密友陪伴

何超蕸私生活曝光！信德员工证实：相伴多年伴侣，3位密友陪伴

一盅情怀

2026-04-14 09:47:33

2000吨英国潜艇消失,我国暗中打捞拆解研究,39年后首相却上门讨要

2000吨英国潜艇消失,我国暗中打捞拆解研究,39年后首相却上门讨要

睡前讲故事

2026-03-30 13:48:58

人民日报：减少基层机关事业单位职工考核，响应中央的减负政策！

人民日报：减少基层机关事业单位职工考核，响应中央的减负政策！

细说职场

2026-04-09 14:14:38

致力于用最前沿的AI技术，换取更多发呆时间的三十岁青年。

1484文章数 16关注度

往期回顾全部

科技要闻

赵明：智驾之战，看谁在大模型上更高效

头条要闻

特朗普宣布黎以将停火后以军大规模空袭黎巴嫩

头条要闻

特朗普宣布黎以将停火后以军大规模空袭黎巴嫩

体育要闻

皇马拜仁踢出名局，但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世，享年63岁

财经要闻

海尔与医美女王互撕换血抗衰谁的生意？

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

旅游

时尚

数码

公开课

本地新闻

12吨巧克力有难，全网化身超级侦探添乱

旅游要闻

社评：读懂“China Travel”持续圈粉的逻辑

爆火的前额叶梗，让多少年轻人主动确诊「脑残」？

数码要闻

荣耀史上最短发布会，发布荣耀史上最强MagicBook数字系列

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版