网易首页 > 网易号 > 正文 申请入驻

通用大模型“看病”漏诊率超80%,这就是阿福能火的原因

0
分享至

来源:市场资讯

(来源:医健人物)


近日,哈佛医学院一份研究震惊了AI圈:研究团队对21个主流大语言模型进行了临床推理能力的系统性测试。在信息相对不完整情况下,模型诊断病例的失败率超过80%,即使是最先进的GPT-5和Grok 4也未能幸免。

“鉴别诊断是临床推理的核心,也是人工智能目前无法复制的‘医学艺术’的基石。”研究通讯作者Marc Succi博士直言。这21款被测试的模型均为通用型大语言模型,其设计初衷并非专攻医疗场景。

如今,越来越多用户已经习惯用AI来咨询健康问题。在国内医疗健康领域,主要呈现出两种路线:一类是以豆包、元宝、Deepseek为代表的通用AI;一类是以蚂蚁阿福为代表的专业垂直AI。

哈佛医学院这项研究恰好印证了两个结论。第一,真人医生不可替代,尤其是在临床推理这个基石环节。第二,通用AI在社交、娱乐、日常生活中可以成为好帮手,但在医疗健康这类严肃领域,“万金油”式的通用模型很难玩转,医疗赛道最终还是得看专业AI。

21款通用大模型折戟“鉴别诊断”

让我们先来看清楚这份研究到底测了什么。

传统上,评估一款AI的方式相对粗放——给模型一个完整病例,看它能不能答对最终诊断。但真实的临床场景不是这样运作的。医生面对的患者,最初往往只有模糊的症状描述:发热、腹痛、乏力。医生必须在信息高度不完整的情况下,依靠经验与推理,列出可能的“鉴别诊断”清单,再逐项排查。这一步错了,后面的检查方向、治疗方案可能全盘皆错。

为了模拟这一真实流程,研究人员采用了29个已发表的标准化临床病例,逐步向21款LLM输入信息——先给出患者年龄、性别和症状,再补充体格检查结果,最后提供实验室和影像学数据。结果显示,所有通用模型在鉴别诊断环节的失败率均超过80%。


大语言模型(PrIME-LLM)医学评价比例指数,以及临床试验临床微贴画的PRIME-LLM评分与总体准确性对比

为什么通用大模型在鉴别诊断上集体“翻车”?

核心原因在于训练数据与推理逻辑的结构性差异。

通用大模型的训练语料主要来自互联网公开文本——维基百科、新闻、论坛、书籍。这些信息广度惊人,但在专科深度上先天不足。尤其是面对医疗健康这类专业问题时,通用模型本质上是在“复述”它所读过的医学内容,而非在真实的临床路径约束下进行专业推理。

微博认证为急诊医生、美国心脏协会急救培训导师的“急诊夜鹰”对此有一个形象的总结:通用AI处理的是“字面信息”,而人类医生处理的是“语境信息”与“感知信息”。当患者说胸口痛,人类医生会通过眼神、语气、肢体语言来判断这是“濒死感”还是“一闪而过的刺痛”。而通用大模型可能会将“胸痛”机械关联到心绞痛、胃食管反流甚至焦虑症。这种动态交互式推理能力,是通用AI无法实现的。

严肃领域还得看专业AI

通用AI诊断错误率高,那是不是说明AI在医疗领域就不能用?当然不是。

一位医疗行业专家分析认为,未来AI的发展方向是往专业、细分领域走。Deepseek、豆包这类通用大模型,相当于一个基础设施,在社交娱乐旅行等领域提供服务,但在专业严肃领域,一定还是要依靠不断迭代推理模式、更细分的专业AI,准确性和专业性更强。

专业AI的专业性,来自几个层面。第一,医疗专科语料的深度积累。以蚂蚁阿福为例,其底层模型采用医学文献、权威医学教科书、临床指南以及经过脱敏处理的公开医疗数据集,覆盖了基础医学、临床医学、药学、公共卫生等多个专业领域,确保回答的专业和准确性。其PC端上线DeepSearch功能时,已收录3600万篇高质量医学数据,不仅涵盖国际权威资源,还纳入中华医学会等本土最新指南共识。

第二层壁垒更为关键——场景闭环的天然优势。蚂蚁阿福不是孤立的AI问答工具,而是覆盖了健康问答、在线问诊(链接30万真人医生)、医保码等功能,用户授权后还可打通智能健康设备数据、建立个人健康档案,形成医院服务、医保风控、用户管理的完整闭环。这意味着,蚂蚁阿福的AI推理不仅基于文本,还基于真实的就医记录、体检指标、用药历史,这些构成了通用大模型无法触及的“决策上下文”。

第三层壁垒是医疗场景的深度耦合。蚂蚁阿福不仅面向C端用户提供健康咨询服务,更深入到医疗供给侧。超过1000位医生已在阿福App上开设“AI分身”,在线回答用户健康咨询,覆盖皮肤、慢性病等20多个专科。这种“AI+医生”的协同模式,既发挥了AI在信息处理上的效率优势,又叠加了人类医生在细分专科上的复杂推理和决策能力。

“急诊夜鹰”指出,蚂蚁阿福这类深耕垂直领域的专业AI,正试图从设计逻辑上弥补通用AI“鉴别诊断乏力”的短板。

一方面,它在交互中逼近“主动追问”的医生思维,像实习医生采集病史一样,根据症状描述进行多维度追问。比如用户说头痛,它会追问部位、性质、持续时间及伴随症状。这种结构化的引导式问诊,虽然无法体检视触叩听,但一定程度上改善了通用大模型仅凭“字面意思”推理的缺陷。其次,打通主流智能穿戴设备后,意味着它掌握的不仅是当下的主诉,还有连续的血压趋势、血糖波动、既往病史等,推理的基石自然更稳固。

当然,这里有必要厘清一个关键边界。健康AI为用户提供健康科普、就诊咨询、报告解读等服务,而非替代医生做出医疗诊断。这一定位既符合医疗监管合规要求,也契合JAMA研究得出的结论——当前AI最合适的角色是辅助而非替代。在数据完整度不高的场景中,AI提供的是“导航”而非“决策”;当涉及真正需要鉴别诊断和临床推理的任务时,最终的判断权仍然归属于人类医生。

回到最初的设问:医疗赛道为何终究容不下“万金油”?

答案不在于通用AI的能力不够强,而在于医疗这个行业的底层逻辑天然排斥“万能解法”。在医疗领域,一个错误的推理可能比没有推理更危险,一个忽视细节的判断可能比没有判断更致命。

因此,在医疗健康这个严肃领域,专业AI才更可靠的答案,它的护城河,由高质量的医学语料、深度耦合的场景闭环以及医生与AI之间的信任关系共同筑成。

这或许是现阶段医疗健康AI赛道最值得关注的产业叙事。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗披露击落美C-130细节:情报部门周密部署 军民协同作战

伊朗披露击落美C-130细节:情报部门周密部署 军民协同作战

财联社
2026-04-16 22:08:06
喜讯!北约宣布向乌提供600亿美元援助,乌军2026年军费达1700亿

喜讯!北约宣布向乌提供600亿美元援助,乌军2026年军费达1700亿

史政先锋
2026-04-16 16:09:37
普京敲定访华,特朗普紧急下命令,中国通告全球,无惧美国威胁

普京敲定访华,特朗普紧急下命令,中国通告全球,无惧美国威胁

书纪文谭
2026-04-16 18:08:02
恭喜!官方确认东契奇坎宁安申诉成功获评奖资格 华子申诉被驳回

恭喜!官方确认东契奇坎宁安申诉成功获评奖资格 华子申诉被驳回

醉卧浮生
2026-04-17 00:00:52
当执法者将国家法律摔在地上,请先别讨论摩托能否上高速和张雪了

当执法者将国家法律摔在地上,请先别讨论摩托能否上高速和张雪了

阿陆
2026-04-16 14:52:08
广交会封神!张雪机车820被老外围堵,当场要签单带回巴西

广交会封神!张雪机车820被老外围堵,当场要签单带回巴西

趣味萌宠的日常
2026-04-16 09:54:37
女子利用天气预报频繁购买飞机延误险,5年买中900多次,获赔近300万,被抓时:我符合保险理赔要求

女子利用天气预报频繁购买飞机延误险,5年买中900多次,获赔近300万,被抓时:我符合保险理赔要求

谭老师地理大课堂
2026-04-15 20:11:42
“牛散”操作曝光,葛卫东、章建平等最新持仓来了

“牛散”操作曝光,葛卫东、章建平等最新持仓来了

新浪财经
2026-04-16 16:04:22
一个30吨钢卷,滚出了2026最“重量级”的地狱笑话

一个30吨钢卷,滚出了2026最“重量级”的地狱笑话

果壳
2026-04-16 12:17:28
只喝烧开的自来水,不碰桶装水,不买矿泉水,最后结果如何?

只喝烧开的自来水,不碰桶装水,不买矿泉水,最后结果如何?

芹姐说生活
2026-04-16 19:35:17
海关总署企业管理和稽查司原司长王胜被查

海关总署企业管理和稽查司原司长王胜被查

新京报
2026-04-16 17:00:11
任正非小女儿代言华为炸场!网友:代言人都自研,你们拿什么和我争...

任正非小女儿代言华为炸场!网友:代言人都自研,你们拿什么和我争...

品牌新
2026-04-16 12:10:00
“灵隐寺僧人是日本人、间谍”?抖音通报

“灵隐寺僧人是日本人、间谍”?抖音通报

观察者网
2026-04-16 17:58:07
广西靖西一地多名男子持手电筒拦车,当地镇政府:他们想当路霸,警方已到场处理

广西靖西一地多名男子持手电筒拦车,当地镇政府:他们想当路霸,警方已到场处理

潇湘晨报
2026-04-16 15:55:11
男子因噪音过敏住5年隔音舱:自己设计,已接上百个订单,帮噪音受困者找回睡眠

男子因噪音过敏住5年隔音舱:自己设计,已接上百个订单,帮噪音受困者找回睡眠

半岛官网
2026-04-16 11:20:50
投诉公交提前发车,竟丢了工作?松原男子称个人信息遭泄露,单位被施压后将其解雇

投诉公交提前发车,竟丢了工作?松原男子称个人信息遭泄露,单位被施压后将其解雇

大风新闻
2026-04-16 16:07:03
两名外籍乘客在网约车上对着部队大门连续拍照,接下来又要去训练场方向,司机觉得可疑,直接开车把他们交给了部队

两名外籍乘客在网约车上对着部队大门连续拍照,接下来又要去训练场方向,司机觉得可疑,直接开车把他们交给了部队

极目新闻
2026-04-16 08:59:25
特朗普宣布,100%关税封杀中国汽车,话音刚落,中国减持77亿美债

特朗普宣布,100%关税封杀中国汽车,话音刚落,中国减持77亿美债

史料布籍
2026-04-16 16:54:52
女教师群聊“八卦”被拘,起诉公安局再被驳回

女教师群聊“八卦”被拘,起诉公安局再被驳回

中国新闻周刊
2026-04-16 09:02:37
男子办婚礼未领证,后发现女方疑与他人暧昧,起诉退彩礼购房款才知她有婚史,法院调解退39万元,当事人:将追责女方骗婚

男子办婚礼未领证,后发现女方疑与他人暧昧,起诉退彩礼购房款才知她有婚史,法院调解退39万元,当事人:将追责女方骗婚

极目新闻
2026-04-16 21:58:30
2026-04-17 00:52:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2894097文章数 6664关注度
往期回顾 全部

科技要闻

赵明:智驾之战,看谁在大模型上更高效

头条要闻

东北男子投诉公交提前发车丢工作 单位被施压将其解雇

头条要闻

东北男子投诉公交提前发车丢工作 单位被施压将其解雇

体育要闻

皇马拜仁踢出名局,但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

海尔与医美女王互撕 换血抗衰谁的生意?

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

游戏
教育
亲子
本地
公开课

《荒野大镖客3》最全新情报!前传还是新故事?

教育要闻

985学院官宣!学硕,停招

亲子要闻

孩子被伤害,不要去责备妈妈!

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版