网易首页 > 网易号 > 正文 申请入驻

当大模型遇见医学推理:香港理工大学等发布AI医学推理综述

0
分享至



作者 | 论文团队

编辑 | ScienceAI

在临床工作中,医生每天都要面对复杂的推理过程:从病人主诉、化验数据、影像学检查,到诊断、治疗方案和随访决策。

但这些过程不仅繁琐,还充满不确定性。能否让人工智能来帮忙?

近年来,大型语言模型(LLMs)在医疗健康领域展现出前所未有的潜力。它们能读懂病历、生成诊断意见,甚至和患者对话。但要真正成为临床的「智慧助手」,LLMs 需要的不仅是语言能力,更是医学推理能力。

最近,一项由香港理工大学的研究者主导完成的综述 ——《Aligning Clinical Needs and AI Capabilities: A Survey on LLMs for Medical Reasoning》,首次系统梳理了医学推理的全景图:需求、方法、数据、挑战与未来方向。



论文链接:https://www.techrxiv.org/users/966100/articles/1334596-aligning-clinical-needs-and-ai-capabilities-a-survey-on-llms-for-medical-reasoning

Github链接(整理的现有的工作,更新中,欢迎补充):https://github.com/pqpq17/Awesome-LLM-Reasoning-on-Medicine

五级医学推理能力框架



该综述基于 Miller’s Pyramid(米勒金字塔),提出了五级医学推理能力分层体系:

  • Level 1:医学知识识别与标准化(Knows)
  • Level 2:信息分类与初步分诊(Knows How)
  • Level 3:因果推理与综合诊断(Shows How)
  • Level 4:临床决策支持与个性化推荐(Shows How / Does)
  • Level 5:动态交互与复杂场景管理(Does)

这个框架清晰描绘了 LLM 从「会认知识」到「能当助手」的进阶路径,对现有benchmark/dataset的做出了清晰的划分。

此外,基于这个五级分类体系以及Reasoning类型的讨论,该综述明确指出一个双视角(即computational & clinical)的对齐框架。

首个标准化五级基准数据集



该综述构建了一个包含 5,000 条标注样本的基准数据集,覆盖五个层次的能力要求,并首次系统评测了 18 个代表性模型。

结果显示:

  • 专科模型 → 在诊断类任务上更突出
  • 通用大模型 → 在决策支持、对话和总结上表现更佳

这为未来的模型选择和任务分工提供了实证依据。

前沿方法全景回顾



该综述全面回顾了医学 LLM 中的主流推理范式:

  • 链式推理(CoT):逐步解释,思路清晰
  • 长链推理(Long-CoT):更深入的逐步分析,包含自我修正
  • 检索增强推理(RAG):结合医学文献和知识库
  • 多模态推理:同时理解病历、影像和文本
  • 智能体推理(Agentic Reasoning):主动规划、调用外部工具、动态决策

同时,也直面四大挑战:

  • 高质量医学数据不足
  • 「幻觉」问题仍然存在
  • 缺乏证据溯源与临床可解释性
  • 模型结果不确定性难以控制

社会意义

这项工作不仅仅是综述,更是一种「对齐」的尝试:

  • 对齐临床需求:明确医生真正需要的推理能力
  • 对齐 AI 能力:梳理当前模型能做什么、还欠缺什么
  • 对齐未来方向:为科研、产业和医疗实践提供参考

研究团队希望这项工作能推动医学大模型真正落地临床,从「实验室里的聪明模型」变成「病房里的可靠助手」。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海,八旬独居老人独居无靠,居委会联系送养儿子,儿子:凭什么

上海,八旬独居老人独居无靠,居委会联系送养儿子,儿子:凭什么

街声巷闻
2025-11-17 14:36:54
惊天大瓜!原来川普和希拉里不止是政敌,同时还是情敌。

惊天大瓜!原来川普和希拉里不止是政敌,同时还是情敌。

电动猫
2025-11-18 00:18:26
聚焦“十五五”规划建议|保持制造业合理比重

聚焦“十五五”规划建议|保持制造业合理比重

新华社
2025-11-17 15:54:02
王欣瑜耗时2小时47分钟2-1艰难战胜王曦雨,晋级全运会四强

王欣瑜耗时2小时47分钟2-1艰难战胜王曦雨,晋级全运会四强

懂球帝
2025-11-18 17:17:31
张家界荒野求生赛宣布14名选手全部进入决赛:气温骤降,不再按原计划淘汰4人

张家界荒野求生赛宣布14名选手全部进入决赛:气温骤降,不再按原计划淘汰4人

极目新闻
2025-11-18 15:19:03
捷克“炮弹计划”或终止!斯洛伐克法院关键裁决,援乌战斗机合法

捷克“炮弹计划”或终止!斯洛伐克法院关键裁决,援乌战斗机合法

鹰眼Defence
2025-11-18 17:53:12
捅完琉球窝!中国再掀北海道老底,日本80年前埋的雷,炸了

捅完琉球窝!中国再掀北海道老底,日本80年前埋的雷,炸了

南宫一二
2025-11-17 07:17:39
全运乒乓男团四强巅峰对决:马龙樊振东领衔,四大豪门谁主沉浮?

全运乒乓男团四强巅峰对决:马龙樊振东领衔,四大豪门谁主沉浮?

带你逛体坛
2025-11-18 18:34:10
罗伯逊:距离世界杯只差90分钟,我相信我们能战胜丹麦

罗伯逊:距离世界杯只差90分钟,我相信我们能战胜丹麦

懂球帝
2025-11-18 14:25:08
日韩股市,开盘暴跌!

日韩股市,开盘暴跌!

证券时报
2025-11-18 09:47:04
湖人最不需要担心的人!里夫斯:GOAT詹皇回归将有4打3优势

湖人最不需要担心的人!里夫斯:GOAT詹皇回归将有4打3优势

体育妞世界
2025-11-18 14:08:30
乡镇编制膨胀:从12人到100人,时代变了乡镇变了,初心还在吗?

乡镇编制膨胀:从12人到100人,时代变了乡镇变了,初心还在吗?

君好伴读
2025-10-27 10:33:08
付某梅(女),已被大连警方抓获归案!

付某梅(女),已被大连警方抓获归案!

半岛晨报
2025-11-18 12:40:05
因文件问题无法靠港,3000头奶牛被困土耳其海上58天,船只恶臭弥漫、尸体堆积

因文件问题无法靠港,3000头奶牛被困土耳其海上58天,船只恶臭弥漫、尸体堆积

起喜电影
2025-11-18 15:29:35
赢麻了!现在全网最想哭的人估计是冷美人,30多天拿到30000多元

赢麻了!现在全网最想哭的人估计是冷美人,30多天拿到30000多元

火山诗话
2025-11-18 18:36:08
华为Mate 80系列备货比例曝光 标准版和Pro Max成主力

华为Mate 80系列备货比例曝光 标准版和Pro Max成主力

手机中国
2025-11-18 16:50:44
钟丽缇168cm的大块头,一般男人征服不了她吧?

钟丽缇168cm的大块头,一般男人征服不了她吧?

小椰的奶奶
2025-11-18 13:14:26
毛主席视察天津时想见李银桥,得知他已经入狱,伟人只说了2个字

毛主席视察天津时想见李银桥,得知他已经入狱,伟人只说了2个字

南书房
2025-09-28 23:01:03
日本天下第一香木,传为隋炀帝所赐,仅有三位人物切下小块使用

日本天下第一香木,传为隋炀帝所赐,仅有三位人物切下小块使用

收藏大视界
2025-11-09 20:38:12
只待2天!全红婵火速从北京飞回广州,去医院看望梁小静,姐妹情深

只待2天!全红婵火速从北京飞回广州,去医院看望梁小静,姐妹情深

乡野小珥
2025-11-18 07:31:38
2025-11-18 19:39:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1155文章数 218关注度
往期回顾 全部

科技要闻

小米:汽车及AI等业务首次单季度经营盈利

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

搭载1.5T增程动力 吉利银河V900官图发布

态度原创

旅游
艺术
教育
亲子
军事航空

旅游要闻

新疆新源县:萨哈景区初雪至 冰雪秘境引客来

艺术要闻

优雅浪漫的绘画,美到让人想直接住进去!

教育要闻

论区老师“拗柴”与中考体育满分之间的逻辑必然性

亲子要闻

孩子咳嗽怎么办?应该如何缓解?

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版