网易首页 > 网易号 > 正文 申请入驻

收录140篇参考文献,Agentic AI在医学领域的挑战与机遇

0
分享至

近年来,大语言模型(LLMs)从被动的文本生成器迅速演化成具备规划、行动和协作能力的智能体。医疗是高风险场景,如何让模型为临床工作提供帮助而不造成伤害,需要全面梳理和审视。本综述系统分析了2022–2025年发表的 140 余篇医学智能体论文,提出统一的分类框架,探讨现有系统如何结合专业知识与外部工具,并总结跨领域的可迁移设计原则。


论文标题: Agentic Large-Language-Model Systems in Medicine: A Systematic Review and Taxonomy 论文链接: https://d197for5662m48.cloudfront.net/documents/publicationstatus/278360/preprint_pdf/95302cbe90fac3ed4a50efa6430771fc.pdf
一、AI智能体论文的快速增长

作者统计了近年来医疗智能体相关论文的数量,发现从 2022 年起该领域呈指数增长,到 2025 年AI智能体论文数量已超过纯 LLM/VLM 模型的研究。研究焦点由模型本体转向智能体系统设计与落地应用,这也凸显了开展这项综述的必要性。


LLM/VLMs 与智能体论文数量变化图 二、统一的智能体分类框架

文章提出一个新的从三个维度的分类体系,从应用场景、工具使用和自主程度三个维度对医疗智能体进行归类。通过专家审核的迭代编码过程,该框架有助于系统地比较不同智能体的结构和功能。下图展示了这一三个维度分类框架。


医疗LLM智能体的三维分类示意图。

主要功能分类

根据系统所承担的核心职能,医疗智能体可以分为以下几类:

  • 知识检索与问答:提供医学知识、回答临床问题或患者咨询,通常结合医学文献检索或知识库。

  • 临床决策支持:辅助诊断、生成鉴别诊断、推荐治疗方案,需要深入推理并由医师把关。

  • 文档生成与工作流:协助生成病历摘要、报告或完成任务分配,提高临床文书效率。

  • 患者互动与咨询:面向患者进行症状收集、健康宣教或心理疏导,强调对话的连贯性与共情。

  • 研究与发现:面向科研人员进行文献综述、假设生成或药物筛选等任务,加速知识发现。


自主程度分类

按照决策与执行的自主程度,现有医疗智能体可分为:

  • 完全自主:可以在预设目标下自行规划并完成多步任务,如自主查询数据库、调用工具并输出结论,但医疗场景中此类系统尚处于实验阶段。

  • 人类在环(半自主):在执行关键决策前由医护人员审核或确认,是目前最常见的模式;例如由模型生成处方草案后由医生签署。

  • 被动助手:仅在用户询问时输出答案,缺乏主动规划能力,类似传统聊天机器人。


工具与资源整合分类

根据外部资源整合程度,智能体可分为:

  • 知识整合型:通过检索外部知识库(例如医学文献、指南)增强回答的准确性,这种检索增强生成(RAG)方法在临床问答中非常常见。

  • 工具增强型:利用函数调用或 API 与医院信息系统、数据库、计算器等交互,例如自动查询患者检验结果或计算临床评分。

  • 多模态型:能处理图像、表格或音频等非文本信息,如读取放射影像并生成报告,是未来的重要方向。


代表性医疗智能体

综合三个维度分类后,综述列举了大量代表性智能体系统,涵盖诊断、报告生成、患者咨询及药物发现等应用,并按照功能、自治和工具三个维度进行归类。该汇总表有助于读者快速了解目前已有的系统生态及各自的技术特点。


关键应用领域概览

作者按照智能体在临床实践中的实际用途,总结了五大应用领域,每个领域都包含具体任务和研究案例:

  • 医学影像与放射学:包括生成或汇总放射报告、辅助影像诊断等。例如 GPT‑4 在阅读胸片后生成印象摘要可达到放射科住院医师水平,但仍需医生审核。

  • 临床决策支持:助力医生进行鉴别诊断、治疗方案建议、疾病分型等;部分研究通过检索患者电子病历和知识库提出可行的工作流程,但当前系统多为半自动,仍依赖人类决策。

  • 文档自动化与工作流管理:利用大模型自动撰写病历、生成出院总结或转录医患对话,减轻医生的文书负担。像“EHR 导航助手”可以根据语音命令查询检验结果并填充表单。

  • 患者互动与康复管理:面向患者的聊天机器人承担常见问题解答、健康宣教、症状监测等,如心理健康支持和慢病管理助手;这些系统特别强调交互性和共情能力。

  • 医学研究与药物发现:通过分析文献、提出假设和设计虚拟实验加速科研,如多智能体合作筛选候选药物分子,或综述数百篇文献以提炼领域新趋势。

综述指出,各应用领域的成熟度不一:文档自动化和知识问答已具备实际部署潜力,而全自动决策和多模态诊断尚处探索阶段。

三、通用智能体架构

在梳理现有工作时,作者总结出一种通用的医疗LLM智能体架构:以LLM作为核心认知模块负责任务规划和推理,外接模块用于调用临床数据库、电子病历(EHR)API、医学图像分析工具等,并通过人类在环机制实现及时纠偏,从而减轻幻觉和偏见带来的风险。


通用医疗智能体架构示意图。

核心技术比较

围绕上述架构,研究者提出了多种实现医疗智能体的关键技术。综述对比了下列几类方法的优缺点、典型应用和代表系统:

  • 提示工程与链式思维(CoT):通过巧妙设计提示或引导模型分步推理,无需额外训练即可激发模型的逻辑能力,适合问答与摘要任务;但对提示敏感,缺乏外部知识支撑。

  • 检索增强生成(RAG):结合向量检索或知识库,将相关文档拼接至上下文中再生成回答,可显著缓解幻觉问题,适用于临床问答和文献综述;局限在检索质量和知识库范围。

  • 记忆机制:引入短期和长期记忆模块,将历史对话或患者信息存储并动态调取,提升个性化和连贯性,但需设计合适的检索和总结策略。

  • 工具整合与函数调用:通过 API 调用临床数据库、计算器或设备,实现行动能力,如自动生成处方、调用医学图像分析;增加系统复杂度并需保证接口安全。

  • 多智能体协作:将复杂任务分解给多个专科代理,由主代理协调合作,可提升诊断和决策的可靠性,但需要设计通信和记忆共享机制。


多智能体协作

为应对复杂的临床工作流程,部分系统采用多智能体合作模式。不同智能体承担规划、信息检索、结果验证等职责,类似现实中的多学科医疗团队。文章以 RareAgents 为例,框架通过“主治医师”与专科智能体协同诊断罕见疾病,并通过共享长期记忆和专业工具取得了优于 GPT‑4o 的性能。


多智能体工作流示意图,多个子智能体协作生成医学影像报告。

记忆机制与人类在环

LLM 的上下文窗口有限,无法直接处理长期的患者互动。综述讨论了外部记忆的几种实现,例如将对话摘要嵌入向量数据库,或利用分层记忆模块,使智能体能在新会话中检索关键历史信息。以 MaLP 框架为例,短期记忆捕获最近对话,长期记忆保存患者关键事件,从而提供个性化、连贯的建议。


智能体记忆集成示意图,展示短期和长期记忆帮助LLM保持对话上下文。 四、跨领域启示

综述不仅聚焦医疗领域内部的进展,还从教育技术、机器人学和科学发现等相关领域吸取经验,提出对医疗智能体有启发意义的策略:

  • 教育科技的角色扮演与课程规划:面向学生的教学代理已经探索了分角色对话和渐进式课程设计,医疗智能体可以借鉴这些策略,通过模拟医生与患者的对话或制定循序渐进的诊疗计划来提升可用性。

  • 机器人学的层次规划与执行:机器人智能体通常将高层任务规划与低层动作执行分开,例如 PaLM-SayCan 将自然语言指令拆解为可执行的操作序列。类似地,医疗智能体可采用分层决策结构,通过工具调用执行安全受控的操作。

  • 科学发现领域的自动实验循环:化学和材料科学中已出现自动实验代理,它们能提出假设、设计实验并分析结果。医疗研究亦可采用类似框架,例如系统地设计临床试验方案或自动分析药物组合。

这些跨学科经验提醒我们,医疗智能体的发展不应固步自封,而要主动借鉴其他领域成熟的模式与方法,尤其是在任务分解、反馈循环和安全控制方面。

五、挑战与前景

综述全面梳理了医疗智能体的发展瓶颈与机遇,主要挑战可概括为以下方面:

  • 能力广度与深度的权衡:大模型擅长广泛主题的浅层知识,但在特定病种或专业任务上往往不如专门模型,需要结合专业模块或多智能体架构进行补强。

  • 数据质量与缺失模态:现实世界的电子病历往往不完整、不规范,模型必须学会在缺失信息情况下请求补充或表达不确定性,而不能自作主张生成错误建议。

  • 评估方法与真实世界差距:考试题或合成数据不能代表临床复杂度,需要通过模拟场景或前瞻性试验评估智能体对医生效率和患者结果的影响。

  • 事实可靠性与安全:幻觉和不准确回答依然是顽疾,检索增强、源码引用和不确定性表达等手段可以缓解,但绝对安全仍未达到。

  • 公平性与偏见:训练数据的社会偏见可能导致智能体对不同人群产生不公平建议,因此需在评测中纳入多元患者背景并引入偏差纠正机制。

  • 隐私与数据保护:处理患者信息必须符合隐私法规,应采用本地部署、差分隐私和访问控制等技术避免泄露。

  • 监管与伦理责任:缺乏明确的责任分配框架,目前大多数系统要求医师对智能体建议负责,因此需要可解释性和合规性设计以支持医生做出决策。

  • 系统集成与实施:将智能体嵌入医院信息系统涉及技术和人机交互挑战,需要与临床团队协作开发并逐步推广。

  • 未来演进:随着模型规模和算法进步,一些问题可能缓解,但医疗智能体的可信部署仍有赖于跨学科合作、严格验证和法规引导。

尽管挑战重重,作者认为医疗智能体在文档自动化、知识检索等领域已具备近期应用价值,而完全自主的决策与多模态诊断则是更长远的目标。未来发展应兼顾技术创新和安全规范,让智能体在协助而非替代医生的前提下最大限度发挥作用。

llustration From IconScout By IconScout Store

-The End-

本周上新!


扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_)投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
川普认为伊朗和美国之间的帐该算算了;美以将在72小时内打击伊朗

川普认为伊朗和美国之间的帐该算算了;美以将在72小时内打击伊朗

跟着老李看世界
2026-01-07 00:00:24
凌晨1点,老黄又扔“核弹”!英伟达 Vera Rubin 芯片问世,算力暴涨5倍,我看傻了...

凌晨1点,老黄又扔“核弹”!英伟达 Vera Rubin 芯片问世,算力暴涨5倍,我看傻了...

AI范儿
2026-01-06 07:59:53
开局即冲刺!关注这座“双万城市”的升级战

开局即冲刺!关注这座“双万城市”的升级战

智谷趋势
2026-01-06 21:19:45
武汉大学女教授献血300次事件,违背常识是最大的恶

武汉大学女教授献血300次事件,违背常识是最大的恶

清书先生
2026-01-07 16:26:41
日本U23 5-0叙利亚U23,佐藤龙之介独造四球,进球、助攻双双梅开二度

日本U23 5-0叙利亚U23,佐藤龙之介独造四球,进球、助攻双双梅开二度

懂球帝
2026-01-07 21:35:16
宜家中国官宣关闭7家商场:2月2日起停止运营上海宝山、广州番禺等7家商场

宜家中国官宣关闭7家商场:2月2日起停止运营上海宝山、广州番禺等7家商场

环球网资讯
2026-01-07 12:33:15
美军如何进行电子压制,让委内瑞拉部署的中俄防空系统失效?

美军如何进行电子压制,让委内瑞拉部署的中俄防空系统失效?

兵国大事
2026-01-05 18:02:20
科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

科学家让一对情侣在核磁共振里实战,才发现人体惊人真相!

徐德文科学频道
2026-01-06 19:51:55
女子新房装玫红色入户门贴花壁纸,网友直呼“全网独一无二”,当事人:装修花费近100万元,老公每次来都像游客一样

女子新房装玫红色入户门贴花壁纸,网友直呼“全网独一无二”,当事人:装修花费近100万元,老公每次来都像游客一样

极目新闻
2026-01-07 13:36:53
委内瑞拉股市,暴涨超50%

委内瑞拉股市,暴涨超50%

都市快报橙柿互动
2026-01-07 17:23:15
泽连斯基引发的链式反应:俄罗斯的盟友接连倒下

泽连斯基引发的链式反应:俄罗斯的盟友接连倒下

高博新视野
2026-01-07 18:42:18
“严重伤害米粉们的感情”,小米深夜公布处罚结果:辞退涉事负责经办人员⋯⋯

“严重伤害米粉们的感情”,小米深夜公布处罚结果:辞退涉事负责经办人员⋯⋯

每日经济新闻
2026-01-06 23:39:06
事态升级!闫学晶嚣张不认错,再现丑恶嘴脸,离谱发言谁也救不了

事态升级!闫学晶嚣张不认错,再现丑恶嘴脸,离谱发言谁也救不了

李健政观察
2026-01-06 19:13:28
关灯吃面?2.4亿资金涨停追进惨遭“炸板”:一天亏损12%……

关灯吃面?2.4亿资金涨停追进惨遭“炸板”:一天亏损12%……

问理财
2026-01-07 16:58:06
日本芯片材料制造商宁背债务不涨售价,总裁:涨价是对客户的背叛

日本芯片材料制造商宁背债务不涨售价,总裁:涨价是对客户的背叛

风向观察
2026-01-07 13:37:16
委内瑞拉赢麻了

委内瑞拉赢麻了

沉思的野兽
2026-01-06 13:33:37
绑架马杜罗的“原班人马”,全部飞抵欧洲,美军第二战已确定目标

绑架马杜罗的“原班人马”,全部飞抵欧洲,美军第二战已确定目标

依偎在角落
2026-01-07 10:30:44
胡明轩3分!随着广东险胜深圳,上海大胜青岛,CBA最新积分榜出炉

胡明轩3分!随着广东险胜深圳,上海大胜青岛,CBA最新积分榜出炉

侃球熊弟
2026-01-07 20:27:53
瓦良格号送到中国后有多震撼?专家刮掉表面的锈迹:钢材品质极佳

瓦良格号送到中国后有多震撼?专家刮掉表面的锈迹:钢材品质极佳

古书记史
2026-01-06 16:31:56
涨疯了!一盒100根,价值400万元,堪比上海一套房,龙头股狂飙

涨疯了!一盒100根,价值400万元,堪比上海一套房,龙头股狂飙

每日经济新闻
2026-01-07 13:59:07
2026-01-07 22:15:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2299文章数 596关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

委向美移交5000万桶原油有部分原本销往中国 中方回应

头条要闻

委向美移交5000万桶原油有部分原本销往中国 中方回应

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

旅游
艺术
时尚
房产
家居

旅游要闻

香聚浦寨 共启新程

艺术要闻

David Grossmann:不一样的风景画

衣服完全没有必要越买越多!准备好这3款单品,百搭又舒适

房产要闻

最新!海口二手房,涨价房源突然猛增30%

家居要闻

宁静不单调 恰到好处的美

无障碍浏览 进入关怀版