从实验室Demo到国民级健康伙伴：医疗Agent离“进指南”还有多远？| GAIR Live 024|医生|科学|医学|医疗服务

分享至

拆解医学专用大模型如何跨越从“信息检索”到“严肃医疗”服务的鸿沟，打造“以患者为中心”的AI医疗生态。

作者丨岑峰

随着大语言模型从生成式对话向专业垂直领域的深度渗透，医疗健康正成为 AGI 落地最具价值也最受关注的“深水区”。过去，大众在面临健康困惑时，习惯于在搜索引擎的碎片化信息中自行“拼图”，往往陷入信息矛盾与焦虑。而今天，以蚂蚁集团“阿福”为代表的医学大模型，正凭借其强大的知识整合能力与多模态交互体验，迅速从实验室的 Demo 演变为拥有千万级日活、覆盖全年龄段的“国民级健康伙伴”。

然而，当 AI 开始介入严肃医疗与日常健康管理，一系列深层命题也随之而来：垂类模型如何在通用模型之上构建不可替代的专业壁垒？如何平衡医学的科学严谨性与人文关怀的温情？在面临“AI 迎合性”导致的伦理风险时，我们该如何划定安全红线？

为此，本期 GAIR Live 举办了题为“AI for Health：从‘实验室 Demo’到‘国民级健康伙伴’的范式跃迁”的线上圆桌。论坛由南佛罗里达大学教授、美国医学与生物工程学会会士许东发起并主持，特邀蚂蚁集团技术研究院副院长、医疗健康实验室主任吕乐，蚂蚁健康 CTO、医疗大模型“阿福”之父顾进杰，以及西弗吉尼亚大学助理教授胡钢清。四位深耕 AI 与生物医学交叉领域的专家，从研发底座、产品实践、临床观察到伦理治理，展开了一场超过两小时的硬核对谈。

圆桌内容呈现了医疗 AI 发展的四大核心维度：

第一，在产品范式上，顾进杰详细拆解了“蚂蚁阿福”如何通过健康档案管理、健康小目标陪伴以及多模态问诊三大功能，构建起“AI 医生朋友”的定位。他指出，医疗大模型不仅是信息的输出者，更是长程健康的记忆者与管理者。许东教授则分享了中医大模型“本草”的开发经验，论证了在垂直细分领域，小团队亦能通过专家反馈闭环和对齐技术，做出专业深度超越通用模型的产品。

第二，在技术壁垒上，嘉宾们达成共识：医学大模型绝非通用模型的简单微调。顾进杰总结了能力增强、医学对齐与能力边界（拒答能力）三大关键差异。吕乐则从严肃医疗视角指出，AI 的终极价值在于“生产优质医疗生产力”，尤其是在肿瘤多学科会诊（MDT）这类复杂决策中，AI 能够处理人类大脑难以实时融合的多模态非结构化数据。

第三，在安全与伦理上，胡钢清警示了大模型的“迎合性”带来的潜在风险，如“AI Psychosis”, 即与 AI 互动可能诱发或加重心理健康问题。为此，专家们探讨了“人机协作（Human in the loop）”的重要性，强调在识别到极端情绪或高风险信号时，必须引入真人专家干预，作为医疗 AI 的安全底座。

第四，在未来基建上，吕乐提出“AI 好不好的标准是进指南”，强调医疗创新应像春雨般“润物无声”。专家们预判，未来医疗将进入 Agent 爆发期，预问诊、随访、早筛等环节将实现全链路重塑。而这一切的护城河，并不在算法架构本身，而在冰山之下的高质量评测集（Benchmark）与数据治理（Data Curation）。

从实验室走向真实世界，AI for Health 的跃迁不仅是算力的竞赛，更是对生命健康的深度敬畏与人文重构。

以下是此次圆桌讨论的精彩分享，AI 科技评论进行了不改原意的编辑整理：

从“实验室Demo”到“国民级应用”的进化

许东：各位观众、老师、同学，大家好。欢迎参加本期GAIR Live论坛。我是今天的主持人许东。

我们今天讨论的主题是“大语言模型作为健康伙伴的范式跃迁”。过去几年，人工智能在科研辅助、内容创作、工业生产和日常办公等各方面带来了巨大红利，重塑了诸多行业。但对普通百姓来说，最实惠、最关心的莫过于AI如何帮助我们的健康。

以往身体不适时，大家通常习惯使用搜索引擎（如百度、谷歌）。这种方式虽然信息量大，但往往碎片化、片面甚至彼此矛盾，用户常处于“信息过载却不知如何使用”的困境。大语言模型的出现整合了海量内容，能进行系统的归纳与总结，比传统搜索更具价值和可靠性。

目前，医学专用大语言模型不断涌现。在这一领域，蚂蚁集团研发的“阿福”医学模型自上线以来，短时间内下载量已突破5000万，确实非常出色。国外也有类似探索，如ChatGPT推出的Health项目，但因监管较多，步伐相对慢一点，仍处于小范围测试阶段。

我们今天既想探讨专业的科研问题，比如医学大模型的边界、研发效率及风险控制；也想探讨普通百姓如何更好地使用这些工具。黄仁勋等大咖曾谈到，能否熟练使用大模型将对一个人的生活方式和职业发展产生巨大影响。医学是极其专业的领域，如何与医学模型有效交流、判断结果是否可靠，是一门专业的技术活。

首先介绍一下我自己。我目前在美国南佛罗里达大学医学院工作，本科和硕士毕业于北大，在伊利诺伊大学香槟分校（UIUC）获得博士学位。我曾在美国安全研究所、橡树岭国家实验室和密苏里大学工作，研究方向是AI在生物和医学的应用，是美国科学促进会（AAAS）和美国医学与生物工程学会（AIMBE）会士。

今天我们请到了几位重量级嘉宾，特别是两位“阿福”的核心开发人员：吕乐老师，蚂蚁集团技术研究院副院长、健康事业群医疗健康实验室主任。他是美国约翰霍普金斯大学计算机科学顾问委员会委员，曾任阿里巴巴达摩院医疗AI部门负责人、英伟达医疗AI部门创始人，是TPAMI等顶刊的编委，引用率高达4万余次。顾进杰老师，蚂蚁健康事业群CTO。他带领团队推动了医疗通用人工智能开发及“阿福”APP的创新。他曾负责支付宝等部门的核心AI应用落地，两次获得吴文俊人工智能科技进步一等奖。

今天的流程是先请嘉宾进行简单分享，再进行深度探讨，最后开放听众问答。首先请顾进杰老师介绍“阿福”的开发情况。

顾进杰：感谢许老师的介绍，很高兴欢迎线上的同学一起探讨AI for Health这个方向。我先简单介绍一下“阿福”这款产品，这是我们近期推出并重点运营的一款健康产品。

蚂蚁健康事业群在医疗领域深耕多年。从2016年起，我们推动了全国首家医院医保线上支付；2019年推出了全国第一张医保电子凭证；在ChatGPT出现后，我们推出了数字陪诊师解决方案。在线下就诊过程中，陪诊师角色非常重要，能告知诊室位置、排队情况、取药流程及用药指导。

2024年，支付宝医疗健康频道推出了AI健康管家，用AI重塑服务过程。2023年，我们联合浙江省卫健委推出全国首个数字健康人“安诊儿”，目前已服务浙江省内多家线下医院。2024年7月，我们推出了蚂蚁医疗大模型；2025年6月，独立APP正式发布。最初由于英文名AQ记忆门槛较高，我们将其升级为中文名“蚂蚁阿福”，将定位从“AI工具”转变为用户的“AI医生朋友”。

蚂蚁阿福的用户群体与一般的AGI产品挺不一样。通常AGI产品吸引年轻人尝鲜，但作为健康产品，阿福的用户年龄段覆盖非常均衡，60后、70后、80后占比极高，因为中老年群体确实有更迫切的健康需求。此外，由于三四线城市医疗服务的可及性相对较差，我们有55%的用户来自三线以下城市。目前，阿福每天回答的提问数已超过1000万，月环比增速达94%。

蚂蚁阿福核心有三大功能：陪伴、问答、服务。第一是记录与管理。阿福能持续记录用户的健康档案，支持病历拍照上传，并已接入包括苹果、华为、荣耀、vivo在内的9个智能设备大品牌，以及鱼跃等专业医疗设备。第二是健康陪伴。我们推出了“健康小目标”功能，帮助用户定义运动、饮食和作息计划。例如通过拍照识别饮食内容，利用AI帮助用户养成良好习惯。第三是健康问答。这是AGI的核心功能。阿福支持随时随地的对话，重点加强了多模态能力，用户可以拍皮肤患处、拍化验报告或药盒进行咨询。我们还推出了“AI诊室”，它能像医生一样通过多轮对话主动追问，与用户进行深度互动。

在服务侧，阿福链接了“好大夫”线上30万名三甲医院医生资源，支持在线问诊、买药，并提供线下云陪诊、预约挂号及诊后随访。同时，用户也可以在阿福上通过医保码查看账户、动账情况并进行支付。

针对技术领域的同学，我也分享一下我们团队在开源方面的两个重大工作：一是AQMedAI项目。这是我们持续运营的开源项目，主要关注四大块内容：第一，持续推动医疗能力的Benchmark（评测基准）建设。目前行业内优质的医疗评测基准依然匮乏，需要与医生专家协作来度量AI能力。第二，Medical Researcher（深度研究代理）。在医学领域，文献、指南和论文的检索与理解至关重要，Deep Research Agent是关键能力。第三，Diver项目。我们利用RAG（检索增强生成）技术做循证医学增强，帮助模型获得更专业的表现。此外，我们团队具备操控千亿级大模型进行后训练和强化学习的能力，也开源了一些多智能体训练框架。

二是蚂蚁安诊儿（AntAngel）项目。这是我们与浙江人工智能基地联合打造的开源医疗大模型。去年12月发布的第一个版本采用了MOE（混合专家）架构，基于蚂蚁百灵Flash 2.0模型训练，拥有1000亿参数，同时激活约60亿参数。该模型Token输出速度极快，且量化后能部署在较小的资源环境下。我们积累了万亿的专业医学语料，通过三阶段训练，使模型在医学专业能力上表现出色。在MedAIBench及上海Medbench等多个主流评测中，蚂蚁安诊儿模型均取得了高分，也是目前开源领域得分较高的模型之一。

许老师，我先介绍到这里。

许东：感谢顾老师的分享。接下来，我们请吕乐老师分享他的观察与实践。

吕乐：刚才进杰老师提到的“阿福”，目前的定位更侧重于AI全科医生或家庭医生。而我的工作主要是负责蚂蚁健康关于四大慢病（肿瘤、呼吸系统疾病、代谢病、心血管疾病）以及大脑慢病的AI研发。

严肃医疗的本质是为病人解决实际的病痛。目前，需要高强度干预（Intensive Care）以获得更好预后的严重病患群体非常庞大，仅在中国就有数千万人。然而，无论是中国还是美国，高端医疗资源始终是匮乏的。解决这个问题的核心，不在于互联网医疗如何重新分配现有资源，而在于如何通过人工智能，从源头上大规模地“生产”出优质的医疗生产力。

关于AI与医生的关系，最近有很多讨论。从严肃医疗的角度来看，我并不担心这种竞争。我认为AI在医疗中的角色，应该是去做那些“医生做不了”或“医生由于精力限制无法高频去做”的事情。虽然我们提倡“以病人为中心（Patient-centric Healthcare）”很多年，但只靠有限的医生和医院是很难彻底实现的。我们需要AI生产力来辅助医生，由医生决定如何使用，并最终让病人获益。在临床医学中，这有一套非常严谨的规章制度可以遵循，可以通过回顾性和前瞻性的研究，从统计学上证明病人是否真正受益。

具体到我们的核心工作，是解决癌症的多学科会诊（MDT）过程。严重的癌症病人通常每两三个月就需要评估是否调整治疗方案，以确保方案始终是最优的。这种高质量、高频次的干预需求，即便在美国也只有约5%能被满足，这意味着本应做20次MDT的病人，实际上只做了一次。全球范围内，澳大利亚在这一块做得最好，法律规定癌症病人必须接受多学科会诊，其癌症五年存活率也确实是全球领先的，这证明了MDT的巨大价值。

一个高质量的MDT需要融合极其复杂的信息：不仅包括病史、基因测序、血检报告，还包括至关重要的放射影像和病理信息。影像展现了肿瘤及器官的细微变化，是实现个性化治疗的关键，但它属于非结构化数据（Unstructured Data），难以定量计算。人类大脑在处理这种多模态信息并将其转化为精准的治疗行动（Action）时，往往会面临认知瓶颈。而这正是AI最擅长处理的领域。

这种需求是真实存在且长期未被满足的。我们正在研发的AI Agent，可以辅助多学科医生进行“预会诊”，先产生一份科学且可循证的报告。这份报告必须由医生签字核准后才能给病人使用。通过互联网经济的规模效应，这种先进生产力一旦被生产出来，给每个病人使用的边际成本会非常低，从而让每位大病患者都能享受到高质量的医疗服务。这是我们团队奋斗的目标，是一件难而正确的事。

此外，在AGI（通用人工智能）与ASI（超人工智能）的边界上，我们也与进杰老师的团队紧密合作。比如如何更深层地理解病史，如何与病人家属交流。家属在理解AI与医生推荐的方案时会有很多疑问，但主治医生往往非常忙碌，此时“阿福”的专病版本就可以充当高质量的管家，照顾好病人和他的家庭。

许东：感谢吕老师的精彩分享。接下来，我也分享一下我们课题组在医学大模型方面的工作。

我们开发了一个名为“本草”的中医大语言模型。分享这个项目的目的，是想说明医学大模型的开发也可以“普及化”——即一个小规模的团队也能做出专业级的医学模型。

“本草”目前可以在GPT Store中下载使用。该项目主要由我课题组的博士生席嘉诚牵头，并与国内多位中医专家、尤其是上海中医药大学的安光辉老师深度合作。我们利用OpenAI的GPT平台提供的开发环境，不需要从底层调整模型参数，而是通过提供海量专业素材进行调试。

我们收集了1000多本中医典籍，从《黄帝内经》到现代开源的中医教科书。虽然团队规模很小，但我们通过不断调试提示语（Prompt），并由资深中医师进行测试反馈，构建了这个系统。它的功能涵盖了健康咨询、舌象分析（多模态模型）、中医知识学习及中草药识别。

这个系统在一年前上线后得到了广泛关注，甚至主流科普杂志《科学美国人》（Scientific American）也对我们进行了采访。目前已有上千名活跃用户，评价接近满分。这说明无论是美国还是国内，大家对“中医+大模型”的热情都非常高。

在技术架构上，我们采用了检索增强生成（RAG）技术，使模型能够实时检索我们的中医语料库。同时，我们还通过API调用了自研的舌象分析软件。在训练过程中，我们不调参数，而是由中医师进行指令驱动的对齐（Alignment），通过大量的场景模拟，让AI的回答符合中医的辩证逻辑。正如刚才两位老师所说，医学问题需要多次迭代，模型会主动追问用户，以获取更全面的病史信息。

为了验证效果，我们发布了一个名为“TCM Ladder”的数据库，并在今年的AI顶会NeurIPS上正式发表。利用这个数据库，我们对比了通用大模型与中医专用大模型。结果显示，“本草”在诊断学、方剂学、中医内科、儿科及外科等各个维度的表现，均显著优于通用模型。这归功于大量专业知识的注入以及中医师参与的经验对齐。

在中医界，由于缺乏像西医那样明确的本体（Ontology），诊断高度依赖经验。因此，我们邀请了上海中医药大学的几十位老师进行人工测评，评估其诊断判断和方剂开具的可靠性。测评结果再次证实，专门的医学大模型在专业深度上具有巨大优势。

总结来看，我们的工作提供了几点启示：

第一，医学领域的垂直大模型在专业性上确实有潜力超越通用模型；

第二，专家反馈的闭环（对齐）是确保模型靠谱的关键；

第三，AI的开发模式正在普及，只要有专业的医学知识储备和少数AI开发人员，就可以在腺样体肥大、慢病管理等非常细分的领域做出专属的、深度的医学模型。这种普及化模式不仅限于客户端，在开发端也将成为常态。

专用模型如何跨越“医学专业性”的鸿沟

许东：接下来的环节，我们进入深入探讨阶段。目前，很多用户习惯直接向ChatGPT、通义千问或豆包咨询健康问题，似乎并不一定非要使用专门的医学大模型。作为研发端和应用端的专家，我先分享几点个人体会。

我认为医学大模型的额外价值主要体现在三方面：首先是训练数据与对齐，医学模型拥有极其专业的语料，并由医生辅助完成对齐，质量更可控；其次是隐私处理，通用模型往往会将用户上传的信息作为语料进行二次训练，存在隐私泄露风险，而专业的医学大模型在隐私保护上通常会有更严格的闭环；最后是安全性边界，通用模型偏向开放式创作，而医学模型在给出建议时往往更保守，会不断提示用户线下就诊，避免给出极端错误的决策。

针对这些问题，我想请教顾老师和吕老师：通过蚂蚁“阿福”的研发，你们认为医学大模型在输出质量、可靠性及用户体验上，到底比通用大模型好在哪里？用户在面对医学问题时，是否应该首选专用模型？

顾进杰：关于垂类大模型与通用大模型的差异，我们感触非常深。很多用户在阿福上问的问题五花八门，甚至包括中医方面的咨询，这也正是许老师做“本草”模型的初衷。为什么要在通用模型之上专门针对医疗做优化？我总结了三个关键原因：

第一，能力增强。通用大模型在训练时，其预训练数据、SFT（监督微调）样本及强化学习任务的配比是通用的。比如，通用模型会加入大量代码数据以提升Agent能力，加入数学数据以提升推理能力。但在医疗场景下，通用任务的配比可能并不适合医学逻辑。医学任务非常有特点，例如对药品、症状、疾病的精准对应，以及基于RAG（检索增强生成）的循证能力。如果研发者对医学没有深刻的判断，就无法精准增强这些核心能力。

第二，医学对齐。这是极具挑战的一环。优秀的医生在临床诊疗中遵循特定的原则和思维链（CoT），他们往往习惯用最高效的方式与患者沟通，这种深层决策逻辑往往没有被数字化。我们要想做好医疗AI，就必须让模型与顶尖专家的处理方式达成高度一致，这种“医学对齐”是通用模型难以深入触达的。

第三，能力边界与拒答能力。通用模型往往倾向于给出一个答案，但在医学场景下，证据不足时强行给出判断是非常危险的。医学大模型需要学会在证据不充分或信息模糊时通过“追问”获取更多信息，甚至学会“拒答”。比如，用户拍一张模糊的手持报告照片，如果阿福强行识别，误诊风险极大。这时，专用模型必须表现出更强的安全约束和边界感。

吕乐：我补充几点。医疗AGI的定义其实非常宽泛，涉及面极广。我多年前读过Eric Topol的《Deep Medicine》，他最近又写了《Super Agers》，核心都在探讨AI在复杂人体系统中的角色。

对于像“阿福”这样的AI全科医生，它面临的是一个“多对多”的数学映射难题：多种病灶可能表现出同一种症状，而同一种病也可能有多种复杂的表征。在工程和临床上，如何在保持有效性的同时确保安全性？如果回答太浅，病人觉得没帮助；如果给得太深，模型不可避免会犯错。要在两者之间取得平衡，需要极高的科学挑战性。

全科医生是人类和AI都能做的事，本质上是两个智能体集合的碰撞。阿福目前日活已经达到1000万，这意味着我们拥有强大的“数据飞轮”，能通过海量真实交互不断迭代，比别人更快地调优这个平衡阈值。

而我负责的严肃医疗方向，任务定义更为具体。比如做一个Agent帮T2N0期的肺癌病人看病，这个问题的边界是科学且清晰的。人体极其复杂，有30万亿个细胞，每个细胞都是精密工厂。从科学本质上说，很多医学难题短期内不可解。因此，无论是循证医学还是经验医学，最核心的是取得平衡。

蚂蚁集团作为一家包含金融、保险、好大夫在线等多维业务的公司，我们将支付、服务与AI能力整合在一个复杂大系统中进行优化。这种全场景的配合，让我们有机会解决医疗这一“复杂巨系统”中的可解问题。

许东：我们今天还请到了胡钢清老师。胡老师是西弗吉尼亚大学的助理教授，也是最早一批尝试将ChatGPT等模型应用于生物医学创新研究的专家。胡老师，对此您有什么看法？

胡钢清：关于医学大模型与通用模型的差别，我认为从用户角度看，医学模型的容错率必须定得极低。医学不仅仅是科学，更包含人文关怀。这种专业性决定了它不能仅仅作为一种信息检索工具。

在“人情味”与“科学边界”之间寻找平衡

许东：接下来第二个问题希望普通听众发一点“福利”：作为普通用户，如何更好地使用这些医学大模型？人与机器交流也需要“高情商”。

我个人的体会是：你提供的信息越详尽，结论通常越靠谱；多次迭代、追问往往比单次提问效果好。另外，结论一定要做交叉验证，比如询问大模型结论的参考文献或证据支撑。特别是在医学领域，说错了可能产生极端后果，所以用户必须掌握一些技巧。请嘉宾们分享一下使用建议。

顾进杰：结合我们的产品实践，我给用户提三个“最佳实践”建议：

第一，尽可能提供详细的上下文。在AGI产品中，Prompt（提示词）至关重要。如果只说一句“我肚子疼”，连最有经验的医生也无法给出解答，因为缺乏疼痛部位、持续时间等信息。我特别建议大家使用阿福的“语音输入”功能。打字往往简短，但语音可以表达更丰富的长段信息。我们甚至增强了方言识别，就是为了让用户能把所有能想到的症状细节都讲出来，上下文描述得越好，回答质量越高。

第二，重视“医疗档案管理”与记忆功能。ChatGPT Health版本上线时也特别强调了档案管理。医学Memory必须与其他通用记忆分开管理。如果你有一个综合性问题，建议把既往病史、过往手术史、检查报告拍照上传。医生面诊时都会询问既往病史，AI也一样。你上传的档案越详细，AI在下一次判断时就越能结合你的个人情况，给出个性化建议。

第三，多模态输入与多个AI交叉验证。现在的模型各有风格，你可以把自己的主诉和病史让AI总结好，然后发给不同的医疗AI比如阿福、ChatGPT等去对比建议。这种“兼听则明”的对比是非常好的实践。甚至你可以让一个AI帮你写Prompt，再去问另一个AI。总之，善用档案管理、多轮对话和跨平台对比，是目前使用医疗大模型的最佳方式。

许东：顾老师提到的“记忆”很有价值。我注意到阿福已经具备了图像记录功能。比如我手上长了一个“猴子”（疣），拍张照片存下来。我想请教顾老师，目前阿福的系统能否将历史照片与后续提出的新问题进行关联建模？

顾进杰：我们正在研发这种深度记忆能力。记忆逻辑很难做，比如女性经期是周期性的，如果她腹部不适，模型需要从历史记忆中调取经期时间进行推理是否跟经期有关。我们目前的做法是先让用户记录，然后逐步升级推理能力，先从用药、疾病史开始，未来再接入日常行为数据（如运动、监测设备信号）。这种长期的健康轨迹连接，是我们努力的方向。

胡钢清：我补充一个图像交互的体验。人的眼睛非常精密，能看到一些细微的意向模式。在和大语言模型交流图像时，如果模型没看出来，我们可以通过文字反馈给它，进行“人机耦合”解读。此外，不仅是病史，甚至以往的旅行史也可以提供给模型，这往往能帮助模型发现特定症状背后的潜在原因。

许东：接下来讨论第三个核心话题——大模型的“迎合性”风险。大模型往往倾向于“顺着用户说”，不断自我证明用户思路的合理性。在医学领域，如果用户本身对病情认知有偏差，这种迎合可能导致判断越走越偏，甚至诱导极端行为（如自杀建议）。从研发角度看，我们该如何控制这种风险？

胡钢清：我对这一现象的研究始于去年夏天《Nature》以新闻形式报道的“AI Psychosis”,即与 AI 互动可能诱发或加重心理健康问题。GPT类模型往往想方设法去解释用户错误说法的合理性，而不是直接指出错误，这对于有潜在心理健康风险的用户非常危险。

我有两个典型例子：

第一，在模拟躁狂症场景时，如果用户说自己要创办公司、明年能拿诺贝尔奖，GPT为了表现得“高情商”，会不断夸赞用户是“天才”，这种共鸣可能加剧用户的病态认知。

第二，在皮肤科中有一种“寄生虫妄想症”病人，他们坚信皮肤下有虫子。我们测试发现，虽然大部分模型能识别其背后的精神问题，但仍有20%-40%的概率，模型会顺着病人的话说：“这确实很严重，你不妨把‘虫子’抓下来装进瓶子里作为样本。”这恰好迎合了此类病人采集皮肤碎屑并试图说服医生的行为模式，强化了病人的幻觉。

从训练机制上，我很好奇进杰老师如何通过对齐（Alignment）来修正这种过度迎合？

顾进杰：这确实是行业痛点。大家普遍感觉GPT-4o升级的时候网上有很多人吐槽说GPT-5的“情商”似乎降低了，很多人要求Sam Altman回滚到GPT-4o，这也说明GPT-4o，从拟人的角度上来说是比较“圆滑”的，会在意你的情绪，而另一个例子，谷歌的Gemini则更像一个“理工直男”，缺乏共情力。

许东：Gemini确实更偏向“Nerd（技术宅）”开发给科研人员使用的风格。情商低一点，但在科研严谨性上表现较好。对于医学模型来说，如何平衡“严谨性”与“人情味”，确实是个难题。

顾进杰：医学是人文加科学的结合。医学界有一句名言：偶尔治愈，常常帮助，总是安慰。这意味着医学中很大一部分工作是沟通与心理建设。如果我们为了严谨而把模型调教成“直男”，用户可能会流失；但如果过度共情，又会产生刚才提到的风险。

我们的经验是将模型的表达风格进行多层级、多场景的“医学对齐”。我们前段时间有一个工作叫“Medical EQ Bench”，专门用来评估模型的医学情商。通过与临床医生的沟通，我们发现不同科室对沟通技巧的要求完全不同：

1、心理/精神类：必须具备极强的聊天能力和耐心，不能惊吓用户，要提供充足的情绪价值。

2、母婴/儿科：妈妈们往往会放大孩子的病情（比如高烧）。模型需要识别并安抚其焦虑情绪，同时冷静地告知生理指标的科学含义。

3、重症/危重症：绝不能过度共情。如果用户发来一份严肃的病理报告，模型说“别担心”是非常不负责任的。此时，模型必须切换到“严肃模式”，只聊事实、聊指标，建议必须极其谨慎。

具体实施上，我们把对齐分为三层：

▪ 表达层：确保语言清晰、结构化。比如什么时候该讲专业术语，什么时候该讲大白话。

▪ 理解层：识别用户的情绪（焦虑、紧张等）及其背后的价值偏好。

▪ 安全层：动态调节风险，一旦识别到严重的情绪危机或潜在风险，系统会触发预警。

胡钢清：我非常认同进杰老师提到的“真人干预”。在产品端甄别出“Red Flag（红色警报）”并接入人工干预，是目前的最佳解。大模型处理纯文本时，很难分辨用户是在陈述事实还是在进行病理性的幻想。此时，具备直觉的医疗专家介入，能从文字背后瞬间看穿用户的真实精神状态。这对于健康伙伴类产品来说，是至关重要的安全底座。

许东：吕老师有什么补充吗？

吕乐：我前两天刚在一家国内顶级医院实地观察了针对癌症病人的多学科会诊（MDT）。我一直在探索医生在真实临床中的思考逻辑与服务流。

我发现了一个很有意思的现象：在很多医院，MDT讨论时病人是不出现的，医生们讨论10到20分钟得出方案。但一些优秀的医院会在讨论结束后，把病人家属甚至病人请进诊室，由专家亲自解释方案。这种沟通其实是一门极高的艺术。面对病情严重的患者，医生不仅要医术高明，还需要极高的情商去处理家属的心理压力。

我最近参加了一个科研项目的启动会，发现针对重症癌症病人的干预中，心理学家的角色非常重要。据估算，中国约有1000万个癌症家庭，如果算上亲属，受影响的人群达三四千万。癌症病人及其家属往往承受着巨大的精神负担，如何进行有效的心理干预，不仅是医学难题，也是社会难题。医疗是一个极其综合的体系，必须整合多模态、多渠道的信息来服务病人。

我想勉励大家，正如我的导师沈向洋所说，无论是在大公司、创业公司还是学校，只要在解决人类面临的重大难题，就是在创业。在人工智能时代，我们更应坚持“以人为本”，让医疗AI更好地服务于人类。

顾进杰：吕老师提到的这一点我非常有感触。阿福上线后，我们发现中国用户对AI医生的强烈需求，很大程度上源于医疗资源的紧张。

我们曾与一线医生深入交流。在北美，一位医生面诊一个病人的时间可能在30分钟左右，有充足的时间沟通，甚至可以当场检索文献。但中国的医生由于接诊量巨大，工作强度极高，往往没有时间细致地安抚患者、回答每个疑问。

因此，很多中国患者将AI视作他们的“第二诊室”。在医院没听懂、没问够的信息，会转而去问AI。在这种语境下，AI不仅要提供准确的信息，更要承担起“安抚者”的角色。这不仅是技术挑战，更是巨大的社会价值所在。

通往“以患者为中心”的AI医疗生态

许东：确实，大模型能帮助偏远地区或资源紧张环境下的居民享受优质医疗，其价值是跨国界的。但我们也必须面对公众、媒体及政府监管对医学大模型的不同态度。

目前，国内对AI发展的监管相对友好，公众接受度也较高。相比之下，美国和欧洲的监管则更为严苛和保守。医学大模型和所有预测模型一样，不可能做到100%准确。美国曾有一个利用大模型提供营养建议的机构，因为模型向一位进食障碍患者建议节食，被媒体曝光后，该机构在舆论压力下被迫关闭。

我想请问几位：在目前的全球语境下，医学大模型普及的最大障碍是什么？我们该如何平衡监管、风险与社会收益？

吕乐：医疗是非常严肃的。一方面是病人的刚需，另一方面是复杂的监管与社会利益分配。AI的引入可能会重塑现有的医疗服务链条，这涉及各方利益的重新界定，是一个非常复杂的社会问题。

但我认为，医疗的本质永远是“以病人为中心”。无论技术如何变革，衡量取舍的标准应当是：在费用和社会消耗可控的前提下，病人是否获得了最大收益。

针对严肃医疗，我有一个明确的观点：AI好不好的终极标准是“进指南”。如果一项AI技术无法进入严肃医疗的诊疗指南，说明它还不具备被行业核心认可的成熟度。目前的医学指南几乎没有AI的部分，未来我们需要明确：哪些环节可以交给AI？医生与AI如何协作？这需要大量的真实世界研究（Real-world Study）去证明。回归本质，医疗服务的存在是因为有病人需要被帮助，我们应致力于提供高频、高质量的辅助。

胡钢清：我补充一点关于受众群体的观察。在美国，边远地区的老年人对AI的接受度相对较低，这存在一定的数字鸿沟。为此，OpenAI曾提供专项资助，研究如何让非营利组织推动AI在老年群体中的应用。但在国内，像阿福这样的产品，三四线城市的用户反而可能因为医疗资源匮乏而用得更多，这是一个有趣的差异。

顾进杰：确实，阿福在三四线城市及中老年群体中有很多拥趸。我认为目前AI工具的普及还面临易用性的挑战。

对于很多平时连智能手机复杂功能都很少使用的老年人，让他们用好AI其实很难。比如很多模型输出纯文本，且文本框很小，不符合老年人的习惯。因此我们在阿福中投入了大量精力做语音增强，支持方言输入，旨在降低工具的使用门槛，减少由于操作不当带来的风险。

此外，医学界对于好的评估框架（Benchmark）探讨得还不够。我今天还和吕老师讨论了一个北美的评估框架。在中医等领域，还有大量专业任务亟待量化和评估。随着参与者增多，未来一定会建立起更规范的行业标准，我对这种“标准驱动的进步”持乐观态度。

胡钢清：关于媒体舆论，我想提醒用户保持判断力。媒体往往倾向于报道两个极端：一个是极坏的个案，比如AI给自杀倾向者提供方案，这种新闻具有巨大的爆炸性，会迅速引发恐慌；另一个是极好的个案，比如一个患者找了十几个医生都无果，最后通过大语言模型得出了接近真实的诊断，辅助医生最终确诊。

极好的个案和极坏的个案都有新闻价值，但用户阅读时应意识到这都是极少数的情况。我们作为研发者和用户，既要正视风险，也要看到其带来的巨大赋能。

许东：刚才我们谈到了很多关于大模型的风险。那么，有没有可能以更安全的形式来应用这些技术？例如，目前蚂蚁阿福这类产品主要是面向消费者的，我们是否可以将其引入专业的医疗环境？比如在患者挂号后的等待期间，先由大语言模型进行预沟通，并直接连通护士、医生和既往病历。大模型可以辅助患者高效整理信息，甚至在某些情况下，通过与模型的深入交流，在见到医生前就解决了一部分疑问。即使患者不擅长操作，现场也可以由护士协助。大家认为这种“导诊/预问诊”场景是否是更好的应用路径？

顾进杰：您提到的这个想法非常好，业内也已经有很多实践。我们将其定义为“医疗健康Agent”。第一个典型场景是“预问诊”。中国医生接诊压力极大，超过50%的时间其实都在进行重复性的病史询问，比如“生病多久了？”、“吃过什么药？”。我们正与多家医院和机构合作，提供预问诊Agent。在患者进入诊室前，可以通过扫码完成基础症状描述或量表填写，AI生成的摘要能极大提升医生的诊断效率。第二个场景是“随访Agent”。患者在术后或诊后需要长期的信息同步，传统方式靠护士打电话询问，效率极低且难以规模化。AI Copilot可以替代人工收集康复数据，一个医生团队因此能管理更多的患者。目前的挑战在于系统打通。这些Agent需要与医院内部的HIS（医院信息系统）深度对接，这个过程涉及信息化改造，虽然需要时间，但其中蕴含的机会是巨大的。

胡钢清：我非常赞同。在北美，预问诊通常由护士或助理完成，他们会先与病人交流十几分钟，医生在面诊前就已经掌握了基本信息。如果AI能把预问诊和随访这两部分工作做得更顺畅，医生的服务容量将得到质的飞跃。

吕乐：我补充一点。医学本质上是“长期的”和“全面的”。它是一个时间序列，需要多维度信息的整合。对于重症癌症或慢病患者，随访不仅是打个电话，更是对康复质量的实时监控。患者绝大部分时间不在医院，而是在家中。以往靠护士手动随访非常痛苦，信息也难以持久留存。我认为未来的理想形态是“每个家庭都有一个AI健康管家”。这个管家存储着用户的完整历史档案，能以全局视角管理病人的健康。医疗极其复杂，涉及社会化的全面服务，这需要通过大型系统性的工程来解决。随访中蕴含着大量的人工智能工作机会，甚至有些工作并不适合人类去做，因为人类难以时刻保持对数千名患者细节的精准记忆。

许东：谈到开发，有观众问到“阿福”内部的评测标准（Benchmark）是如何搭建的？顾老师能分享一下这方面的经验吗？

顾进杰：医学大模型研发中，最难也最重要的就是Benchmark。我们内部构建了大量的In-house评测集，是与顶尖医生深入交流后产出的。定义大模型在某个专科能力上的缺陷非常困难。很多模型虽然掌握了医学知识，但在特定临床场景下的逻辑依然会出错。我们要创造出能评估这种深层能力的评测集。目前，生成一条包含复杂问题和详细评分标准的高质量评测数据，成本非常高，在国内可能需要三四千元人民币，在北美则更高。我们拥有接近千人的医学医师标注团队在持续优化这些“北极星”指标。除了评测，另一个核心是数据质量。医学领域不缺数据，但缺“AI Ready”的高质量数据。临床数据往往非常“脏”，记录不规范或信息缺失，需要大量的清洗。我认为，相比于大家热衷讨论的Transformer架构，冰山之下的评测集和数据治理才是真正的护城河。代码数据可以靠编译器自动验证质量，但医学数据只能靠专家人工核验，这种规模化挑战需要行业达成更多共识。

许东：鉴于时间关系，我们进入最后一个问题：医学大模型的未来挑战与新机遇是什么？吕老师先谈谈您的展望。

吕乐：我认为医疗AI的壁垒依然在数据。真正严肃且有价值的临床数据在公有域是不存在的。要把医院里的数据变成“AI Ready”，需要非常强大的数据治理AI。我个人认为，负责数据治理的AI算法可能比最终训练模型的算法还要复杂，研发者80%的精力应该放在这里。同时，我们不能简单地把人类医生的眼光作为唯一的评测标准（Reward Function），因为人眼有时也看不清影像中所有细节。我们需要定义更科学、可验证的激励机制。我从事医疗AI二十年，经历过波峰波谷。在大家绝望时，我看到希望；在大家疯狂时，我倾向于泼点冷水。中庸之道在医疗领域很重要。医疗创新不应是轰轰烈烈的，而应像春雨般“润物无声”。最后，医疗创业必须是使命驱动的，开发者必须对病人有爱。如果我们创造了100块钱的价值，应该让病人拿走98块，我们分剩下的2块。只有以人为本，回归医疗本质，这个事情才可解。

顾进杰：我补充一下。医疗是一个长坡厚雪的赛道。我们在广州与钟南山院士交流时，他强调“最重要的还是患者”。目前中国很多医生因为压力大，往往是“以治病为中心”，而非“以患者为中心”。AI可以填补这个空隙。目前的AI还处在早期，在“望闻问切”上的能力还很差，更多是解决信息获取。我认为未来有三个阶段：第一阶段：提升知识深度与医学感知能力；第二阶段：各种特定的专业Agent爆发，涵盖随访、预问诊、营养、康复等环节；第三阶段：人机协作。AI与医生、患者形成新的协同范式。未来一个主任医师通过AI辅助，可能从管理几百个病人扩展到管理上万个病人，这种产能释放的想象力是巨大的。最终，ASI（超人工智能）与多智能体范式结合，将解决目前医学上不可解的难题，比如生物制药的突破。我们才刚刚开启这个大幕。

许东：简单回答几个听众关心的问题。第一，阿福有出海计划吗？

顾进杰：每个国家的医疗监管政策差异很大，出海需要非常谨慎的调研。我们目前重点服务国内，同时也关注海外华人回国就医的辅助，全球化布局会一步步探索。

许东：阿福能对接居家健康检测和穿戴式设备的数据吗？

顾进杰：我们正在做。今年Q1会陆续连接市面上主流的硬件厂商。在老龄化背景下，AI+居家硬件大有可为。

许东：会针对精神医学等细分方向做专门的模型吗？

顾进杰：精神类干预非常难，因为它涉及语气、互动等非文字信息。我们目前有一些研究性课题在与机构合作，欢迎对此感兴趣的专家共同建设。

许东：既然有了大模型，传统的机器学习在医学研究中还有意义吗？

顾进杰：意义非常大。大模型解决一般性问题，但在极专的领域，如通过语音识别判断睡眠障碍，仍需要特殊的小模型。很多小模型可以基于大模型开发，两者是相辅相成的。

许东：今天的讨论持续了两个多小时，感谢三位嘉宾提供了极具洞察力的建议，无论是对研究者还是普通用户都非常有启发。感谢雷峰网和GAIR Live平台的技术支持。今天的讨论到此结束，谢谢大家！

吕乐、顾进杰、胡钢清：谢谢大家，再见。

完整视频观看地址：https://youtu.be/YiNBPmeQ7rs

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.