Nat Med | 黄天荫/盛斌合作研制多模态眼成像大模型EyeFM，同球共济提供大模型赋能诊疗的前瞻性医学证据|眼科|医生

分享至

眼成像技术在监测眼部及全身微循环方面，拥有无创、安全、便携的显著优势。其应用价值不仅体现在眼部疾病的诊疗环节，更能为心脑血管疾病、代谢性疾病等慢性病的早期筛查、精准诊疗、病程跟踪与预后管理，提供关键的科学支撑。

2025年8月28日，清华大学医学院黄天荫教授团队，与上海交通大学计算机学院/教育部人工智能重点实验室盛斌教授团队医工交叉携手合作，在Nature Medicine发表题为An eyecare foundation model for clinical assistance: a randomized controlled trial（眼成像基础大模型赋能临床诊疗：随机对照试验）的重要研究成果。针对“如何通过眼成像刻画慢性病发展规律、赋能智慧诊疗”这一全球热点研究方向，研究团队依托超千万眼部影像及多模态诊疗数据，成功构建多模态眼成像基础大模型（命名为EyeFM）。随后，团队通过云端协同模式前瞻性部署基于该大模型的数字化平台，并采用“人在回路”（Human-in-the-Loop）的临床验证设计，在全球不同地域（涵盖亚洲、北美、欧洲及非洲）的基层及眼科医生中，前瞻性验证了该大模型对诊疗能力的提升效果。与此同时开展了一项基于中国临床真实场景的随机临床研究，实现临床自适应的健康指导与智能交互服务。此次全球合作研究，首次为AI医学领域提供了大模型赋能基层与专科诊疗的高级别循证证据，同时为未来更多可临床转化的基础模型研发与验证提供了全新范式，有效推动该类新技术从实验室研究阶段迈向临床实际应用场景。

研究背景

当前，基础大模型（Foundation Model,FM）已成为医疗人工智能临床应用的核心驱动力，但三大关键瓶颈始终制约其从实验室走向真实诊疗场景：其一，现有医疗FM多依赖单模态数据训练，难以像临床医生那样融合多模态医学信息实现跨模态对齐，无法适配实际诊疗中“多影像协同诊断”的需求；其二，多数研究仅停留在回顾性数据验证阶段，缺乏覆盖多人群、多场景的前瞻性验证，更鲜有通过随机对照试验（RCT）这一金标准的检验，导致临床落地可行性与实际价值大打折扣；其三，医疗领域复杂的伦理、法律与社会挑战明确了AI的辅助定位，但现有研究多聚焦AI独立诊断能力，忽视了人机协作模式在真实临床流程中眼科学因常规应用多模态影像检查（如彩色眼底照、光学相干断层扫描等），成为突破上述瓶颈的理想领域。此次清华大学与上海交通大学医工交叉团队攻关，成功研发全球首个多模态视觉-语言眼部成像基础大模型EyeFM，并构建首个经临床验证的医疗AI大模型落地路线图，为大模型临床转化提供“可复制、可推广”的解决方案。

EyeFM模型架构：以临床需求为核心，打造多模态眼成像“智慧大脑”

EyeFM作为临床可落地的多模态视觉-语言眼科辅助诊疗模型，核心架构围绕“贴合医生诊疗思维”设计，由视觉（图像）模块与语言模块两大核心部分组成，通过两阶段精准预训练与临床化优化，实现从“数据融合”到“临床实用”的全链路突破。

第一阶段：视觉模块预训练—打造跨模态影像“解读能力”。针对临床中多模态影像协同诊断的需求，团队创新采用多模态多任务掩码自编码器架构，基于全球多民族数据集的超千万张眼科影像（覆盖彩色眼底照CFP、光学相干断层扫描OCT、超广角眼底照UWF、眼底荧光血管造影FFA、外眼照片EEP五种核心模态）开展预训练。该架构设计1个共享编码器与5个模态专属解码器：编码器负责提取不同模态影像的高阶共性特征，解码器则针对性重构各模态的掩码图像，让模型既能“读懂”单一模态影像，又能跨模态吸收互补信息—例如从CFP中捕捉眼底宏观病变，从OCT中解析视网膜微观结构，为后续临床多模态协同诊断奠定基础。

第二阶段：视觉-语言联合预训练,实现影像-文本精准对齐。为复刻医生“看影像、读病历、答疑问”的完整工作流，团队利用数十万条临床文本-影像配对数据（含病历、诊断报告、检查说明等），开展视觉模块与语言模块的联合训练。通过影像特征与临床文本的深度对齐，让模型能精准理解视觉输入对应的医学语义，不仅能识别病变，更能像医生一样生成符合临床规范的文本报告、响应多样化医学问答指令（如“该眼底影像提示哪些潜在疾病？”“需进一步安排哪些检查？”），真正实现“影像有解读、文本有回应”的临床实用能力。

于此同时，为解决AI模型“实验室性能优、临床落地差”泛化偏移痛点，研究团队创新引入“医生反馈驱动”的优化机制：结合直接偏好优化与联邦学习技术，将EyeFM以云端协同的数字化平台方式部署至全球多中心医疗机构后，以“人在回路（Human-in-the-Loop）”方式收集一线医生的诊断反馈，构建医生偏好数据集；通过偏好优化训练让模型输出更贴合临床判断，再借助联邦学习整合多中心参数，在保护数据隐私的同时，实现模型在不同地域、不同层级医疗机构的性能迭代—最终让EyeFM能适配基层医院“设备有限”、专科医院“病例复杂”等多样化临床环境，持续提升实际诊疗辅助价值。

基于上述架构与训练优化，EyeFM可高效执行多类核心临床任务，全面覆盖眼科日常诊疗场景：1.单模态影像任务：基于单一影像模态（如CFP、OCT）完成疾病检测（如糖尿病视网膜病变）与病灶分割（如眼底出血、渗出区域标注）；2.多模态影像任务：支持跨模态诊断（如资源有限场景下，通过低成本CFP预测需OCT确诊的中心累及型糖尿病黄斑水肿ciDME）与集成模态诊断（融合CFP+OCT等多模态数据，提升青光眼、黄斑变性等复杂疾病的诊断准确性）；3.视觉-语言任务：自动生成符合临床规范的影像报告（减少医生文书工作量），并精准响应医学问答（如解释病变成因、给出检查/治疗建议），成为医生诊疗过程中的“智能助手”。

从架构设计到训练优化，EyeFM始终以临床实用为核心目标，其多模态融合与临床适配能力，不仅突破了当前眼科AI模型的技术局限，更让医疗AI真正具备走进诊室、辅助诊疗的实力。

EyeFM三步临床验证策略：构建AI从实验室到诊室的全链路循证证据

医疗AI的临床价值，需以“安全、有效、实用”为核心标尺。为突破当前医疗模型验证碎片化、场景适配差的痛点，研究团队创新设计逻辑闭环、覆盖全面的三步递进式验证策略(见图1)，从“基础安全”到“场景适配”，再到“临床实效”，层层筑牢模型临床落地的证据根基，最大化保障其在真实诊疗场景中的可靠性与适配性。

第一步：回顾性多民族数据验证,夯实模型安全底线:作为临床验证的“基石环节”，本阶段聚焦模型在多样化数据上的基础性能与安全性，为后续临床应用建立安全基准。研究团队基于全球多民族数据（含多国公开数据集与医院真实患者数据），对EyeFM的五大核心临床任务开展基准测试：单模态疾病诊断（如CFP筛查糖尿病视网膜病变）、跨模态疾病诊断（如CFP预测OCT确诊的病变）、多模态综合诊断（CFP+OCT协同判断）、影像报告自动生成、图像关联医学问答，覆盖不同种族、年龄、疾病类型的患者群体。结果显示，EyeFM在所有任务中均显著优于现有基线模型，充分证明其在多样化数据场景下的稳定性能，为进入临床场景奠定坚实基础。

第二步：跨国多中心医生验证+真实世界研究—验证模型“场景适配性”。为解决“实验室性能≠临床实用”的核心矛盾，本阶段通过“医生实测+真实场景验证”，全方位评估EyeFM的临床辅助价值与场景适应性，覆盖资源有限基层”到“技术密集专科的全场景。首先开展跨国多中心医生阅片测试，通过全球6国医生协同参与来验证人机协同价值。邀请来自亚洲（中国、印度、马来西亚）、欧洲（丹麦）、非洲（赤道几内亚）、北美（美国）6个国家的眼科和基层医生，对比“医生独立操作”与“医生+EyeFM协同”的表现差异。结果显示：协同模式下，医生对常见眼病的筛查灵敏度显著提升，且诊断时间较“直接阅读”缩短。此外，医生借助EyeFM撰写影像报告的时间平均减少63.3秒/份，报告质量（完整性、正确性）评分显著提高。同时开展双中心真实世界研究，实现基层与三级医院的“实战检验”。在海南与上海的双中心研究中，821名糖尿病患者被分为“医生独立诊断组”与“医生+EyeFM协同组”，验证模型在真实患者分布中的辅助价值。结果表明，即便脱离“理想数据集”，EyeFM仍能稳定发挥作用：在基层医院，协同组对常见眼病的筛查灵敏度较独立组提升；在三级医院，针对可转诊糖尿病视网膜病变、青光眼、年龄相关性黄斑变性（AMD）的诊断准确率，协同组显著高于独立组，充分证明其在不同层级医疗机构中的适配性。

第三步：双盲随机对照试验（RCT），锁定模型“实际临床效用”。作为医疗干预验证的“金标准”，本阶段通过严格的双盲RCT设计，直击EyeFM在真实疾病筛查流程中的“实际临床价值”，为模型落地提供最直接、最可靠的高级别证据。研究在上海健康医疗中心开展，纳入668名眼底疾病高危受试者，以“高级医师结合CFP+OCT的综合诊断”为标准，对比“医生+EyeFM协同”（干预组）与“医生独立筛查”（对照组）的差异，核心评估7类常见眼底疾病（糖尿病视网膜病变、青光眼、老年黄斑变性、近视性黄斑变性、糖尿病黄斑水肿、黄斑前膜、黄斑裂孔）的诊疗效果。试验采用双盲设计，完全模拟真实筛查场景，结果显示EyeFM带来三大关键提升：干预组总诊断正确率达较对照组显著提升；干预组筛查报告标准化评分（基于完整性、正确性、必要性、安全性四维度）提高；随访显示干预组患者对诊疗建议的依从性更高。

图1.EyeFM为基于眼成像的AI大模型落地全球诊疗提供中国方案

EyeFM的三步验证策略，构建了“安全基础→场景适配→临床实效”的完整逻辑链：首先，通过覆盖多民族数据的回顾性验证，确保模型“能干活、干得稳”；其次，借助跨国多中心与真实世界研究，确保模型“适用于不同场景、不同医生”；最后，通过双盲RCT，最终证明模型“能切实提升诊疗效果、改善患者结局”。这套验证体系不仅为EyeFM的临床落地提供了高级别循证证据，更开创了医疗AI“从技术研发到临床转化”的标准化路径，为未来医学基础模型的临床验证提供了可复用、可推广的范式（见图1）。

不止于眼科：EyeFM研究为医疗AI落地提供“中国范式”

EyeFM的价值远超单一疾病领域：首先，它解决了眼科诊疗的核心局限，首次实现多模态数据融合、人机协同诊疗与全周期临床验证，填补了医学AI从技术到应用的空白；其次，推动健康公平，通过“小数据微调”、“跨模态降本”和“多民族数据训练”，使得低资源地区也能借助基础设备开展高质量眼科筛查；再次，树立行业标杆，其“临床需求驱动设计→三级验证体系→人机协同落地”的路线图，为肿瘤、心血管等其他医学领域的FM临床转化提供了可借鉴的框架。从实验室到诊疗一线，EyeFM不仅是一款领先的眼科辅助工具，更标志着中国医疗AI在基础模型临床落地领域的突破性进展—凭借严谨的证据、贴合临床的设计和普惠的价值，使AI真正成为医生的“可靠伙伴”。建功新时代，为全球智慧医疗发展注入“中国力量”。

本文的共同通讯作者为黄天荫教授及盛斌教授。本文的共同第一作者为清华大学医学院吴漪澜博士、上海交通大学计算机学院钱波博士、李庭瑶、清华大学医学院秦义明博士、上海交通大学医学院管洲榆、上海市保健医疗中心陈婷丽主任、美国俄勒冈健康与科学大学Yali Jia教授、美国俄亥俄州立大学张平教授以及清华大学医学院曾典博士。

https://www.nature.com/articles/s41591-025-03900-7

学术合作组织

（*排名不分先后）

战略合作伙伴

（*排名不分先后）

转载须知

【非原创文章】本文著作权归文章作者所有，欢迎个人转发分享，未经作者的允许禁止转载，作者拥有所有法定权利，违者必究。

BioArt

Med

Plants

人才招聘

近期直播推荐

点击主页推荐活动

关注更多最新活动！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.