网易首页 > 网易号 > 正文 申请入驻

Medical SAM3:首个真正「纯文本提示」驱动的医学全能分割模型

0
分享至



作者丨论文团队

编辑丨ScienceAI

现有的通用医学分割模型往往只是「伪全能」,因为它们在没有人工提示框辅助时几乎寸步难行。

来自中佛罗里达大学(UCF), 宾夕法尼亚大学(UPenn), 伦敦大学学院(UCL)等机构的研究团队近日发布了Medical SAM3,通过全参数微调与创新的分层训练策略,在 33 个医学数据集上实现了革命性突破:它不再需要医生手动画框,仅凭一句分割「肿瘤」的文本指令,即可在 CT、MRI、内镜等 10 种模态中实现专家级分割,将零样本场景下的平均准确率从 11.9% 暴涨至 73.9%。



论文链接:https://arxiv.org/abs/2601.10880

代码仓库:https://github.com/AIM-Research-Lab/Medical-SAM3



核心痛点:以前的「通用模型」真的通用吗?

在 Medical SAM3 之前,许多「医学通用分割模型」在实际使用上存在一个关键前提:它们往往高度依赖空间提示(Spatial Prompts)—— 需要人工先提供 Bounding Box(边界框)或点击关键点,模型再在提示区域内完成分割。表面上看这只是交互方式的选择,但它也反映出能力边界:当模型必须先由人把目标「圈出来」,其主要贡献更接近于区域内的像素细化与边界优化,而非从整幅图像中完成稳定的语义定位与目标发现。

这种设定在演示场景中可以获得不错的效果,但在真实工作流里会带来明显的推广门槛:

  • 医生并不总能提前精确圈定病灶,尤其是边界模糊、形态复杂或早期难判的病例;
  • 在筛查、急诊分诊或跨模态阅片等高通量场景下,逐张图像画框 / 点选会显著增加交互成本,难以规模化;
  • 更重要的是,模型性能会对提示质量产生强依赖,系统的核心难题 ——「自动语义定位」—— 并未被真正解决。

论文中的诊断性实验进一步量化了这一现象:当移除人工空间提示、仅通过文本询问(更接近「通用」的使用方式)时,原生 SAM3 在医学图像上的表现出现断崖式下降,平均 Dice 降至 11.9%,并在内镜息肉分割等任务中出现 0.0% 的失效案例。这说明模型在很大程度上把空间提示当作了近似「目标索引」;一旦失去该索引,它在复杂背景、低对比度、强噪声或形态多变的医学影像中就难以稳定定位目标。

因此,Medical SAM3 的核心贡献并非把分数再提高一点,而是试图跨过这条关键门槛:将医学分割从「提示驱动的区域细化」,推进到「仅凭文本即可触发的语义驱动分割」,让模型不再依赖人工先验的空间圈定。



真正的「语义驱动」:不仅是微调,更是重塑

为了解决医学影像「语义难对齐、结构极复杂、模态差异巨大」这一核心难题,Medical SAM3 没有走业界常见的轻量级适配器(Adapter/LoRA)捷径,而是选择了一条更艰难但也更彻底的路线 —— 全参数微调(Full Fine-Tuning)。团队的判断很明确:医学影像与自然图像之间不仅是外观风格的变化,更是成像物理、噪声统计、目标形态与语义体系的整体迁移;仅微调少量参数往往只能「学到一点风格」,却难以让模型真正理解医学场景中那些决定分割成败的细粒度概念(例如模糊边界、低对比病灶、细长结构的连通性、器官之间的解剖约束)。因此,Medical SAM3 通过全参数更新,让模型从底层特征到高层语义都能发生充分适配,从而实现更可靠的「语义驱动分割」。

但全参数微调带来的挑战同样显著:一旦训练策略不当,模型可能会遗忘原有的通用视觉能力,或在训练早期出现不稳定震荡。为此,Medical SAM3 引入了分层学习率衰减(Layer-wise Learning Rate Decay, LLRD)策略,以一种「既保守又激进」的方式精细控制迁移过程:浅层网络使用更小的学习率,尽可能保留通用的边缘、纹理与局部对比特征(这些对所有影像都有效);而深层网络则使用更大的学习率,获得更强的可塑性,专门去学习医学影像中特有的语义与结构规律,例如「毛玻璃影」的弥散分布、内镜息肉与背景黏膜的微妙边界、视网膜血管的树状拓扑与连续走向。最终,这种「浅层稳住通用视觉、深层重塑医学语义」的迁移范式,推动模型完成了根本性跃迁:从过去高度依赖点 / 框等几何提示的交互式分割,转变为仅凭文本语义即可稳定分割的通用能力。

Medical SAM3 的强大并非只来自训练策略,更来自其构建的大规模、多模态训练底座。研究团队整合了覆盖 10 种成像模态的 33 个数据集,并通过统一的数据标准化与接口设计,使模型能够在 76,956 张高分辨率医学图像与 263,705 个精细掩膜上进行系统学习。尤其关键的是,Medical SAM3 采用了统一的 2D 高分辨率视角(Unified 2D Formulation):无论输入来自 3D CT/MRI 的切片,还是 2D 的眼底、内镜或显微图像,均被统一处理为 1008×1008 的高分辨率表示。这一设计带来两点直接收益:其一,它在工程上打通不同设备与模态的输入壁垒,降低跨域部署的不确定性;其二,它让模型获得更强的尺度一致性与细节表达能力 —— 从胸片中占据大面积的肺部轮廓,到电子显微镜下仅数十像素的细胞核边界,模型都能在同一框架下捕捉关键结构,形成真正「跨模态、跨尺度、跨任务」的统一分割能力。



从内部精通到外部泛化

为了系统验证模型的可靠性与可迁移性,团队构建了覆盖内部验证(in-domain)与外部测试(out-of-domain)的全面评估体系:前者检验模型在已覆盖医学分布上的稳定性与细节还原能力,后者则以「从未见过的数据集与模态」为压力测试,衡量其真实世界部署最关键的零样本泛化表现。

在内部验证环节,Medical SAM3 展现出对医学结构与边界细节的扎实掌握,平均 Dice 从 54.0% 提升至 77.0%。这一提升不仅意味着「更像」,更代表模型在像素级边界对齐、细小目标召回、低对比度组织分离等方面达到了更可靠的水平。尤其在视网膜血管分割这类典型「高难任务」中,原生模型常见问题是对细长结构缺乏连续性建模,容易出现断裂、漏检与噪点粘连;Medical SAM3 则显著改善了这一失败模式,将 Dice 从 24.8% 提升至 55.8%。更重要的是,提升并非只体现在分数上:模型不仅能「找到血管」,还能够更好地复原血管的连续走向、分叉拓扑与树状结构,这类结构完整性对后续临床分析(如血管密度、分支形态、病变区域关系)尤为关键。

在更为严苛的外部验证环节(测试从未见过的数据集),模型进一步体现出强大的零样本泛化能力。面对 7 个全新的外部数据集,Medical SAM3 将平均 Dice 从 11.9% 提升至 73.9%,IoU 从 8.0% 提升至 64.4%。这组结果的意义在于:外部测试通常伴随显著的分布偏移 —— 例如不同医院设备、采集协议、分辨率、噪声形态、病灶外观与标注风格差异 —— 许多模型在此类场景下会出现「性能断崖」。而 Medical SAM3 的提升幅度显示,它并非依赖某一类固定模态或固定提示形式,而是学习到了更通用的医学语义与结构先验。

更具说服力的是,在部分极端案例中表现出现了从「无法工作」到「可用级别」的质变:

  • 内镜息肉分割(CVC-Clinic):原生模型由于难以从复杂背景中理解「息肉」这一语义目标,Dice 仅 0.0%;Medical SAM3 则达到 87.9%,说明模型能够在反光、粘液、纹理干扰等情况下仍保持对目标语义的稳定聚焦。
  • 超声胎头测量(HC18):超声天然存在斑点噪声、边界模糊与组织对比度弱的问题,原生模型 Dice 为 23.9%;Medical SAM3 提升至 92.6%,体现其对低信噪比模态下轮廓结构的鲁棒提取能力。
  • ETIS-Larib:同样从 0.0% 跃升至 86.1%,进一步表明模型在外部域中不只是「略有改善」,而是显著降低了原生模型的完全失效概率。

综合内部与外部结果可以得出一个关键结论:Medical SAM3 能够在不依赖人工提示框辅助的情况下,仅通过文本提示驱动分割,在多模态、多数据分布下保持稳定表现。这意味着模型不仅「能分割」,更具备面向真实临床场景的核心能力:当标注成本高、交互提示受限或需要快速批量处理时,它仍能依靠医学语义理解与结构先验,提供一致、可复用、可迁移的分割输出。



未来展望:规模化与智能化

尽管目前的性能已经取得了显著进展,Medical SAM3 团队并未止步。为了进一步提升模型的实用性与智能水平,后续工作将主要集中在以下两个方向:

1. 数据规模与覆盖扩展: 团队计划持续扩充训练语料库,引入更丰富的分割数据,以增强跨域鲁棒性。同时重点补齐临床中的「长尾空白」,例如罕见病灶、小样本亚型、低资源模态以及更复杂的标注形态(多器官、多病灶、细长结构等)。通过更大规模、更多样化的数据「喂养」,进一步降低模型在真实世界场景中遇到分布偏移时的失效概率,让「给一个术语就能稳定分割」更接近可部署的可靠标准。

2. 迈向 Medical SAM3 Agent: 团队的目标不止于做一个分割模型,而是构建面向临床工作流的 Medical SAM3 Agent。通过集成大语言模型(LLMs),系统将具备更强的任务理解、步骤化推理与交互协作能力:例如把医生的自然语言需求拆解为可执行的分割子任务(目标、范围、优先级),在结果不确定时主动发起澄清提问,并把分割结果进一步组织为可读的结构化输出(位置、大小、数量、随访对比等),从而成为医生在阅片、测量与报告生成中的真正智能伙伴。

总结

Medical SAM3 的出现标志着医学 AI 助手从「交互式工具」向「语义智能体」的进化。它不再要求医生充当「画框工」,而是模拟了临床专家的认知过程 —— 先理解诊断术语,再主动在图像中搜索病灶。通过建立临床概念与像素级特征之间的直接映射,Medical SAM3 为未来「即插即用」的自动化医疗辅助系统奠定了坚实的基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
8000亿美元乌重建计划被搁置,“没人愿为特朗普的协议演政治秀”

8000亿美元乌重建计划被搁置,“没人愿为特朗普的协议演政治秀”

观察者网
2026-01-21 19:23:32
男子与女友发生性关系后不适,女友取消120自行送回家,男子4天后被发现死亡!家人起诉索赔

男子与女友发生性关系后不适,女友取消120自行送回家,男子4天后被发现死亡!家人起诉索赔

南国今报
2026-01-20 17:43:05
大结局要来?高市备好了退路,辞职条件已确定,中国73岁老将出山

大结局要来?高市备好了退路,辞职条件已确定,中国73岁老将出山

墨兰史书
2026-01-21 19:35:03
高中各科考试规律:数学满分150分,大部分人都是不及格状态!

高中各科考试规律:数学满分150分,大部分人都是不及格状态!

好爸育儿
2026-01-08 15:58:19
出大事了,F-35求救后失踪,搜救队发现重大秘密,美总统瞒不住了

出大事了,F-35求救后失踪,搜救队发现重大秘密,美总统瞒不住了

来科点谱
2026-01-21 08:59:50
反转再反转!贝克汉姆婚纱风波真相曝光,布鲁克林控诉被打脸,妮可拉谎言藏不住了

反转再反转!贝克汉姆婚纱风波真相曝光,布鲁克林控诉被打脸,妮可拉谎言藏不住了

科学发掘
2026-01-21 09:35:13
勇士官宣巴特勒赛季报销!本人将军照玩梗 不忘祝贺库里进全明星

勇士官宣巴特勒赛季报销!本人将军照玩梗 不忘祝贺库里进全明星

罗说NBA
2026-01-21 06:51:16
东体:邵佳一让国脚们尝试踢多个位置;本期不会再招U23国脚

东体:邵佳一让国脚们尝试踢多个位置;本期不会再招U23国脚

懂球帝
2026-01-21 15:25:16
梁小龙去世,原来这么多周星驰电影配角都已离我们而去

梁小龙去世,原来这么多周星驰电影配角都已离我们而去

新民周刊
2026-01-19 19:51:56
器官捐献纳入见义勇为评定范围,从而挽救更多患者的生命

器官捐献纳入见义勇为评定范围,从而挽救更多患者的生命

映射生活的身影
2026-01-21 11:37:12
如果没有元朝这次格式化,今天的中国,大概率是另一个分裂的欧洲

如果没有元朝这次格式化,今天的中国,大概率是另一个分裂的欧洲

老达子
2026-01-20 06:35:03
事态开始严重了

事态开始严重了

子说一点
2026-01-20 19:25:44
破防了!27岁“天坑”硕士找不到工作,回高中复读,学生成了同学

破防了!27岁“天坑”硕士找不到工作,回高中复读,学生成了同学

火山诗话
2026-01-19 06:17:04
河南大雪中的乡村宴席意外走红!端菜时雪花飘到菜上,网友笑称:真正的雪花牛肉

河南大雪中的乡村宴席意外走红!端菜时雪花飘到菜上,网友笑称:真正的雪花牛肉

河南交通广播1041
2026-01-21 08:54:12
理想回应汽车油箱选用不锈钢油箱的三大原因

理想回应汽车油箱选用不锈钢油箱的三大原因

凤凰网科技
2026-01-19 19:22:08
美前军官爆惊人预测:若格陵兰岛得手,特朗普下一个目标将是冰岛

美前军官爆惊人预测:若格陵兰岛得手,特朗普下一个目标将是冰岛

领略快乐真谛
2026-01-21 18:15:39
徐汇的房价泡沫有多大?

徐汇的房价泡沫有多大?

环线房产咨询
2026-01-21 12:08:20
拳王邹市明自爆破产,不止赔光2亿,其妻子参加婚礼耍酒疯

拳王邹市明自爆破产,不止赔光2亿,其妻子参加婚礼耍酒疯

科学发掘
2026-01-21 13:42:08
黄磊女儿黄多多有意进圈,脸是真的小,身材也是真的好,应该会爆

黄磊女儿黄多多有意进圈,脸是真的小,身材也是真的好,应该会爆

民间平哥
2026-01-18 21:36:22
1977年,万里从湖北书记降为副手,准备上任时,邓小平说了一句话

1977年,万里从湖北书记降为副手,准备上任时,邓小平说了一句话

万年历史老号
2026-01-20 05:40:03
2026-01-21 20:27:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1214文章数 223关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

32岁程序员周末晕倒后猝死 抢救期间还被拉入工作群

头条要闻

32岁程序员周末晕倒后猝死 抢救期间还被拉入工作群

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

手机
家居
本地
旅游
游戏

手机要闻

给苹果iPhone 17 Pro Max穿金甲,京东京造推出Au99.99黄金手机壳

家居要闻

褪去浮华 触达松弛与欣喜

本地新闻

云游辽宁|漫步千年小城晨昏,“康”复好心情

旅游要闻

免票!超值套票!伏羲山冰雪节全线优惠上线!

粉丝:比GTA6更好?《剑星2》最新概念图汇总

无障碍浏览 进入关怀版