网易首页 > 网易号 > 正文 申请入驻

36.4万超声图文对!中国团队构建首个大规模超声专属数据集

0
分享至

Ultrasound-CLIP团队 投稿
量子位 | 公众号 QbitAI

超声领域也有大模型了!

超声影像凭借实时、无辐射的优势,成为临床各场景的一线诊断手段。

但异质的解剖结构、多样的诊断属性,让通用视觉语言预训练模型难以直接适配,且现有医疗跨模态数据中超声样本占比不足5%,成为领域研究的核心瓶颈。

△超声图像统计数据跨越主要基准点的分布情况。



上图红色区域和内部百分比显示了超声图像所占的比例,而蓝色区域则展示了其余模态的占比情况。顶部标签表示绝对数量(以千为单位)。论文中所提出的US-365K是首个大规模、100%专用于超声影像的数据集。

针对这一问题,浙大城市学院联合浙江大学、香港城市大学、香港浸会大学、浙江大学医学院附属第一医院、浙江大学医学院附属妇产科医院等团队,构建了首个大规模通用超声图像-文本数据集US-365K,并提出专为超声场景设计的语义感知对比学习框架Ultrasound-CLIP,让模型真正理解超声的临床诊断语义,相关成果被CVPR 2026接收,数据集及代码已开源。



核心痛点:超声跨模态学习的三重障碍

现有视觉语言模型在超声领域的应用,始终面临三个关键问题:

1. 数据缺口显著:主流医疗跨模态数据集以CT、MRI等为主,超声样本占比极低,缺乏大规模、标准化的专属训练数据;

2. 语义模糊难对齐:超声诊断报告的表述多样,相同病变存在不同描述方式,传统对比学习难以精准界定正负样本,易产生语义偏差;

3. 缺乏临床结构先验:超声诊断依赖病灶与诊断属性的复杂关联,通用模型无法建模这类专业的临床推理逻辑,仅能实现简单的关键词匹配。

△UDT和Ultrasound-CLIP概述。



上图中(a) UDT作为语义基础,通过标准化解剖层次结构(UHAT)和定义9个关键诊断属性(UDAF)来形式化超声知识。(b) Ultrasound-CLIP利用UDT的方式有两种:(1)基于UDAF的异构图编码器通过交叉注意力将属性关系融合到文本嵌入中,以建模结构化推理。(2)构建基于UDAF的语义先验,以实现双目标优化,从而解决歧义。该框架将视觉特征与这些图增强的、语义感知的文本表示对齐。

为从根本上解决上述问题,研究团队立足超声临床诊断的专业逻辑,从标准化数据构建和定制化模型设计两大维度出发,打造全链路适配超声场景的跨模态学习体系,实现双重核心技术突破。

第一步:构建UDT知识框架,打造标准化US-365K数据集

团队率先建立超声诊断分类体系(UDT),为超声数据的标准化标注和模型学习确立统一的专业依据,该体系包含两大核心模块,实现超声诊断知识的结构化、形式化:

超声层级解剖分类(UHAT):按临床诊断原则,系统梳理9大人体系统、52个器官的层级解剖结构,明确各器官的层级归属与上下文关联,彻底解决不同数据源中解剖分类混乱的问题,实现超声解剖标注的标准化;

超声诊断属性框架(UDAF):凝练临床医生解读超声影像时核心关注的9大诊断维度,包括身体系统、器官、诊断结果、形状、边缘、回声性、内部特征、后方声学现象、血流信号,为每个维度定制临床有效描述词汇表,形成标准化的超声诊断描述体系。

△基于UHAT的US-365K解剖层次结构可视化。



基于UDT标准化框架,团队从5个国际权威医疗数据库收集体量超声数据,经多步骤精细化处理:先过滤非超声内容,将超声视频按0.5秒间隔分解为静态帧,平衡数据多样性与冗余性;再基于UDAF框架,通过大模型+结构化提示的混合流水线,提取标准化诊断标签;最后经医疗专家逐例审核、筛选,剔除模糊、不一致样本,最终构建出US-365K数据集。

该数据集包含36.4万对超声图像-文本样本、11676个临床真实病例,覆盖全解剖区域,是业内首个100%专属超声的大规模图文数据集,数据有效率超90%,填补了超声跨模态大规模标准化数据的行业空白,为超声AI研究奠定高质量数据基础。

第二步:提出Ultrasound-CLIP框架,实现超声语义的精准建模与对齐

针对超声场景的语义模糊和结构缺失难题,团队设计出Ultrasound-CLIP语义感知对比学习框架,在经典双编码器(图像+文本)基础上,创新融入UDAF引导的异质图编码器基于UDAF的语义软标签两大核心模块,并采用双目标优化策略,让模型具备超声领域的结构化临床推理能力,突破通用模型的局限:

(1)UDAF引导的异质图编码器,建模临床属性结构化关联

团队将每个超声样本的文本标注,转化为样本专属的异质图:基于UDAF框架定义诊断节点和属性节点两类核心节点,根据样本的标准化诊断标签确定激活节点集,并在诊断节点与属性节点间构建全二分连接,形成病灶-属性的关联图结构。

通过轻量级异质图神经网络(GNN)对异质图进行编码,得到包含节点关联信息的节点嵌入,再经注意力池化生成图汇总向量,最后通过多头交叉注意力将图嵌入与原始文本嵌入融合,并通过门控残差连接实现稳定融合,得到图增强的文本嵌入。这一过程让文本嵌入融入超声诊断标签与属性的结构化临床关联,突破单纯关键词匹配的局限,让模型能捕捉超声诊断的专业语义逻辑。

(2)基于UDAF的语义软标签,实现细粒度语义相似度度量

摒弃传统二进制硬标签,团队基于UDAF的9大诊断维度,构建连续语义相似度软标签:为每个诊断维度预定义标准化标签相似度矩阵,计算样本对在各维度的语义亲和力,再加权聚合得到样本对的整体语义先验相似度,形成B×B的软先验矩阵(B为批次大小),实现细粒度的语义重叠识别,解决超声诊断报告表述多样带来的语义模糊问题。

(3)双目标优化策略,实现跨模态精准对齐与语义正则化

框架采用对比损失+语义损失的双目标优化策略,让模型同时实现图像-文本跨模态精准对齐和语义特征的正则化:

对比损失(L(CLIP)):采用经典对称对比损失,最大化正样本对(图像-对应文本)的相似度,最小化负样本对的相似度,实现图像与文本的基础跨模态对齐;

语义损失(L(semantic)):融合均方误差(MSE)和KL散度,让模型预测的相似度矩阵与UDAF基语义软先验矩阵匹配,既实现相似度的数值匹配,又保证分布一致性,让语义相似的样本在特征空间中有效聚类。

通过双目标联合优化,模型既能实现超声图像与文本的精准跨模态对齐,又能精准捕捉超声诊断的细粒度语义特征,真正理解超声的临床语言。

实验验证:全任务性能领先,泛化能力适配多临床场景

团队以US-365K为基础,在多任务分类、图像-文本检索任务中开展实验,并在4个公开的超声下游数据集上验证模型泛化能力,结果显示Ultrasound-CLIP全面优于现有医疗CLIP基线模型:

多任务分类:平均准确率达59.61%,其中病灶边缘、诊断结果等核心临床属性的识别准确率分别达84.44%、64.05%,能精准捕捉超声诊断的关键信息。



图像-文本检索:图像到文本检索(I2T)@10达37.45%,文本到图像检索(T2I)@50达80.22%,实现超声图文的高效双向匹配。



下游泛化:在乳腺、胃肠超声等4个数据集的零样本、线性探测、全微调任务中均取得最优性能,可适配不同超声临床诊断场景。

资源开源:助力超声AI领域共同研究

为推动超声跨模态学习领域的发展,团队已将研究相关的代码和US-365K数据集公开,为后续研究者提供可直接复用的基础资源。

论文标题:
Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding
作者:
Jiayun Jin, Haolong Chai, Xueying Huang, Xiaoqing Guo, Zengwei Zheng, Zhan Zhou, Junmei Wang, Xinyu Wang, Jie Liu*, Binbin Zhou*
单位:
浙大城市学院、香港浸会大学、浙江大学、浙江大学医学院附属第一医院、浙江大学医学院附属妇产科医院、香港城市大学
发表:
CVPR 2026
arxiv论文地址:
http://arxiv.org/abs/2604.01749
项目地址:
https://github.com/ZJUDataIntelligence/Ultrasound-CLIP
数据集地址:
https://huggingface.co/datasets/JJY-0823/US-365K
作者简介:
本文第一作者为金佳云,浙大城市学院硕士生,研究方向为多模态大模型。本文在周斌彬副教授和刘洁博士的指导下完成。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苹果眼镜要掀翻两千亿美元眼镜市场?套路跟手表一样

苹果眼镜要掀翻两千亿美元眼镜市场?套路跟手表一样

薛定谔的BUG
2026-06-01 20:16:02
郑钦文进入WTA500伦敦站正赛 下周开启草地赛季

郑钦文进入WTA500伦敦站正赛 下周开启草地赛季

北青网-北京青年报
2026-06-02 12:46:02
我国最大遗憾!1994年将领土划给俄罗斯,如今还能再收回来吗?

我国最大遗憾!1994年将领土划给俄罗斯,如今还能再收回来吗?

凉州辞
2026-05-30 10:15:03
马刺尼克斯上一次打总决赛时,世界是这个样子

马刺尼克斯上一次打总决赛时,世界是这个样子

年代回忆
2026-05-31 12:36:23
网传上海高校教师“铁饭碗”松动:备案制编制到期可无理由不续聘

网传上海高校教师“铁饭碗”松动:备案制编制到期可无理由不续聘

番外行
2026-06-02 14:30:07
广西一市民反映路灯损坏却迟迟无人修,当地回复:管养单位申请破产,无可用资金与人力,无法维修

广西一市民反映路灯损坏却迟迟无人修,当地回复:管养单位申请破产,无可用资金与人力,无法维修

新浪财经
2026-06-02 11:31:25
9死76伤,泽连斯基放弃反击,基辅改口求和后,普京一句话浇凉水

9死76伤,泽连斯基放弃反击,基辅改口求和后,普京一句话浇凉水

面包夹知识
2026-06-02 15:24:48
蒋孝勇想把“两蒋”移灵大陆,后公开大怒说了两句话,让世人唏嘘

蒋孝勇想把“两蒋”移灵大陆,后公开大怒说了两句话,让世人唏嘘

文史季季红
2026-06-02 06:45:03
闪电再就业!斯洛特下课仅2天就获AC米兰邀约,伊劳拉此前已拒绝

闪电再就业!斯洛特下课仅2天就获AC米兰邀约,伊劳拉此前已拒绝

夜白侃球
2026-06-02 11:12:43
真的假的?签约李宁后,外媒传言库里将获得超10亿美元的收入

真的假的?签约李宁后,外媒传言库里将获得超10亿美元的收入

懂球帝
2026-06-02 14:37:11
曝黄蜂已经将迪亚巴特下赛季的合同转为全额保障

曝黄蜂已经将迪亚巴特下赛季的合同转为全额保障

北青网-北京青年报
2026-06-02 19:39:24
比永博:文班处理压力的方式非常出色 每个人都必须给予他支持

比永博:文班处理压力的方式非常出色 每个人都必须给予他支持

北青网-北京青年报
2026-06-02 19:38:15
一手毁掉春晚、逼走赵本山!定居美国的前导演哈文,现状太唏嘘

一手毁掉春晚、逼走赵本山!定居美国的前导演哈文,现状太唏嘘

小卓故事汇
2026-06-02 10:53:38
中国男子在柬埔寨遭绑架勒索遇害,当地警方称该案已立为蓄意谋杀案,正全力追捕涉案人员,使馆回应:正为家属提供协助

中国男子在柬埔寨遭绑架勒索遇害,当地警方称该案已立为蓄意谋杀案,正全力追捕涉案人员,使馆回应:正为家属提供协助

扬子晚报
2026-06-02 07:20:02
“榴莲仅退款”商家受死亡威胁!女孩哥哥扬言要灭门,已刑事立案

“榴莲仅退款”商家受死亡威胁!女孩哥哥扬言要灭门,已刑事立案

风月得自难寻
2026-05-30 21:04:17
2元/斤的便宜菜,花青素比蓝莓还高!拌一拌清新又开胃,护血管还清肠!

2元/斤的便宜菜,花青素比蓝莓还高!拌一拌清新又开胃,护血管还清肠!

下厨房
2026-05-01 13:20:54
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
73岁政商大佬娶32岁粤剧花旦,相差41岁还曾是好友女儿?

73岁政商大佬娶32岁粤剧花旦,相差41岁还曾是好友女儿?

石辰搞笑日常
2026-06-02 17:32:13
张嘉译在央视火了,杜珺在西安遛狗,两人二十年没交集。

张嘉译在央视火了,杜珺在西安遛狗,两人二十年没交集。

TVB的四小花
2026-06-02 17:58:53
窦骁妈妈惊现神级气质!对比何超莲妈妈,网友:婆婆赢在了骨相里

窦骁妈妈惊现神级气质!对比何超莲妈妈,网友:婆婆赢在了骨相里

一盅情怀
2026-05-31 14:49:21
2026-06-02 20:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12728文章数 176476关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

小学教师疑因打井纠纷杀害邻居 死者留下两未成年儿子

头条要闻

小学教师疑因打井纠纷杀害邻居 死者留下两未成年儿子

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

艺术
本地
旅游
公开课
军事航空

艺术要闻

周杰伦花 1.36 亿拍下这幅画

本地新闻

用剪纸的方式,打开江苏扬州

旅游要闻

高德与新加坡旅游局战略合作,飞行街景技术首次落地海外

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版