西蒙菲莎大学发布：1.7万图像皮肤病变数据集训练AI诊断|算法|元数据

分享至

这项由加拿大西蒙菲莎大学计算科学学院医学图像分析实验室的Kumar Abhishek、匈牙利AIP实验室的Jeremy Kawahara，以及西蒙菲莎大学的Ghassan Hamarneh共同完成的研究，发表于2025年12月25日的arXiv预印本论文库，论文编号为arXiv:2512.21472v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

你可能从未想过，当医生用特殊的放大镜检查你皮肤上的痣或斑点时，他们面临着一个巨大的挑战。就像不同的人用不同的方式描述同一幅画一样，不同的医生在标记皮肤病变边界时也会有不同的意见。这种差异看似微小，却可能影响到疾病诊断的准确性。

想象一下，如果你让五个艺术老师分别勾画出蒙娜丽莎脸部的轮廓，即使他们看的是同一幅画，画出的线条也不会完全相同。有的老师可能会画得更贴近脸颊，有的可能会包含更多的背景。医生在标记皮肤病变时也面临着同样的情况，这种现象在医学界被称为"多标注者变异性"。

皮肤癌是全球最常见的癌症类型，2022年就有150万新增病例。其中最危险的黑色素瘤每10到20年发病率就会翻一番，这让全球医疗系统承受着巨大压力。与此同时，皮肤科医生与患者的比例却在下降，这就像交通越来越拥堵，但交通警察却越来越少一样。

在这种背景下，人工智能辅助诊断显得尤为重要。就像训练一个新手医生需要大量病例一样，训练AI系统也需要海量的标注数据。但这里有个问题：现有的皮肤病变数据集就像只有一个老师批改的作业本，缺乏不同专家意见的对比。这种单一视角限制了AI学习的深度和准确性。

研究团队发现了一个关键问题：目前公开可用的皮肤病变分割数据集几乎都只提供每张图像的单一标注结果。这就好比学习绘画只看一个老师的作品，缺乏多元化的视角。虽然有一个名为ISIC 2019-Seg的数据集包含多个标注者的意见，但它只有100张图像，就像用一本薄薄的练习册来训练整个医学院的学生一样，远远不够用。

为了解决这个问题，研究团队决定创建一个真正大规模的多标注者皮肤病变分割数据集。他们将其命名为IMA++，这个数据集包含了14967张皮肤镜图像和17684个分割标注，规模之大前所未有。更重要的是，其中2394张图像拥有2到5个不同的标注版本，就像同一道菜有多个厨师分别烹饪，让我们能够了解不同"厨师"的不同理解和技法。

一、构建医学AI的"百科全书"

创建这个数据集就像编撰一本医学百科全书，需要收集来自世界各地的专业知识。研究团队从ISIC档案库着手，这个库就像医学图像的"国家图书馆"，收藏着超过120万张皮肤图像。

数据收集过程颇具挑战性。原本可以通过ISIC的程序接口自动下载数据，就像用图书馆的检索系统查找资料一样方便。但随着系统更新，新版接口不再提供分割标注的下载功能，这就像图书馆突然取消了某些资料的借阅权限。研究团队不得不通过多种渠道收集之前下载的标注数据，并联系相关机构获取元数据信息。

在数据质量控制方面，研究团队采用了严格的筛选标准。他们检查了空白标注、覆盖整个图像的标注，以及触及图像边界的标注，就像质检员检查产品缺陷一样仔细。最终，他们移除了59个空白标注和59个缺失元数据的图像，确保数据集的完整性和可用性。

数据处理过程就像整理一个巨大的档案室。研究团队为每个影响标注变异性的因素分配了唯一标识符。16个标注者被按照工作量从大到小编号为A00到A15，就像给工厂里的工人编号一样。三种标注工具也有了明确分类：T1代表专家手工多边形描绘，就像画家用画笔精细勾勒；T2代表半自动填充工具，像是用智能画笔辅助绘制；T3代表全自动分割后经专家审核，类似于用AI生成草图再由专家修改。

技能水平分为两档：S1代表专家级别，S2代表新手级别，这种分类就像驾驶执照分为不同等级一样。为了防止数据传输过程中的损坏，研究团队还为每个标注文件计算了MD5哈希值，这就像给每个文件贴上独特的"指纹"，确保数据完整性。

二、揭示标注背后的"秘密"

当深入分析这个庞大数据集时，就像考古学家发现了一座古城，每一个细节都透露着有趣的信息。数据分布呈现出明显的长尾特征，就像财富分布一样极不均匀。

在14967张图像中，大部分（12573张）只有一个标注版本，就像大多数书只有一个版本一样。但剩下的2394张图像却拥有多个标注版本，其中2130张有两个版本，209张有三个版本，51张有四个版本，只有4张拥有五个不同的标注版本。这种分布模式反映了真实医疗环境中的标注实践：并非所有病例都需要多方会诊。

标注者的工作量分布同样呈现长尾特征。前六名标注者（占总数37.5%）完成了约78%的标注工作，这就像帕累托定律在医学标注中的体现。标注者A00最为勤奋，完成了3437个标注，而标注者A14和A15各自只完成了1个标注。这种差异反映了现实医疗机构中专家参与程度的不同。

工具使用方面也很有意思。手工多边形描绘（T1）和专家审核的全自动分割（T3）各占约40%，而半自动填充工具（T2）只占约19%。这说明在精确标注要求较高的医学影像领域，完全依赖自动化工具还不够成熟，人工参与仍然不可或缺。

技能水平分布显示，约70%的标注由专家级别（S1）完成，30%由新手级别（S2）完成。这个比例相对合理，既保证了整体质量，又提供了不同技能水平间的对比数据。

三、多样化视角的价值发现

为了更好地理解多标注者之间的差异，研究团队采用了两种主要的一致性度量方法：Dice系数和豪斯多夫距离。前者就像测量两个圆形重叠面积的比例，后者则像测量两个轮廓之间的最大距离。

令人意外的是，即使是同一位标注者在不同时间标注相同类型的病变时，也会出现不一致的情况。这就像同一个厨师在不同日子做同一道菜，味道也可能略有不同。某些标注者表现出较低的内部一致性，这可能反映了他们在标注过程中标准的变化或者对边界判断的不确定性。

更有趣的是，一些看似应该配合良好的标注者组合实际上差异很大，而一些意料之外的组合却表现出高度一致性。这种现象在医学实践中很常见，有时候资历相当的医生反而意见分歧更大，因为他们各自有着不同的临床经验和判断倾向。

标注工具之间的差异也很明显。手工多边形描绘（T1）和专家审核的全自动分割（T3）显示出相对较高的一致性，这说明专家的参与能够在很大程度上统一标注质量。而半自动填充工具（T2）与其他工具的一致性较低，这可能是因为这种工具更依赖于算法参数设置，容易产生系统性偏差。

专家级别（S1）和新手级别（S2）之间的差异并不如预期那样明显，这个发现颇为有趣。这可能说明在标注任务的训练阶段，新手已经接受了相对充分的培训，或者某些病例的边界相对明确，不同技能水平的标注者都能达到相似的结果。

四、极端案例的深度剖析

在整个数据集中，研究团队发现了23张图像的多个标注之间完全没有重叠，就像不同的人看同一朵云却描述出完全不同的形状。这些极端案例为理解标注分歧的根源提供了宝贵线索。

这些零重叠案例通常出现在边界极其模糊的病变中，就像试图在雾蒙蒙的天气中辨识远山的轮廓一样困难。有些病变与周围正常皮肤的颜色差异极其微小，有些则因为毛发、反光或其他伪影的干扰而变得难以准确界定。

更有意思的是，这些极端分歧案例可能蕴含着重要的临床信息。研究发现，标注一致性较低的图像往往对应着恶性病变的比例更高。这就像经验丰富的医生在面对可疑病例时会更加谨慎，不同的临床经验和风险评估倾向导致了标注边界的差异。

这一发现对临床实践具有重要意义。当多个专家对同一个病变的边界存在较大分歧时，这本身就可能是一个预警信号，提示需要更仔细的检查或更保守的治疗方案。

五、共识算法的智慧融合

面对多个不同的标注版本，如何生成一个"最佳"的共识标注就像组织专家会诊达成统一意见一样重要。研究团队采用了两种经典的共识算法：多数投票和STAPLE算法。

多数投票方法就像民主选举，每个像素位置由多数标注者的意见决定。如果三个标注者中有两个认为某个像素属于病变区域，那么最终的共识标注就会将这个像素标记为病变。这种方法简单直观，但可能会忽略少数专家的独特见解。

STAPLE算法则更加精巧，它不仅考虑多数意见，还会评估每个标注者的整体表现，给表现更好的标注者分配更高的权重。这就像在专家小组中，给经验更丰富、准确率更高的专家更多的发言权。算法会同时估计真实的分割结果和每个标注者的性能水平，通过迭代优化达到最佳平衡。

有趣的是，即使是这两种共识算法生成的结果之间也存在差异，这说明即使在算法层面，对于"最佳答案"的定义也不是绝对的。这种现象提醒我们，在医学图像分析中，可能不存在唯一的"正确答案"，而是需要在不同的临床需求和风险承受度之间找到平衡。

六、数据分割的巧思设计

为了确保研究结果的可靠性和可比较性，研究团队精心设计了数据分割策略。这就像组织一场公平的考试，需要确保训练集、验证集和测试集之间的平衡性和代表性。

他们采用了两个关键的分层标准。第一个标准是每张图像的标注数量，确保拥有不同标注数量的图像在各个数据集中的比例保持一致。这就像确保每个班级中不同水平的学生比例相似一样。

第二个标准更加巧妙，基于标注者间一致性水平进行分层。研究团队将图像按照标注一致性分为高、中、低三个等级，然后确保这三个等级在训练、验证和测试集中的分布保持一致。这种做法确保了模型在训练过程中能够接触到各种难度级别的样本，提高了最终模型的泛化能力。

这种精心设计的数据分割策略为后续的机器学习研究奠定了坚实基础。研究人员可以在相同的基准上比较不同算法的性能，就像在标准化的赛道上比较不同赛车的速度一样公平可靠。

七、元数据的丰富宝藏

除了图像和标注数据，IMA++数据集还包含了丰富的元数据信息，就像每件文物都配有详细的说明卡片一样。这些元数据为多模态和多任务的机器学习研究开辟了新的可能性。

患者相关的元数据包括年龄、性别、病变位置等基本信息，以及更详细的临床信息，比如诊断确认方式、是否同时进行活检、黑色素瘤厚度等。这就像为每个病例建立了完整的医疗档案，让AI系统不仅能看到图像，还能了解完整的临床背景。

标注相关的元数据则记录了每个标注的"出生证明"：谁进行了标注、使用了什么工具、审核者的技能水平如何。这种详细的记录使得研究人员能够分析不同因素对标注质量的影响，就像分析不同因素对产品质量的影响一样。

文件完整性信息包括每个标注文件的MD5哈希值，确保数据在传输和存储过程中没有损坏。这就像给每个包裹贴上防伪标签，保证数据的可靠性。

八、与现有数据集的对比分析

为了更好地理解IMA++在整个皮肤病变研究领域中的地位，研究团队进行了全面的对比分析。这就像制作一张详细的地图，标出所有重要的地标建筑。

现有的皮肤病变分割数据集大多规模较小，从最小的PH2数据集的200张图像到最大的HAM10000数据集的10015张图像不等。虽然HAM10000在规模上相当可观，但它只提供每张图像的单一标注版本，缺乏多标注者的视角对比。

唯一的多标注者数据集ISIC 2019-Seg虽然在理念上与IMA++相似，但规模太小，只有100张图像和300个标注。这就像用一个小样本来代表整个群体，统计学意义有限。

IMA++不仅在总体规模上远超现有数据集，更重要的是它在多标注者数据的丰富度上实现了质的飞跃。14967张图像中有2394张拥有多个标注版本，这个数字是ISIC 2019-Seg的近24倍。这种规模差异不仅是数量上的提升，更代表了研究可能性的指数级增长。

通过重叠分析发现，IMA++中约74%的图像是全新的，没有出现在之前的ISIC挑战赛数据集中。这意味着研究团队不是简单地重新包装现有数据，而是实实在在地扩展了可用的研究资源。

九、技术实现的细节考量

在技术实现层面，研究团队展现了对细节的极致关注。所有的数据处理和分析都在Ubuntu 22.04工作站上完成，配置了Intel i9-14900K处理器、64GB内存和NVIDIA RTX 4090显卡，这样的配置确保了数据处理的高效性。

软件环境的选择也很讲究。研究团队使用Python 3.10.19作为主要开发语言，配合了十多个专业的科学计算和医学图像处理库，包括用于医学图像处理的medpy、用于图像处理的scikit-image、用于一致性分析的simpleitk等。这就像组装一个专业的工具箱，每个工具都有其特定的用途。

数据存储格式也经过了精心设计。所有的分割标注都以PNG格式存储在一个扁平的目录结构中，文件名包含了所有必要的元数据信息。这种设计既保证了数据的可读性，也便于自动化处理和分析。

为了确保研究的可重复性，团队将所有的数据处理、验证和分析代码都公开在GitHub上。这种开放的态度不仅有利于学术交流，也为其他研究人员提供了宝贵的参考资源。

这项研究的意义远远超出了数据集本身。它为皮肤病变分析领域的多个重要方向奠定了基础：多标注者分割偏好建模、多专家分割共识建模、分割分布学习、标注风格发现等。更重要的是，它提供了一个真实反映临床实践的标注场景，其中不是每张图像都由所有标注者标注，而是形成了不完整的二部图结构，这更接近实际的医疗环境。

随着人工智能在医疗领域的应用越来越广泛，像IMA++这样的高质量多标注者数据集将成为推动技术进步的重要资源。它不仅能帮助开发更准确的皮肤病变分析算法，还能让我们更好地理解和量化医学诊断中的不确定性，最终为患者提供更好的医疗服务。

说到底，这项研究展示了医学AI发展的一个重要方向：不是简单地追求单一的"正确答案"，而是学会处理和利用专家意见的多样性。就像真实的医疗实践中，最好的诊断往往来自多个专家的综合判断一样，未来的AI系统也需要学会从多元化的视角中汲取智慧。

这个数据集的发布，标志着皮肤病变AI研究进入了一个新的阶段。研究人员现在有了足够大规模和足够丰富的数据资源，可以探索那些之前因为数据不足而无法研究的重要问题。归根结底，这不仅是技术的进步，更是向着更准确、更可靠的医学AI诊断迈出的重要一步。

Q&A

Q1：IMA++数据集相比其他皮肤病变数据集有什么特别之处？

A：IMA++是目前最大的多标注者皮肤病变分割数据集，包含14967张皮肤镜图像和17684个标注，其中2394张图像有多个不同专家的标注版本。与现有数据集不同，它不仅规模庞大，还提供了不同标注者、不同工具、不同技能水平的丰富标注信息，更真实地反映了临床实践中的多样性。

Q2：为什么需要多个医生标注同一张皮肤病变图像？

A：就像不同画家描绘同一风景会有不同笔触一样，不同医生在标记皮肤病变边界时也会有差异。这种差异不是错误，而是反映了医学诊断中的固有不确定性。研究发现，标注一致性较低的图像往往对应更高的恶性病变比例，多标注者的分歧本身就可能是重要的临床预警信号。

Q3：普通人如何从这项研究中受益？

A：这个数据集将帮助开发更准确的皮肤癌AI诊断系统。未来的AI工具不仅能检测皮肤病变，还能量化诊断的不确定性，告诉你"这个结果有多可靠"。随着皮肤科医生短缺问题加剧，这种AI辅助诊断工具可以让更多人及时获得专业的皮肤病变评估，特别是在医疗资源匮乏的地区。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.