文章来源:我爱计算机视觉(ID:aicvml)
最近,多模态大模型在图像编辑领域的能力真是让人眼前一亮,但在严肃的医疗领域,这阵风却刮得有些小心翼翼。原因无他,主要是因为缺少一个大规模、高质量、而且专门为医学图像编辑量身打造的公开数据集。今天,就和大家聊一篇来自新加坡国立大学的新工作,他们推出了一个名为Med-Banana-50K的数据集,希望能为这个领域添一把火。
![]()
论文标题 : Med-Banana-50K: A Cross-modality Large-Scale Dataset for Text-guided Medical Image Editing
作者 : Zhihui Chen, Mengling Feng
机构 : 新加坡国立大学
论文地址 : https://arxiv.org/abs/2511.00801
项目主页 : https://github.com/richardChenzhihui/med-banana-50k
简单来说,Med-Banana-50K 是一个专门用于指导模型进行医学图像编辑的大型数据集。它的名字听起来可能有点可爱,但内容却非常硬核。
数据集构成
这个数据集的规模和多样性都相当可观:
规模 : 包含约 5万张 图像。
多样性 : 覆盖了 3种关键的医学影像模态 (胸部X光、脑部MRI、眼底摄影)和 23种不同的疾病类型 。
任务 : 编辑任务是双向的,包括“添加病变”和“移除病变”。
上表清晰地展示了数据集在不同模态和任务上的分布情况,以及生成这些数据时的成功率。可以看到,研究者们为了构建这个数据集付出了巨大的努力。
创新的数据构建流程
那么,如此高质量的数据集是如何诞生的呢?研究者设计了一套相当精巧的流程。
![]()
整个流程可以分为四步:
指令生成 : 首先,为真实的医学图像生成编辑指令,比如“在左肺上叶区域添加一个结节”。
单步编辑 : 利用强大的 Gemini-2.5-Flash-Image 模型,根据指令对图像进行初步编辑。
LLM-as-Judge评估 : 这是最关键的一步。研究者让另一个大语言模型扮演“法官”的角色,从多个维度对编辑结果进行严格评估。
历史感知迭代精炼 : 如果“法官”认为编辑结果不合格,系统会记录下失败的原因,并在下一轮编辑中进行修正。这个过程最多可以迭代五轮,直到生成满意的结果。
在医学领域,图像的准确性至关重要。CV君认为,这项工作最值得称道的地方,就是其系统性的医学质量控制方法。
LLM-as-Judge:AI医生来把关
“法官”模型会根据一个专门设计的、具有医学背景的评分标准来打分,主要包括四个维度:
指令符合性 (Instruction Compliance) : 编辑是否严格遵循了文本指令?
结构合理性 (Structural Plausibility) : 编辑后的解剖结构是否还合理?有没有出现反常识的错误?
真实感 (Realism) : 编辑出的病变或修复后的区域看起来真实吗?
保真性 (Fidelity Preservation) : 除了编辑区域,图像的其他部分是否保持了原样?
从上表的评估通过率可以看出,这个标准相当严苛。例如,在“结构合理性”上,有接近10%的编辑尝试会失败,常见的失败原因包括病变位置错误、形状不规则等。正是这种严苛的筛选,保证了最终数据集的高质量。
数据集亮点与价值 不仅仅是成功案例
除了成功的编辑案例,该数据集还有一个非常独特的亮点:它包含了多达 3.7万次失败的尝试 以及完整的对话日志。这些“反面教材”对于研究模型的偏好学习(Preference Learning)和对齐(Alignment)至关重要,能帮助我们更好地理解和控制模型的行为,避免它们在关键的医疗任务上“自由发挥”。
丰富的编辑实例
下面是一些数据集中跨模态和任务的代表性编辑结果,可以直观地感受到这个数据集的质量和多样性。
![]()
总的来说,Med-Banana-50K不仅仅是一个数据集,它更为下一代医学图像编辑模型的训练和评估建立了一个坚实的基础。作者已经将数据集和代码完全公开,鼓励大家去探索和使用。
数据链接:https://github.com/richardChenzhihui/med-banana-50k
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.