网易首页 > 网易号 > 正文 申请入驻

OBIA:900+ 患者、193w+ 影像,中科院基因组所发布我国首个生物影像共享数据库

0
分享至

作者 | 铁塔

编辑 | 三羊、雪菜

看病就医,拍片已是常例。CT、核磁、X 光等影像资料可以用非侵入式手段透过人体,使内部器官、组织状况清晰可见,为临床诊断和疾病治疗提供可靠依据。

随着医学影像技术广泛发展,影像资料已占据国内医疗数据的 80% 以上,影像科医生供不应求、各级医院诊断结果存在差异、医疗资源分配不均等痛点也日益凸显。

AI 结合医学影像具有非常大的想象空间,感觉认知及深度学习技术在识别医疗影像诊断结果方面拥有人类无可比拟的优势,可辅助医生降低误诊率、提高工作效率。

然而,高质量的 AI 算法需要足够大且有代表性的图像数据集,这些医疗图像又往往涉及大量敏感隐私信息,加上各级医院之间存在「数据孤岛」,不完整的共享系统使得医疗影像 AI 的可用资源有限。

全球已有不少国家建设了各类医学影像数据共享数据库,我国在此领域同国际社会仍有差距,为推动高质量的医学生物影像数据共享,中科院基因组所(中国国家生物信息中心)建立了开放生物医学成像档案 (OBIA)。

作为国内首个开放的生物医学成像数据和相关临床数据存储库,OBIA 对全球医疗从业者及相关学者免费开放。相关成果预印版已于 2023 年 9 月 25 日发表在 「bioRxiv」。

论文链接:

https://www.nature.com/articles/s42256-023-00704-7

OBIA 数据库建设及实施过程

作为中国国家生物信息中心的核心数据库资源,OBIA 接受来自世界各地的图像提交并提供所有公开数据的免费开放访问,它支持对影像数据的去标识化 (de-identification)、管理和质量控制 (quality control),提供浏览、检索和下载等数据服务,可促进现有图像数据和临床数据的重复利用。

OBIA 采用 5 种数据对象 (Collection, Individual, Study, Series, Image) 进行数据组织,接受多模态、多器官、多疾病的生物医学图像提交。

为保护个人隐私,OBIA 制定了统一的去标识化和质量控制流程,并为数据提交、浏览和检索以及图像检索,提供直观友好的 Web 界面。总体来讲,OBIA 为国内生物医学成像数据管理提供了一个可靠的平台,有助于支持全球生物医学研究。

图 1:OBIA 访问界面

访问地址: https://ngdc.cncb.ac.cn/obia

实现细节:图像检索

深度神经网络擅长提取优势特征,可用于检索人体各器官的多模态医学图像,并在小样本情况下提高排序性能。与传统方法相比,基于深度学习的方法如尺度不变特征转换 (SIFT)、局部二值模式 (LBP) 和定向梯度直方图 (HOG) 能够表现出更好的性能。

在 OBIA,研究人员以癌症影像数据库 TCIA 的多模态癌症数据为基础,将 EfficientNet 用作特征提取器,使用三元组网络和注意力模块 (attention module) 来训练模型,并将图像压缩为离散哈希值 (图 2)。随后,为加快推理性能并减少推理延迟,训练好的模型被转换为 TensorRT 格式,使用 Faiss 存储哈希码。

研究人员利用汉明距离 (Hamming distance) 计算图像相似度,并返回最相似的图像,结果表明,该模型的平均精度 (MAP) 值超过了 TCIA 数据集上现有高级图像检索模型的性能。

图 2:基于注意力和层融合模块的深度三元组哈希

该模型以 EfficientNet-B6 为主网络,利用 Block5 中的 CBAM 注意模块获取特征映射。在全连接层中采用层融合,利用焦点损失和三元组损失生成哈希码和类嵌入。

注:

● CBAM:convolutional block attention module,卷积块注意力模块

● EfficientNet:Google 于 2019 年提出的新型 CNN 网络,具备极高的参数效率和速度,在图片分类领域表现优异

● Faiss:Facebook 人工智能研究院开发的高性能相似性搜索库,通常用于深度学习

数据库内容及使用:数据模型

如图 3 所示,OBIA 中的成像数据分为 5 种对象类型:Collection, Individual, Study, Series, Image,分别指:

• Collections:以「OBIA」为前缀,提供完整提交的总体描述;

• Individual:登记编号以「 I 」为前缀,定义接受或登记接受医疗保健服务的人类或非人类生物体特征;

• Study:采用以「S」为前缀的登录号,包含对个人进行放射检查的描述性信息;

• Series:研究可以根据不同的逻辑(如身体部位或方向)分成一个或多个 Series;

• Image:描述单个 DICOM 文件(Digital Imaging and Communications in Medicine,医学数字成像和通信)的像素数据,Image 与单个 Study 中的单个 Series 相关。

注:DICOM 是一种广泛应用于医学影像领域的国际标准,定义了一套存储、传输、共享和打印医学影像数据的规范和协议,使不同厂商生产的医学设备和软件之间可以相互兼容和交流。

图 3:OBIA 数据模型

基于这些标准化的数据对象,OBIA 将 DICOM 标准定义的图像结构与实际研究项目连接起来,实现了数据的共享和交换。

此外,OBIA中的每个 Collections 都链接到 BioProject 以提供有关研究项目的描述性元数据;

如若可行,OBIA 的 Individual 可通过 Individual 登录号与 GSA-Human 相关联,后者将成像数据与基因组数据联系起来,供研究人员进行多组学分析。

BioProject 链接地址:

https://ngdc.cncb.ac.cn/bioproject/

GSA-Human 链接地址:

https://ngdc.cncb.ac.cn/gsa-human/

数据库内容及使用:去标识化和质量控制

生物医疗图像可能包含受保护的健康信息 (PHI,Protected Health Information),需要经过适当处理以尽量降低侵犯个人隐私的风险。为了在删除 PHI 的同时尽可能多地保留有价值的科学信息,OBIA 提供了一个符合 DICOM 标准的去标识化和质量控制机制 (图 4)。

图 4:OBIA 去标识化和质量控制机制

OBIA 利用北美放射学会 (RSNA) 的 MIRC 临床试验处理器 (CTP) 进行大部分去标识化工作:

• 对于标准标记 (standared tags),研究人员构建了一个 CTP ,并开发了一个通用的基础去标识化脚本,用于删除或隐去某些包含或可能包含 PHI 的标准标记;

• 对于私有标记 (private tags),使用 PyDicom 进行处理,保留其纯数字属性。

去标识过程结束后,OBIA 开始运行质量控制程序:

• 有问题的图像:隔离图像,提交者可以提供相关信息对图像进行修复或完全抛弃(该类图像是指带有空白标题或缺少患者 ID、损坏、混合了其他患者图像等类型的图像);

• 重复的图像:只保留一个。

随后 OBIA 使用 TagSniffer 为所有图像生成一个报告,报告中所有 DICOM 元素都经过仔细审查,以确保它们不包含 PHI,并且某些值(例如患者 ID、研究日期)按照预期进行修改。

此外,OBIA 工作人员还会对图像像素执行目视检查,以确保像素值中没有包含 PHI,并且图像是可见和未损坏的。

数据库内容及使用:数据统计

截至 2023 年 9 月,OBIA 共收集了 937 个「Individual」、4,136 个「Study」、24,701 个「Series」和 1,938,309 张「Image」,涵盖 9 种模态和 30 个解剖部位。

具有代表性的成像模态包括 X 射线计算机断层成像 (CT)、磁共振 (MR) 和数字 X 线摄影 (DX),解剖部位包括腹部、胸部、胸部、头部、肝脏、骨盆等。

第 1 批提交给 OBIA 的资料来自 301 医院,包括 3 种主要妇科肿瘤(子宫内膜癌、卵巢癌和宫颈癌)的影像数据。

如表 1 所示,这些数据被划进 4 个「Collections」,列示了「Individual」数量、「Study」数量、「Series」数量和「Image」数量。此外,OBIA 还收集了相关临床元数据,如人口统计学数据、病史、家族史、诊断、病理类型和治疗方法等。

表 1:第 1 批提交给 OBIA 的资料

打破数据藩篱

国内外构建医疗数据共享平台

数据只有在流通中才会产生价值,为提升生物影像数据共享水平,全球不少国家致力于开放医疗数据库的建设:

• 美国国立卫生研究院 (NIH):赞助了若干知识库,如新冠肺炎相关医学影像和数据的开放获取平台 MIDRC,收集神经和脑成像的 IDA, NITRC-IR, FITBIR, OpenNeuro 和 NDA,癌症影像数据库 TCIA 和 IDC(其中 TCIA 在本地提供图像,IDC 在癌症研究数据共享云环境中提供图像);

• 英国癌症研究中心 (cancer Research UK):赞助了 OPTIMAM 乳房 X 线摄影图像数据库 (OMI-DB);

• 葡萄牙波尔图大学 (University of Porto):赞助了乳腺癌数字存储库 (BCDR),提供带注释的乳腺癌图像和临床细节;

以上存储库中,除了 NITRC-IR 和 IDC,其他大多数都支持数据去标识化和质量控制。此外,一些大学或机构也提供开源数据集,如 OASIS, EchoNet-Dynamic, CAMUS project 等。

图 5:MIDRC 数据库内一位 79 岁患者的胸部 CT

在国内,华中科技大学提供了 COVID-19 的整合 CT 图像和 CFs 的开放资源,包括肺炎(含新冠肺炎)患者的 CT 图像和临床特征,但仅限于单一疾病,可用研究资源有限,因此目前国内仍然缺乏专门存储和接受各种疾病及模态资料提交的数据库。

中科院基因组建立的 OBIA 填补了国内生物医疗影像数据开放共享的空白,方便不同机构的研究人员共享临床相关成像数据,可有效弥合中国在生物医学成像数据库领域的差距。

研究人员在论文中表示,未来将持续升级 OBIA 的基础设施,加大安全防护措施,同时将收集更多类型生物医学影像数据,扩大数据源,多措并举不断向「保留尽可能多的有效图像元数据,为科研人员提供高质量的成像数据」的目标迈进。

租!GPU云资源

新上线一批A100/A800

运营商机房,服务有保障

扫码了解详情☝

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
墙倒众人扶,没想到,曾被人民日报点名表扬的李维刚,如今更牛了

墙倒众人扶,没想到,曾被人民日报点名表扬的李维刚,如今更牛了

趣文说娱
2026-06-17 21:27:16
Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

Hermes新功能上线!比Opus 4.8和GPT-5.5还猛

智东西
2026-06-30 22:36:12
稳定输出,厄德高是史上第三位前三场世界杯都送出助攻的球员

稳定输出,厄德高是史上第三位前三场世界杯都送出助攻的球员

懂球帝
2026-07-01 02:14:07
丈夫两个月回家一次,折腾到凌晨才睡,妻子:心里没怨气...

丈夫两个月回家一次,折腾到凌晨才睡,妻子:心里没怨气...

荷兰豆爱健康
2026-06-30 19:37:14
伊朗:超30国官员拟出席已故最高领袖哈梅内伊悼念活动,为保障活动举行,将在部分地区实施临时公共假期安排

伊朗:超30国官员拟出席已故最高领袖哈梅内伊悼念活动,为保障活动举行,将在部分地区实施临时公共假期安排

极目新闻
2026-06-30 22:01:14
摩根士丹利将2027年布伦特原油价格预期从每桶80美元下调至上半年的75美元以及下半年的70美元

摩根士丹利将2027年布伦特原油价格预期从每桶80美元下调至上半年的75美元以及下半年的70美元

财联社
2026-06-30 14:11:01
董明珠现场喊话股东:家电不改为格力,凭什么分红?

董明珠现场喊话股东:家电不改为格力,凭什么分红?

第一财经资讯
2026-06-30 23:27:06
解放军首次官宣六代机,美军绝望,中国六代机歼36离服役不远了!

解放军首次官宣六代机,美军绝望,中国六代机歼36离服役不远了!

胖福的小木屋
2026-06-30 23:32:12
渔民被台扣10天拒不放人!大陆不再忍让,4大反制将雷霆落地

渔民被台扣10天拒不放人!大陆不再忍让,4大反制将雷霆落地

史智文道
2026-06-30 11:38:16
谢林汉姆:曼联无需为错失M费懊恼,他的实力完全配不上曼联

谢林汉姆:曼联无需为错失M费懊恼,他的实力完全配不上曼联

懂球帝
2026-07-01 04:55:08
民心所向!四川航空发布,7月底全部回迁双流,终于不用再跑天府了

民心所向!四川航空发布,7月底全部回迁双流,终于不用再跑天府了

原广工业
2026-06-30 13:34:38
陈龙拔牙等装假牙,拄拐头发还花白,看着哪像不到50的人

陈龙拔牙等装假牙,拄拐头发还花白,看着哪像不到50的人

眼底星碎
2026-06-30 12:50:39
岚图卢放问“广告法为啥对这几个人没效呢”,这几个人到底是谁?

岚图卢放问“广告法为啥对这几个人没效呢”,这几个人到底是谁?

电科技网
2026-06-30 23:50:24
我穿的过分吗?不喜欢,下次别约了

我穿的过分吗?不喜欢,下次别约了

梅梅聊点实尚嗑
2026-06-20 09:02:54
刘震云:人性铁律——你让他太舒服,他就敢肆无忌惮地伤害你

刘震云:人性铁律——你让他太舒服,他就敢肆无忌惮地伤害你

杏花烟雨江南的碧园
2026-06-30 13:15:03
英伟达在华启动机器人人才招聘,聚焦具身智能等四大方向

英伟达在华启动机器人人才招聘,聚焦具身智能等四大方向

IT之家
2026-06-30 20:04:11
女子领了结婚证全程没笑意,捧着红本满眼痛苦,评论区却夸真实

女子领了结婚证全程没笑意,捧着红本满眼痛苦,评论区却夸真实

捣蛋窝
2026-06-28 05:03:42
解说员:不出意外的话,巴西前锋卡多索即将加盟浙江队

解说员:不出意外的话,巴西前锋卡多索即将加盟浙江队

懂球帝
2026-06-30 22:21:10
走面风波升级,“一言不发”的冯小刚,终于不再顾及所谓的体面!

走面风波升级,“一言不发”的冯小刚,终于不再顾及所谓的体面!

曹莽看世界
2026-06-30 08:31:19
美军攻击伊朗革命卫队后,霍尔木兹海峡的航运交通顺畅很多

美军攻击伊朗革命卫队后,霍尔木兹海峡的航运交通顺畅很多

一种观点
2026-06-29 15:21:59
2026-07-01 08:03:00
大数据文摘 incentive-icons
大数据文摘
专注大数据,每日有分享!
6873文章数 94550关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

头条要闻

坎贝尔承认:中国是最成功渡过难关的国家

体育要闻

德国足球,脸都不要了

娱乐要闻

黄晓明沦陷!羡慕周杰伦能降住昆凌

财经要闻

万亿“寒王”,历史时刻

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

房产
时尚
数码
健康
游戏

房产要闻

TOP10单盘狂卖210亿!海南楼市,上半年热销榜单出炉

Meiinpsn的穿衣风格,清新又叛逆

数码要闻

曝微软停产Surface Go与Surface Laptop Go,无后续机型研发计划

狂吃“糯叽叽”小心肠梗阻!

运营20年人气不减的MMORPG,如今免费上Steam全球同服了

无障碍浏览 进入关怀版