网易首页 > 网易号 > 正文 申请入驻

中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

0
分享至

编辑 | 红菜苔

随着单细胞技术的发展,许多细胞特性可以被测量。此外,多组学分析技术可以同时联合测量单个细胞中的两个或多个特征。为了快速处理积累的各种数据,需要多模态数据集成的计算方法。

树兰医院、中国科学院和北京师范大学的合作团队提出了 inClust+,一个用于多组学分析的深度生成框架。它建立在之前针对转录组数据所开发的 inClust 的基础上,并增加了两个专为多模式数据处理设计的掩码模块:编码器前面的输入掩码模块和解码器后面的输出掩码模块。

InClust+ 可用于整合来自相似细胞群的 scRNA-seq 和 MERFISH 数据,并根据 scRNA-seq 数据估算 MERFISH 数据。InClust+ 具有将多模态数据(例如具有基因表达、染色质可及性和蛋白质丰度的三模态数据)与批次效应整合的能力。

研究人员使用 inClust+ 整合一个未标记的单模态 scRNA-seq 数据集和两个标记的多模态 CITE-seq 数据集,将标签从 CITE-seq 数据集转移到 scRNA-seq 数据集,并生成单模态 scRNA-seq 数据中缺失的蛋白质丰度模态。

该研究以「InClust+: the deep generative framework with mask modules for multimodal data integration, imputation, and cross-modal generation」为题,于 2024 年 1 月 24 日发布在《BMC Bioinformatics》。

近年来,单细胞技术的进步使得在单个细胞中获得多种性状成为可能,例如单细胞 RNA 测序 (scRNA-seq)、转座酶可及染色质测序的单细胞测定 (scATAC-seq) 和单细胞亚硫酸氢盐测序 (scBS-seq)。

这些单细胞方法极大地促进了科学家对细胞的理解。从而揭示细胞群的异质性,推断细胞发育轨迹,并重建基因调控网络。但以一种方式收集的数据仅代表细胞状态的有限侧面。为了获得更全面、更全面的信息,需要将来自不同模态的数据整合在一起,从而更好地揭示数据的生物学意义。

为了完成这些任务,树兰医院、中国科学院和北京师范大学的合作团队在之前的研究中,曾提出了 inClust(集成聚类),一种灵活的转录组数据深度生成框架。在这里,该团队通过添加两个新模块来扩展 inClust,即编码器前面的输入掩码模块和解码器后面的输出掩码模块。

图示:inClust+的架构及其应用。(来源:论文)

该团队将增强的 inClust 命名为 inClust+,并证明它不仅可以完成数据集成,还可以利用掩模模块的优点完成基因插补。

研究人员将 inClust+ 应用于各种数据集,包括多个单模态(未配对)数据集、一个或多个多模态数据集以及包含多模态数据和单模态数据的数据集。在这些例子中,inClust+展示了其数据集成、插补和数据生成的能力。

首先,通过 mask 模块的优点,参考类似细胞群的 scRNA-seq 数据,使用 inClust+ 对 MERFISH 数据进行插补。

然后,通过三个示例评估了具有堆叠式编码器-解码器架构和掩模模块的 inClust+ 的多模态集成能力。结果表明,inClust+ 不仅可以混合模态之间的数据,还可以分离生物学差异并消除批次效应。

最后,研究人员使用 inClust+ 将数据与单模态数据集和多模态数据集进行集成。结果表明,inClust+ 可以将标签从多模态数据转移到单模态数据,并补全单模态数据中缺失的模态。

图示:inClust+ 整合多模态(三重)数据集的图表。(来源:论文)

InClust+ 的应用并不限于上述情况。对于基因插补,会出现一种情况,即所有数据集都有自己的特定基因,而不是只有一个数据集有自己独特的基因。通过调整输出掩码,inClust+ 可以基于共享基因整合两个数据集,并通过引用相应数据集中的特定基因来估算两个数据集中的其余基因。对于缺失模态生成,会出现所有数据集都有自己特定模态的情况,inClust+ 可以基于共享模态整合两个数据集,并通过引用相应数据集中的特定模态来生成每个数据集中的缺失模态。

由于inClust+ 是 inClust 在多模态应用中的扩展,因此与其他集成方法相比,inClust+ 和 inClust 可以作为一个整体放在一起。该团队的模型(inClust 和 inClust +)与其他集成方法的区别在于其适应不同情况的灵活性以及尽可能集成信息的能力。

灵活性体现在以下两点:首先,InClust 可以灵活地处理标签信息;InClust+也继承了这一优点,并体现在 inClust+ 可以半监督模式将标签从参考数据集转移到查询数据集。其次,inClust+ 中的两个 mask 模块可以灵活调整以处理不同的输入。

模型尽可能整合信息的能力体现在以下两点:首先,在inClust中证明该模型不仅可以使用表达数据,还可以使用协变信息(例如批次)和标签信息;这一优点也被 inClust+ 继承了。其次,如 inClust+ 所示,该模型不仅可以利用共享数据(共享基因表达或共享模态)进行整合,还可以利用特定基因或模态来进行缺失基因插补或缺失模态生成。

简而言之,该团队的模型不仅可以集成数据,还可以在数据集成的基础上完成其他下游任务(例如分布外生成、标签转移和新型识别、空间域分割、跨模态插补和生成)。

添加掩模是增强深度学习模型的常见方法。在 inClust+ 中,研究人员通过一对掩码模块(输入掩码模块和输出掩码模块)来增强模型。掩模的灵活设计和使用使模型能够完成一系列任务,这些任务通常需要多个模型分别完成。例如,inClust+ 可以利用常见的和数据集特定的基因进行整合和插补,如 uniPort。掩码使事情变得简单:输入掩码筛选出常见基因,输出掩码筛选出相应数据的常见基因和数据集特定基因。

同时,inClust+ 可以集成多模态数据集来实现多域翻译,作为跨模态自动编码器。输入掩码和输出掩码使inClust+ 成为多个独立且相关的编码器-解码器组合。因此,inClust+ 不仅可以对同一模态的数据进行压缩和重构,还可以将一种模态的数据压缩并重构为另一种模态,从而实现跨模态翻译。

此外,inClust+ 可以集成多模态数据集和单模态数据集,将标签从多模态数据转移到单模态数据,并通过数据生成将单模态数据完整地转换为多模态数据,如 sciPENN。InClust+ 指的是多模态数据集,用于生成单模态数据集中缺失模态的数据。一般来说,作为一种模型增强技术,在模型中添加一对掩模不仅限于 inClust,还可以扩展到具有类似编码器-解码器结构的深度学习模型,例如 scArches。

论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05656-2

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
9个月大宝宝抓蟑螂放进嘴里,妈妈发现时只抠出一条虫腿:第二天拉了6次吐了2次,排泄物中能看到蟑螂残体……

9个月大宝宝抓蟑螂放进嘴里,妈妈发现时只抠出一条虫腿:第二天拉了6次吐了2次,排泄物中能看到蟑螂残体……

都市快报橙柿互动
2026-06-03 23:16:20
荷兰没料到,闯中国领空这事没完,中方当各国面,让荷兰下不来台

荷兰没料到,闯中国领空这事没完,中方当各国面,让荷兰下不来台

共工之锚
2026-06-01 13:17:56
使用润滑剂,对夫妻的身体有害吗?怎样用才好?一文讲清楚

使用润滑剂,对夫妻的身体有害吗?怎样用才好?一文讲清楚

医学科普汇
2026-06-02 17:30:39
9年投入5800万!董路没教练证却带足球小将夺冠 孙继海:马戏团

9年投入5800万!董路没教练证却带足球小将夺冠 孙继海:马戏团

念洲
2026-06-03 06:51:28
李连杰携家人拜见仁波切,64岁利智罕露面,全家向大师鞠躬很虔诚

李连杰携家人拜见仁波切,64岁利智罕露面,全家向大师鞠躬很虔诚

蒂蒂茱家
2026-06-02 15:52:12
复古肉搏,拯救NBA总决赛审美

复古肉搏,拯救NBA总决赛审美

有马体育
2026-06-04 21:27:12
餐饮界的“败家子”:4年输光百亿帝国,兜里居然拿不出1块钱?

餐饮界的“败家子”:4年输光百亿帝国,兜里居然拿不出1块钱?

商业财经风向
2026-06-04 17:06:43
背完这5句口诀,五行、八卦、天干、地支全搞懂,胜过翻10本书!

背完这5句口诀,五行、八卦、天干、地支全搞懂,胜过翻10本书!

老达子
2026-06-03 06:30:03
中国这项最新突破,惊到我了

中国这项最新突破,惊到我了

罗富强说
2026-06-02 09:15:36
世体:亚马尔和佩德里轮休,贝尔纳尔可能代表西班牙首秀

世体:亚马尔和佩德里轮休,贝尔纳尔可能代表西班牙首秀

懂球帝
2026-06-04 17:16:50
上海26岁女博士怀孕五个月查出胰腺癌,丈夫凑了200万为她治病,谁料,女子竟哭着大喊:你们再逼我化疗,我就从20楼跳下去!

上海26岁女博士怀孕五个月查出胰腺癌,丈夫凑了200万为她治病,谁料,女子竟哭着大喊:你们再逼我化疗,我就从20楼跳下去!

黎兜兜
2026-06-04 14:36:21
正义来的太迟了!如今62岁已退休的朱军,才终于看到女方受到惩罚

正义来的太迟了!如今62岁已退休的朱军,才终于看到女方受到惩罚

往史过眼云烟
2026-06-04 16:59:05
美记:布伦森太强硬了,这么看哈登防不住布伦森是有原因的

美记:布伦森太强硬了,这么看哈登防不住布伦森是有原因的

林子说事
2026-06-04 12:44:09
家乡的美食,挪威队带了500公斤鱼和116公斤棕奶酪前往世界杯

家乡的美食,挪威队带了500公斤鱼和116公斤棕奶酪前往世界杯

懂球帝
2026-06-04 19:00:31
又一起吃他汀猝死!医生再三强调:夏季吃他汀的人,要警惕这4点

又一起吃他汀猝死!医生再三强调:夏季吃他汀的人,要警惕这4点

健康科普365
2026-06-01 21:55:03
放弃百万高薪假期紧急回国!樊振东的清醒,打醒多少躺平的运动员

放弃百万高薪假期紧急回国!樊振东的清醒,打醒多少躺平的运动员

铿锵格斗
2026-06-04 16:17:12
何猷君婚礼誓词表白奚梦瑶:没有你,我可能早就崩溃,爬不出来了;两人领证近7年于法国举行婚礼,预计9月之后在中国澳门举办答谢礼

何猷君婚礼誓词表白奚梦瑶:没有你,我可能早就崩溃,爬不出来了;两人领证近7年于法国举行婚礼,预计9月之后在中国澳门举办答谢礼

极目新闻
2026-06-03 20:15:39
10亿到手之后,武契奇:总统不干了!来华之前他就想好了权力调动

10亿到手之后,武契奇:总统不干了!来华之前他就想好了权力调动

近史谈
2026-06-04 21:03:19
不想上班?辞职上山的年轻人最后还是下山了

不想上班?辞职上山的年轻人最后还是下山了

红星新闻
2026-06-03 20:56:44
被曝与彭冠英恋情传闻后,刘亦菲聚会哽咽落泪,打破粉丝刻板印象

被曝与彭冠英恋情传闻后,刘亦菲聚会哽咽落泪,打破粉丝刻板印象

法老不说教
2026-06-04 20:58:57
2026-06-04 21:44:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1318文章数 228关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

60节火车皮价值千万玉米"不翼而飞" 法院:实际未装车

头条要闻

60节火车皮价值千万玉米"不翼而飞" 法院:实际未装车

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

SpaceX发行价135美元 6月12日上市交易

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

家居
房产
旅游
手机
公开课

家居要闻

220平对味儿家 空间情绪宅

房产要闻

震撼!海口顶豪“素颜出境”,直接顶穿品质天花板!

旅游要闻

美丽中国行|“熊猫老家”筑牢国宝生态家园

手机要闻

传iPhone 18 Pro Max机身厚度与上代持平 开发重心转向折叠款

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版