网易首页 > 网易号 > 正文 申请入驻

华裔学者Nature发文:多模态AI大模型将开启生物学分析新时代

0
分享至

图|Bo Wang,多伦多大学医学生物物理学助理教授

随着 AlphaFold 在蛋白质折叠上的突破,以及 AI for Science 领域的不断创新,人工智能(AI)正势不可挡地重构生命科学的研究范式。

高通量组学技术的快速发展,使生物学数据量呈指数级增长,远远超出了我们从中提取分子层面信息的能力。大语言模型(LLM)通过整合海量数据并实现多任务应用,为解决海量数据处理问题提供了思路。

受此启发,华裔学者、多伦多大学医学生物物理学助理教授 Bo Wang 团队及其合作者提出了“开发面向分子细胞生物学的多模态基础模型(MFM)”的构想,这类模型在基因组学、转录组学、表观基因组学、蛋白质组学、代谢组学和空间剖析进行预训练,能够表征细胞分子状态,构建细胞、基因和组织的整体图谱。

相关观点文章以“

Towards multimodal foundation models in molecular cell biology
”为题,已发布在国际权威科学期刊
Nature
上。

文章链接:

https://www.nature.com/articles/s41586-025-08710-y

研究团队表示,通过迁移学习,MFM 可以应用于多种下游任务,例如新型细胞类型识别、生物标志物发现、基因调控推断和虚拟扰动等,有望开启 AI 赋能的生物学分析新时代,揭示分子细胞生物学的复杂机制,支持实验设计,并扩展我们对生命科学的理解。

图|多模态分析技术及其应用。A. 各种分析技术可提供丰富多样的单细胞分辨率和空间剖析数据;B. 来自分析方法的数据可揭示跨越中心法则的多个步骤;C. 重建细胞动力学的重要潜在应用机会。箭头表示这些应用的基本机制是相互关联的,使用 MFM 解决一项任务可以促进其他任务的完成。

MFM 与分子细胞生物学:Lab-in-the-loop

基础模型是通过对海量数据集进行自监督学习训练的深度神经网络计算模型,因此通过迁移学习在广泛的下游任务中展现出强大的能力。

在自然语言处理领域,基于 Transformer 的基础模型,如 GPT 和 Llama 系列,在庞大的文本语料库上进行训练,可以通过微调或上下文学习快速适应各种下游任务。基础模型也已扩展到了自然图像和视频,并具备了语言与图像之间的跨模态生成能力。

在分子细胞生物学领域,基础模型为整合多样生物过程的认知提供了一种方法。生物基础模型的核心优势在于其能够学习并表征细胞系统复杂的相互关联特性。通过在多组学数据上进行训练,这些模型能够揭示孤立实验或单一模态分析中不易察觉的细微模式与关联,可能揭示出在更狭窄研究中被掩盖的普遍生物学原理。

图|传统机器学习模型与分子细胞生物学 MFM 的比较

MFM 通过自监督学习在海量多组学数据上进行预训练,能够捕捉生物分子间隐秘的交互模式。例如,基于 Transformer 架构的 MFM 利用注意力机制模拟 DNA 序列到基因表达的动态过程,其核心优势在于打破单一模态分析的局限,揭示跨组学数据的深层关联。这种能力使得 MFM 在下游任务中展现出惊人潜力:从重建细胞发育轨迹,到预测基因扰动响应,再到发现新型生物标志物,均能提供超越传统方法的精准洞察。

研究团队特别强调了 Lab-in-the-loop 的创新工作流程。在这种模式下,实验设计与计算模拟形成闭环反馈:MFM 通过预测未知细胞系的药物敏感性指导实验方向,实验结果又反哺模型训练,形成知识迭代。这种数据驱动的跨领域知识迁移,突破了传统假设驱动研究的局限,为复杂生物系统建模提供了全新思路。

图|不同数据背景下的预训练和 Lab-in-the-loop 迭代改进。a. MFM 在来自丰富背景的生物数据上进行训练。在预训练期间,可以概括来自特定上下文条件的多样化数据,丰富已知和未知条件下的生物学知识表示。面板中的示例场景说明了在不同细胞状态下概括基因功能的想法,这有助于在应用中推断出未见过的功能;b. 模型 - 数据 - 实验,形成一个主动学习循环。Lab-in-the-loop 模式产生迭代反馈,以不断提升多模态基础模型的能力和生成的生物学假设的质量。

机遇

通过整合多模态数据,MFM 在表征细胞状态、预测基因功能以及重建基因调控网络等方面展示出了独特的优势。

在表征细胞状态方面,MFM 能够通过整合不同组学数据,更全面地理解细胞状态的连续性,从而更准确地比较不同细胞状态,并补全缺失的组学数据,例如在临床样本中预测代谢组学数据。

在预测基因功能和调控方面,MFM 能够学习多组学数据中的统一模式,从而预测基因功能,并重建特定环境下的基因调控网络,例如结合转录组和染色质可及性数据,揭示重要的调控因子。

在虚拟扰动方面,MFM 能够预测遗传或化学扰动对细胞状态的影响,从而加速基因调控理解和新治疗方法发现,例如预测药物在未知细胞系上的疗效,并指导实验验证。

为了实现这些潜在应用,研究团队指出了分子细胞生物学 MFM 应具备的一些关键技术特性。

首先,MFM 的训练需要大规模、多样化的多组学数据,包括单细胞测序、空间转录组学和纵向样本等,这些数据可以从全球细胞图谱等资源中获得,但需要进一步整合和标准化。研究团队表示,为了解决数据量不足的问题,可以考虑利用合成数据作为补充。

其次,研究团队提出了 MFM 的计算组件,包括统一的多模态数据表示、混合多层注意力机制、提示驱动的训练任务和人类知识的整合。

为了应对不同尺度的生物分子相互作用,MFM 需要构建统一 token,实现早期融合,并采用混合多层注意力机制,区分局部(单模态)和全局(跨模态)注意力。为了实现多种下游任务,MFM 需要设计提示 token 控制的统一框架,并包含单模态和跨模态的自监督学习任务,例如掩码语言模型、对比学习、跨模态预测和条件生成等。

此外,研究团队认为,将人类知识融入 MFM 预训练过程十分重要,例如将通路、基因本体、蛋白质相互作用网络和文献等知识以图嵌入或向量嵌入的形式加入模型,从而提供有用的归纳偏差,增强模型的预测能力。

挑战和展望

然而,在推广应用 MFM 的过程中,仍然存在技术和监管方面的挑战和限制。尽管在构建分子细胞生物学 MFM 时遇到的这些挑战与一般领域的基础模型有一些相似之处,但研究团队发现,该领域的具体要求和潜在解决方案往往独特。他们强调了以下几个问题:

  1. 数据和计算资源:需要多样化和大量的多原子数据;并行和加速计算资源;努力扩大训练和部署基础模型。

  2. 开放科学与伦理考虑:生物基础模型应向公众开放;明确传达能力、局限性和使用案例;保障数据隐私。

  3. 严格的评估:标准化数据集上的各种基准;评估包括预测、生成、扰动和其他生物洞察力在内的能力;公开的排行榜和竞赛。

  4. 可解释性和幻觉风险:解读大型深度学习网络具有挑战性;预测需要以训练数据为基础,并提供生物背景;模型应能接受不确定的输出结果。

将 MFM 应用于整合多种组学数据,有望以前所未有的规模和精度,推动分子生物学的变革。要实现这一构想,需要生物学家、数据科学家、人工智能研究人员和伦理学家通力合作,以生成高质量数据、完善模型并确保可访问性。

展望未来,将 MFM 融入医学领域,可推动个性化治疗、疾病建模和药物发现等领域的创新。这与细胞图谱(如 HCA)在医学研究中已经发挥的变革性作用如出一辙。从本质上讲,分子发现的未来将由一个充满活力、具有共同愿景的合作生态系统来孕育,使科学界有能力解决生物学和医学中一些最紧迫的挑战。

作者:锦鲤

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这才是宋美龄和继子蒋经国的一张真实合影,都是真人的容貌

这才是宋美龄和继子蒋经国的一张真实合影,都是真人的容貌

喜欢历史的阿繁
2026-04-16 11:17:28
刘晓庆没了假发直接秒变路人,头发严重影响一个人的颜值

刘晓庆没了假发直接秒变路人,头发严重影响一个人的颜值

阿废冷眼观察所
2026-04-22 13:05:39
祭拜鬼社当天,日本发出崩溃预警,美欧视而不见,中国不再伸援手

祭拜鬼社当天,日本发出崩溃预警,美欧视而不见,中国不再伸援手

阿伧说事
2026-04-22 10:54:35
贵州网红晓浪哥去世,仅34岁,爱在墓地拍视频,早给自己选好墓地

贵州网红晓浪哥去世,仅34岁,爱在墓地拍视频,早给自己选好墓地

奇思妙想草叶君
2026-04-21 16:24:04
火狐把VPN塞进浏览器,免费午餐能吃吗?

火狐把VPN塞进浏览器,免费午餐能吃吗?

报错免疫体
2026-04-22 00:36:29
特朗普没料到:霍尔木兹危机打醒中国,一个万亿级产业开始爆发

特朗普没料到:霍尔木兹危机打醒中国,一个万亿级产业开始爆发

触摸史迹
2026-04-22 12:45:25
欧洲人终于发现了:俄乌闹4年了,合着是华强北在打代理人战争?

欧洲人终于发现了:俄乌闹4年了,合着是华强北在打代理人战争?

用冷眼洞悉世界
2026-04-22 02:23:19
缺口超50%!光模块核心材料,国产化提速!龙头股暴涨超60倍

缺口超50%!光模块核心材料,国产化提速!龙头股暴涨超60倍

数据宝
2026-04-22 07:39:19
10万亿经营贷,要兜不住了

10万亿经营贷,要兜不住了

新浪财经
2026-04-22 03:04:25
对着士兵遗体干这事?以色列再破底线:活人打仗,死人传宗接代

对着士兵遗体干这事?以色列再破底线:活人打仗,死人传宗接代

嫹笔牂牂
2026-04-22 09:54:51
曾经那些真实的特供,超出普通人的想象…

曾经那些真实的特供,超出普通人的想象…

深度报
2026-04-21 22:56:47
就在刚刚!广东官宣2米11中锋加盟!离队第1人出炉,不是奎因

就在刚刚!广东官宣2米11中锋加盟!离队第1人出炉,不是奎因

老吴说体育
2026-04-22 11:59:40
正负值-22!开拓者战胜马刺,验出头号软肋,占了杨瀚森出场时间

正负值-22!开拓者战胜马刺,验出头号软肋,占了杨瀚森出场时间

球场没跑道
2026-04-22 11:30:48
退休安排有变!公务员弹性延迟退休取消,新方案已确定

退休安排有变!公务员弹性延迟退休取消,新方案已确定

一口娱乐
2026-04-22 05:02:00
郑州街头车辆发生自燃!车主慌神挪车遭 "二次暴击"

郑州街头车辆发生自燃!车主慌神挪车遭 "二次暴击"

新动察
2026-04-22 09:03:10
外院缝合被同行怒批:瞎胡闹,游医水平!一个真让做,一个真敢做

外院缝合被同行怒批:瞎胡闹,游医水平!一个真让做,一个真敢做

新浪财经
2026-04-22 12:10:58
涉嫌严重违纪违法!东莞信托原董事张孟军被查

涉嫌严重违纪违法!东莞信托原董事张孟军被查

南方都市报
2026-04-22 15:49:15
牌局终了:王石,潘石屹和许加印

牌局终了:王石,潘石屹和许加印

蓝钻故事
2026-04-22 01:33:24
不是芯片不是稀土!中方突然打出"王炸",西方完全没料到这一手

不是芯片不是稀土!中方突然打出"王炸",西方完全没料到这一手

聚焦最新动态
2026-04-21 08:52:38
原作者摊牌:Windows任务管理器CPU占用全是假的 压根没做实时统计

原作者摊牌:Windows任务管理器CPU占用全是假的 压根没做实时统计

快科技
2026-04-21 12:28:14
2026-04-22 16:32:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

对话梅涛:没有视频底座,具身智能走不远

头条要闻

媒体:爱奇艺AI艺人库惹众怒 CEO龚宇的解释站不住脚

头条要闻

媒体:爱奇艺AI艺人库惹众怒 CEO龚宇的解释站不住脚

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

数码
家居
亲子
手机
军事航空

数码要闻

OPPO Find X9 Ultra深度评测:10倍光变重塑旗舰标杆

家居要闻

极简绘梦 克制和谐

亲子要闻

很难想象弟弟最后的表情是在想什么

手机要闻

vivo连续七季第一,苹果首进前五,OPPO暴增21%

军事要闻

特朗普宣布延长停火 伊朗表态

无障碍浏览 进入关怀版