网易首页 > 网易号 > 正文 申请入驻

AI帮生物学家"拼"出细胞全貌:跨模态数据怎么对齐?

0
分享至

你有没有想过,为什么研究一个癌细胞,科学家们要折腾那么多不同的实验?测蛋白质、测基因表达、看细胞形态——这些听起来差不多的操作,拿到的数据却天差地别。更麻烦的是,这些数据就像拼图碎片,分散在不同的"盒子"里,生物学家得一块一块手动拼,才能勉强看出细胞在发生什么。

最近,麻省理工和哈佛的博德研究所(Broad Institute)联合苏黎世联邦理工学院的团队,搞出了一个AI框架,专门解决这个"拼图对不上"的痛点。他们的思路挺有意思:不是让机器替人看,而是帮机器学会分辨——哪些信息是不同测量方法都能看到的"共识",哪些又是某种方法独有的"独家视角"。


这项研究今天发表在《自然·计算科学》(Nature Computational Science)上。第一作者张欣怡(Xinyi Zhang)是MIT电气工程与计算机科学系2022届硕士、2025届博士,现在在维也纳的AITHYRA担任团队负责人。通讯作者包括苏黎世联邦理工的G.V. Shivashankar教授和MIT的Caroline Uhler教授。

张欣怡打了个比方:"我们研究细胞的时候,一种测量往往不够用,所以科学家不断开发新技术来观察细胞的不同侧面。但说到底,我们面对的是一个细胞。如果把各种测量方式的信息更聪明地整合起来,就能得到更完整的细胞状态图景。"

这话听起来简单,做起来却卡在一个技术死结上。

细胞测量的"维度灾难"

细胞内部是个多层嵌套的结构。基因在细胞核里,蛋白质在细胞质中跑来跑去,细胞骨架支撑着整个形态。科学家想全面了解一个细胞的状态,通常得动用多种技术:有的专门看DNA甲基化,有的追踪蛋白质丰度,有的用显微镜捕捉细胞形状变化。

问题是,这些技术给出的数据格式完全不同。基因表达是序列数字,蛋白质数据可能是质谱峰图,显微镜图像则是像素矩阵。传统做法是,研究人员分别分析每种数据,然后靠自己的生物学直觉把它们联系起来。

机器学习确实能加速这个过程,但现有方法有个致命缺陷——它们把每种测量模态的信息"打包"在一起处理,就像把不同来源的照片全部倒进同一个文件夹,然后让算法自己找规律。结果是,算法可能发现"这组数据和那组数据相关",但说不清这种关联到底来自细胞的哪个部位、哪个过程。

举个例子:假设基因表达数据显示某个通路活跃,蛋白质数据也显示相应酶的水平升高,传统方法会标记它们"相关"。但如果基因表达数据其实来自细胞核的特定区域,而蛋白质数据来自细胞质的不同位置,这种"相关"的生物学意义就大打折扣。研究人员需要知道信息的空间来源,才能判断这是真正的功能耦合,还是测量噪音的巧合。

AI的新任务:学会"溯源"

新框架的核心创新,在于它显式地建模了"共享信息"和"特有信息"的分离。

具体来说,这个AI系统会同时接收多种测量模态的数据输入。在学习过程中,它尝试回答两个问题:第一,不同测量方式中,哪些信号描述的是同一个细胞状态特征?第二,每种测量方式各自携带了哪些其他方式看不到的独特信息?

用技术语言讲,这涉及到多模态表示学习中的"解耦"(disentanglement)问题。研究团队设计了一种结构化的潜在空间(latent space),其中一部分维度专门编码跨模态共享的变量,另一部分维度则保留模态特有的变异。

关键的设计巧思在于约束条件。如果某种信息在所有测量模态中都出现,AI就把它推向共享空间;如果只出现在特定模态中,就归入该模态的专属通道。这种区分不是事后标注,而是训练过程中自动涌现的。

这样一来,当生物学家查看分析结果时,他们不仅能看到"基因表达和蛋白质水平正相关"这样的笼统结论,还能进一步追问:这种相关性是基于细胞核内的转录调控,还是细胞质中的翻译后修饰?数据的空间溯源变得可追溯。

从癌症到代谢病:谁需要这张"完整地图"

研究团队特别强调了这项技术在疾病研究中的应用前景。癌症是典型的多因素疾病——同一个肿瘤内部,不同区域的细胞可能处于完全不同的状态:有的疯狂增殖,有的休眠耐药,有的正在转移。如果只测基因表达,可能错过蛋白质层面的药物靶点;只测形态,又可能忽略分子层面的驱动突变。

阿尔茨海默病和糖尿病这类复杂疾病同样如此。神经元退化涉及蛋白质错误折叠、能量代谢紊乱、细胞骨架崩塌等多个层面;糖尿病则牵连胰岛素信号、线粒体功能、脂肪组织炎症等交织的网络。传统单模态研究像是在摸象,各说各话。

新框架的价值在于,它允许研究人员把不同模态的数据"对齐"到同一个参考系中。不是强行融合成一锅粥,而是保持各信息源的辨识度,同时揭示它们之间的结构性关联。这种"既见树木,又见森林"的能力,对于理解疾病机制、追踪病程进展、评估治疗反应都有潜在帮助。

不过需要明确的是,这项研究目前聚焦于方法学层面的突破。论文展示的是算法框架的可行性和理论基础,尚未涉及具体的临床验证或药物开发应用。从计算工具到实际诊疗,中间还有漫长的转化距离。

跨机构合作的"拼图"本身

这项研究的作者名单也值得一提。张欣怡的履历横跨MIT的电气工程与计算机科学系、博德研究所的施密特中心,现在又在维也纳的AITHYRA组建自己的团队。G.V. Shivashankar在苏黎世联邦理工和保罗谢尔研究所领导多尺度生物成像实验室,擅长把物理测量与生物学问题对接。Caroline Uhler则是MIT统计学和机器学习的资深学者,长期关注高维数据中的因果推断。

这种组合本身反映了现代生命科学研究的一个趋势:问题越来越复杂,单一实验室的技术栈已经不够用了。需要计算机科学家设计算法,需要物理学家开发测量手段,需要生物学家提出正确的问题。AI在这里扮演的不是替代者,而是翻译官——在不同模态的数据之间、在不同学科的从业者之间,建立可操作的对话。

张欣怡在采访中提到,她的博士工作很大程度上受益于博德研究所的交叉环境。"在那里,我既能接触到最前沿的基因组学实验,又能和纯理论背景的机器学习研究者讨论。这种碰撞对定义真正重要的科学问题很关键。"

方法背后的"不知道"

作为一篇方法学论文,这项研究也坦诚地留下了一些开放问题。

首先是模态数量的扩展性。论文展示的是双模态或三模态的整合场景,但真实研究中可能同时有五六种甚至更多测量方式。共享空间和专属空间的维度如何分配,会不会随着模态增加而变得难以解释,这些都需要更多探索。

其次是生物学先验的引入程度。目前的框架相对"无监督",主要依赖数据本身的统计结构。但如果研究人员对特定细胞过程有先验知识——比如知道某些基因和蛋白质应该协同调控——如何把这些知识优雅地编码进学习过程,而不至于让模型变得过于僵化,是个微妙的平衡。

最后是因果方向的判断。相关性不等于因果性,这是数据科学的老生常谈。新框架能揭示不同模态信息的共变模式,但无法自动告诉研究者"是基因表达变化导致了蛋白质重定位,还是反之"。因果推断需要额外的实验设计或假设,这不是当前方法能独立解决的。

这些局限不是缺陷,而是诚实。在科普写作中,保留"我们不知道"的边界,比硬编一个圆满解释更有价值。读者需要的是对科学进程的真实感知,而不是被过度包装的确定性。

一个更广泛的观察

把这项研究放在更大的背景下,它其实是"AI for Science"浪潮中的一个切片。过去几年,深度学习在蛋白质结构预测、药物分子设计、医学影像分析等领域接连取得突破。但细胞生物学的特殊性在于,它的复杂性不是单一维度的——不像蛋白质结构可以简化为三维坐标,细胞状态是基因、蛋白质、代谢物、形态、环境响应的多维交织。

这种多模态特性,既是挑战,也是机会。挑战在于没有"标准答案"可供监督学习;机会在于,如果能聪明地整合不同信息源,就可能发现任何单一视角都看不到的模式。博德研究所团队的工作,正是在这个方向上迈出的具体一步。

对于普通读者来说,这项研究的意义或许在于理解一个基本事实:现代生物学已经不再是"拿显微镜看一看"那么简单。一个癌症细胞的完整画像,可能需要整合测序仪、质谱仪、高内涵成像系统等多种设备的数据,需要计算机科学家设计算法来降维和关联,需要统计学家来量化不确定性。AI不是魔法,它只是让这个协作过程稍微顺畅一点。

下次再看到"AI破解癌症"之类的标题时,你可能会多一个判断维度:它说的是辅助诊断的影像AI,还是预测药物反应的分子模型,抑或是像这项研究一样、帮助科学家整合多源数据的基础工具?不同的定位,对应的是不同的发展阶段和不同的期待值。

细胞还是那一个细胞。但我们观察它的方式,正在变得立体起来。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
宝玉和谁有过肌肤之亲?4个女人,2个千金小姐,2个漂亮丫头

宝玉和谁有过肌肤之亲?4个女人,2个千金小姐,2个漂亮丫头

掠影后有感
2026-05-13 11:17:09
特朗普访华现场曝光!肯德基评论区沦陷了!

特朗普访华现场曝光!肯德基评论区沦陷了!

广告案例精选
2026-05-14 08:54:57
可以签约大合同?布朗尼理论上可以签约一份9280万美元的合同!

可以签约大合同?布朗尼理论上可以签约一份9280万美元的合同!

爱体育
2026-05-13 22:53:16
刚向191国发出通知,大陆转头放行台当局,郑丽文公开力挺一中

刚向191国发出通知,大陆转头放行台当局,郑丽文公开力挺一中

千羽解读
2026-05-14 10:17:47
黄仁勋:当下是毕业生开启职业生涯的最佳时机,不用怕AI替代,将迎大量新机会

黄仁勋:当下是毕业生开启职业生涯的最佳时机,不用怕AI替代,将迎大量新机会

界面新闻
2026-05-11 12:09:03
吃中国饭砸中国锅,改岛国国籍拿高薪,这3位下场一个比一个惨

吃中国饭砸中国锅,改岛国国籍拿高薪,这3位下场一个比一个惨

黑翼天使
2026-05-14 12:27:06
14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

14岁被送上导演的床,17岁拍全裸写真,被操控半生,如今怎样了?

阿讯说天下
2026-04-18 11:52:55
老板娘问我她穿豹纹好不好?看我该怎么回答?

老板娘问我她穿豹纹好不好?看我该怎么回答?

太急张三疯
2026-05-06 19:39:22
上海市市场监督管理局:一糖果制品被检出高剂量西地那非

上海市市场监督管理局:一糖果制品被检出高剂量西地那非

财经网
2026-05-13 13:02:05
女子吐槽“老公养的盆栽”,太丑了,网友:不懂,别乱说话

女子吐槽“老公养的盆栽”,太丑了,网友:不懂,别乱说话

观察鉴娱
2026-04-19 16:03:01
于丹被北师大免职,跌落神坛后竟活成这样!人人都该警醒...

于丹被北师大免职,跌落神坛后竟活成这样!人人都该警醒...

华人星光
2024-11-07 13:39:41
黄奕是发福了还是肿了?脸变化好大五官都变钝了表情僵硬哭笑不得

黄奕是发福了还是肿了?脸变化好大五官都变钝了表情僵硬哭笑不得

动物奇奇怪怪
2026-05-14 09:47:17
攻防完爆世界第23!石宇奇2-0横扫李卓耀,下轮或迎中日一哥对决

攻防完爆世界第23!石宇奇2-0横扫李卓耀,下轮或迎中日一哥对决

钉钉陌上花开
2026-05-14 13:56:24
当着全球面,郑丽文发誓:特朗普来华一谈完,半月内就去说服老美

当着全球面,郑丽文发誓:特朗普来华一谈完,半月内就去说服老美

趣文说娱
2026-05-13 19:52:50
第一次感受到维C的“杀伤力”,2块钱一瓶,就能搞定8个麻烦事

第一次感受到维C的“杀伤力”,2块钱一瓶,就能搞定8个麻烦事

室内设计师有料儿
2026-05-09 10:26:26
张艺谋找秦海璐拍《主角》,秦海璐不看剧本不谈钱,直接说时间

张艺谋找秦海璐拍《主角》,秦海璐不看剧本不谈钱,直接说时间

童叔不飙车
2026-05-12 12:23:25
民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

李橑在北漂
2026-04-02 10:22:26
突发!公牛重建第一步,天才后卫被摆上货架,火箭要当接盘侠?

突发!公牛重建第一步,天才后卫被摆上货架,火箭要当接盘侠?

体育大朋说
2026-05-14 12:50:36
iPhone 18 Pro 起售价或维持不变,苹果以“激进定价”应对内存危机

iPhone 18 Pro 起售价或维持不变,苹果以“激进定价”应对内存危机

环球网资讯
2026-05-14 15:19:07
茶叶是血糖的“加速器”?医生忠告:不想血糖升高,少喝4种茶

茶叶是血糖的“加速器”?医生忠告:不想血糖升高,少喝4种茶

橘子约定
2026-05-12 20:44:04
2026-05-14 16:27:00
万物皆可科普啊
万物皆可科普啊
有态度网友ytd
120文章数 0关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

男子称火车站走错口遭安检员追打 被认定互殴各拘5天

头条要闻

男子称火车站走错口遭安检员追打 被认定互殴各拘5天

体育要闻

登海报!哈登30+8+6创多项纪录 第8次赢天王山

娱乐要闻

肖战提名金海燕奖,这一步走得太稳

财经要闻

习近平同美国总统特朗普会谈

汽车要闻

云辇-P Ultra降维打击!三轮也能越野?方程豹豹8/豹5闪充版30.58万起

态度原创

本地
手机
数码
家居
公开课

本地新闻

用苏绣的方式,打开江西婺源

手机要闻

联发科官宣与iQOO开展了双方史上最深度技术合作

数码要闻

Keychron J5 Ultra 8K三模机械键盘预售,390元

家居要闻

精神奢享 对话塔尖需求

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版