网易首页 > 网易号 > 正文 申请入驻

DeepMind独家揭秘AlphaGenome内幕:让AI读懂基因组98%的非编码区

0
分享至

当 2003 年人类基因组测序首次完成时,我们获得了一本厚达 30 亿个遗传字母的“天书”,却发现自己只能读懂其中 2% 的“文字”(编码区),剩下的 98% 被称为基因组的“暗物质”。

近日,由谷歌旗下 DeepMind 公司开发的人工智能模型 AlphaGenome 登上 Nature 封面。该模型主要用于理解 DNA 序列如何调控基因,帮助科学家发现为什么我们 DNA 中的细微差异会让我们面临高血压、痴呆症和肥胖症等疾病的风险。

DeepMind 于 2025 年 6 月首次在 bioRxiv 发布 AlphaGenome 的预印本,并开放 API 预览。但模型在 Nature 正式发表后,团队同时宣布了完全开源研究代码和模型权重。

AlphaGenome 是 DeepMind 继 AlphaFold 之后的又一力作。

该模型的核心优势在于其统一预测能力:它能一次性输入长达 100 万个碱基对的 DNA 序列,以单个碱基分辨率同时输出数千种功能基因组特征,包括基因表达水平(RNA-seq、CAGE)、RNA 剪接位点与强度、染色质开放性、组蛋白修饰、转录因子结合位点以及染色质三维接触图。通过对比突变序列与野生型序列,AlphaGenome 能在几秒内高效评分遗传变异的功能影响,这在过去往往需要数年湿实验验证。

在 Nature 论文中,该模型在 26 个变异效应预测基准任务中,有 25 个达到或超越现有最强模型(如 Enformer、Borzoi、ChromBPNet),尤其在非编码变异解读上表现出色。它基于人类和小鼠的 ENCODE、GTEx 等大规模多组学数据训练,覆盖数百种细胞类型和组织。

AlphaGenome 的潜在应用前景尤为广泛。

在癌症研究上,AlphaGenome 已成功破解 T 细胞急性淋巴细胞白血病的致病机制,能精准找到导致癌基因异常激活的非编码突变,还能说清这些突变是如何通过改变基因调控引发癌症的。这能帮科学家更快锁定癌症驱动突变,找到新的治疗靶点。

在罕见病诊断方面,对于很多病因不明的罕见病,它能准确识别 DNA 中导致疾病的关键变异,比如哪些变异破坏了基因正常功能、影响了蛋白质结合。这些信息能帮医生解读疑难病例,给 “不知道是什么变异致病” 的情况提供明确线索。

在合成生物学中,可以指导设计定制化的 DNA 序列,比如打造只在神经细胞里起作用、在肌肉细胞里 “沉默” 的基因开关,或是优化用于治疗的核酸药物。这能让生物设计少走弯路,加速基因疗法和生物制造的发展。

在药物开发和精准医疗方面,能更准确判断基因变异对疾病的影响,帮科学家从海量基因数据中快速找到关键靶点,缩短药物研发时间。还能为个性化治疗提供依据,比如针对不同人的基因调控特点,设计专属疗法,不管是罕见病还是高血压、痴呆症这类复杂疾病,都能提升诊断和治疗效率。

此外,YouTube 上还放出一支视频,DeepMind 产品经理 Dhavi Hariharan 与基因组学项目负责人、研究科学家 Ziga Avsec 以及 AlphaGenome 的参与者 Natasha Latysheva、Jun Cheng 和 Tom Ward 一起,分享了 AlphaGenome 背后的故事。

他们讨论了为什么开发 AlphaGenome、对模型进行了深度剖析,并分享了下一步计划。


(来源:YouTube)

AlphaGenome 为何为“生命暗物质”而来?

Dhavi:为什么要构建 AlphaGenome?它如何契合团队的整体使命?

Ziga:我们团队的核心使命是构建一套能够“破译基因组序列”的 AI 系统。基因组(即 DNA)是进化历程在数百万年间、为数百万个物种编写的“源代码”。它是生命的底层逻辑。破译这一代码将为人类健康及诸多领域带来不可估量的益处。而衡量这一目标进展的关键指标,就是看我们能否准确预测 DNA 的微小变化(即突变)对读取这些代码的细胞分子机制产生何种影响。

Dhavi:为什么这种能帮助我们破译基因组的 AI 如此重要?

Ziga:深入理解基因组对每个人的生活都有着深远影响。目前,仍有很大一部分罕见遗传病处于“无法诊断”的状态。我们对基因组整体的认知其实非常匮乏,而 AI 正是读取基因组、并对遗传突变做出有意义预测的绝佳利器。在我看来,理解基因组并预测突变影响,是 AI 最具社会价值的应用之一。

这群研究者为何一头扎进基因组?

Dhavi:你是如何对这个领域产生兴趣的?

Jun:我从博士期间就开始研究遗传突变预测,并一直深耕至今。加入 DeepMind 后,我主导了 AlphaMissense 项目,该方法主要预测编码区(仅占基因组 2%)的遗传效应。但剩下的 98% 呢?这正是我们今天推出 AlphaGenome 的原因——它聚焦于占据基因组绝大部分的非编码区,力求照亮这些未知的领域。

从感性层面来说,我投身生物学是因为高中时读到的一本大学教科书,书中描述了生命中那些精妙、复杂且优雅的分子机制,那份震撼让我决定将其作为终身事业。Tom,你的经历是怎样的?

Tom:身处这样一支跨学科团队感觉非常棒。对于非生物学背景的人来说,遗传学是一个极具魅力的未知领域。能够探究 DNA 中极其微小的变化如何在人类及其他物种中产生宏观影响,这本身就令人神往。目前,尤其是机器学习与计算生物学的交叉领域,正处于爆发式增长期,这里充满了无限可能。

Ziga:我还记得加入 DeepMind 之前,我研究过一个叫 VPNet 的小模型。以今天的标准来看,它很“迷你”:输入 1,000 个 DNA 碱基对,预测极高分辨率的转录因子结合。当时我惊叹于这种碱基级信息的丰富与精确,但它更像是对特定生命过程的“微距摄影”。

因此,加入 DeepMind 后,我渴望挑战更复杂的生命过程。我们与 Calico 的 David Kelly 合作,挑战了从 DNA 序列预测基因表达这一极难的课题。为了捕捉尽可能多的相关片段,我们必须显著增加序列长度,但这又不得不牺牲掉 VPNet 引以为傲的高分辨率。在“序列长度”与“分辨率”之间,似乎永远存在着一种不可兼得的权衡。

AlphaGenome 凭什么刷新行业天花板?

Dhavi:那么,AlphaGenome 试图填补的行业空白是什么?

Ziga:此前已有一些序列到功能的模型,最接近的是我们团队的 Enformer 和 Calico 的 Basenji。此外还有许多单任务模型,如预测剪接的 SpliceAI、预测染色体接触图的 Akita 等。

AlphaGenome 的突破在于,它在单一模型中集成了前所未有的多模态能力。它拥有兆碱基(Megabase)级的输入长度,同时输出单碱基分辨率的精准预测。这种多模态覆盖、超长序列与精细输出的结合,使其在变异效应预测和解读方面异常强大。以前你可能需要多个模型才能完成的分析,现在只需这一个模型,就能从多个维度审视变异对分子生物学各层面的影响。

一顿午餐,竟解开了技术死结?

Dhavi:为什么“长上下文、高分辨率、多模态”同时实现如此困难?

Tom:这类模型的工作原理是输入 DNA 片段并预测现实世界的实验数据。当你追求更长范围、更高分辨率且包含多种实验模态时,会迅速触及计算极限和海量的显存占用。从工程角度来看,这极具挑战性。在开发 AlphaGenome 时,我们极其渴望打破这些权衡,将一切功能整合进同一个模型。

Dhavi:你们最终是如何攻克这个难题的?

Ziga:我们采用了序列切分技术,将长序列分成不同的子段,利用多个 TPU 并行处理。这种方法让单个 TPU 的显存压力骤减。关键在于确保这些 TPU 之间依然能实时“对话”,让序列开头的 TPU 1 能与序列末尾的 TPU 保持通信。

我至今记得和同事 Guido 吃午饭时分享这个灵感的场景。午饭结束时,我们都不确定这是否可行。几天后,他跑来告诉我:他用模拟数据跑通了一个原型,速度几乎与我们以前的训练循环一样快,且能处理超长序列。那一刻我激动不已,因为我知道我们从理论上打破了长序列与分辨率之间的枷锁。但在实践中,距离真正的成功其实还有很长的路要走,对吧 Tom?

Tom:没错。搞定模型并行化后,下一个难关是海量训练数据的吞吐。我们一度需要每秒加载 40-50 GB 的数据才能跟上训练速度。我们有两个核心发现:首先,生物数据其实极度稀疏(某些模态 99% 都是零值),因此我们将精力集中在极致的数据压缩与解压技术上,从而打破了加载瓶颈。

其次,我们对训练数据采取了“冷酷”的筛选标准,通过多轮质量检查,确保数据要么具有极高质量,要么能增加模型的多样性,从而提升泛化能力。搞定数据后,我们终于能高效迭代模型。在完善了 1D 轨迹预测后,我们转向了更具挑战性的 2D 数据——染色体接触图和 RNA 剪接。Jun,你在剪接方面投入了大量精力,那真是个棘手的问题。

Jun:是的,非常棘手。剪接(Splicing)是基因正确表达蛋白质的关键过程。遗传信息在基因组上是非连续编码的,必须通过剪接将这些信息拼接在一起。如果发生突变导致剪接缺陷,就会引发遗传病。我博士期间做过类似研究,但模型效果远不如现在。在 AlphaGenome 项目中,得益于卓越的团队、Guido 和 Tom 的工程支持,我们终于集齐了所有技术拼图。我们要预测的是极度稀疏的 2D 阵列而非 1D 轨迹,最终攻克它时我非常欣慰。这种能力在领域内是首创的。

Natasha:关于接触图(Contact Maps),它们是捕捉 DNA 区域间相互作用的 2D 矩阵。基因组在细胞核内折叠成复杂的三维形状,这种物理距离的接近(如启动子与增强子的互动)对基因调节至关重要。幸运的是,我们将这一 2D 模态成功引入了模型并实现了端到端训练,且没有牺牲其他模态的性能。

Ziga:事后看来,这符合逻辑:所有这些模态或测量手段,本质上都在观察同一种底层的生命过程(如转录或剪接)。但看到模型能同时兼容 1D 和 2D 预测且性能互不干扰,依然令人欣喜。

从论文“巨著”到人人能用的工具

Dhavi:随着新模态的加入,你们如何评估模型性能?

Natasha:我们的评估策略分为两部分:第一是验证模型在从未见过的 DNA 序列上的预测精度;第二,也是更具临床意义的,是变异效应预测。即通过对比有突变和无突变的两个序列,看模型能否重现下游的分子变化。虽然原理简单,但技术上,11GB 的模型输出让评分变得极其缓慢。

Tom:没错。为了解决“评分慢”的问题,几位工程师开发了一套变异评分 API,让聚合计算直接在运行模型的同一设备上并行完成。这极大地提升了效率,让我们能进行论文中呈现的大规模评估。

Natasha:我们尽可能全面地对模型进行了基准测试。早期我们面临的问题是如何结构化这种海量任务的评估。我们再次采用了“并行化”策略:每个成员各领一个领域(如一两个模态),独立完成从数据提取到图表生成的全流程。此外,我们也积极吸收了研究社区现有的基准。

Jun:只要条件允许,我们就会进行多层次验证:从分子的实验读数到机体的患病风险。我们特别惊喜地发现,在预测癌症驱动突变方面,模型能非常出色地重现湿实验的结果,将其从随机对照中准确筛选出来。

Dhavi:评估完成后,就到了写论文的阶段。

Natasha:没错,那篇论文长得简直像部小说(笑)。因为它涵盖的范畴实在太广了,我们希望给每个对比模型公正的评价,并深入挖掘每个模态。大家都很兴奋,经常看到一篇新论文或数据集就想往里加。但我认为,这种严谨让论文变得更强大。

Dhavi:从最初的原型到论文发表,整个过程历时多久?

Ziga:不到两年。团队成员曾挤在一间屋里,桌上摆满了显示器一起攻坚。那是段非常令人激动的时光,我为团队能共同发布这个模型和 API 感到自豪。

Dhavi:在模型接近完工时,我们开始思考如何与社区共享。

Tom:我们对目前这套 API 非常满意。我们希望外部用户能以最简单、最无门槛的方式使用它。现在,你只需打开一个 Notebook(代码笔记本),就能在没有 GPU、无需安装复杂驱动的情况下进行预测并可视化结果。这种易用性非常强大。

Dhavi:Jun,你对这个工具的应用最期待什么?

Jun:两点。第一,作为工具帮助科学家精准定位有害突变;第二,作为理解基础生物学的利器。希望它能帮助科学家高效利用有限的资源和经费,加速科研进程。

社区催更,AlphaGenome 下一步玩更大?

Dhavi:Ziga 和 Natasha,社区目前有哪些反馈?

Natasha:请求非常多。有人问能否做多碱基变异(如插入、缺失或大结构变异)。其实针对小型插入缺失(Indel)的功能我们已经做了,只是在文档中不够突出。

Ziga:还有人想要模型嵌入(Embeddings)或进行私有数据微调。在数据方面,很多人希望支持更多物种(目前仅限人与小鼠)、更多细胞类型。这些需求对我们未来的迭代方向至关重要。

Dhavi:大家最关心的问题,下一步是什么?

Jun:由于 API 会输出成千上万个原始评分,这超出了人类的直观阅读能力。我们正研究如何将这些评分总结为每个变异一个单一评分,帮助科学家优先筛选出最值得深入研究的变异。

Tom:我们还计划支持全基因组关联分析(GWAS)等超大规模研究。目前我们正考虑预计算尽可能多的变异数据,方便用户直接调用。

Natasha:我们还会发布模型权重!非常期待看到社区会用它进行怎样的创新。

Ziga:回到团队使命,我最期待的是利用最新的单细胞图谱(Single Cell Atlases)。技术进步让我们能不仅在组织层面,而是在组织内的个体细胞类型层面进行测量。如果将这些融入模型,我们将能更深入地研究与特定细胞类型病变相关的疾病。

1.https://www.youtube.com/watch?v=V8lhUqKqzUc

2.Avsec, Ž., Latysheva, N., Cheng, J. et al. Advancing regulatory variant effect prediction with AlphaGenome. Nature 649, 1206–1218 (2026). https://doi.org/10.1038/s41586-025-10014-0

3.http://deepmind.google/blog/alphagenome-ai-for-better-understanding-the-genome/

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“标准技校脸!”技校女生大合照走红,网友:感觉她们欺负过我!

“标准技校脸!”技校女生大合照走红,网友:感觉她们欺负过我!

林林先生
2026-01-29 11:29:12
已确认,浙江有大到暴雪!今晚变天

已确认,浙江有大到暴雪!今晚变天

鲁中晨报
2026-01-29 13:39:09
河北省委常委柯俊已任省人大常委会副主任、党组书记

河北省委常委柯俊已任省人大常委会副主任、党组书记

澎湃新闻
2026-01-29 18:15:04
把水卖给酒鬼?河南一药企“不务正业”,一年挣了40亿

把水卖给酒鬼?河南一药企“不务正业”,一年挣了40亿

毒sir财经
2026-01-28 15:27:05
3679元起!苹果突然上架多款 iPhone

3679元起!苹果突然上架多款 iPhone

科技堡垒
2026-01-27 11:49:24
扣5分罚40万!国安12字硬刚足协,背后藏着两大未解之谜

扣5分罚40万!国安12字硬刚足协,背后藏着两大未解之谜

桃叶渡春
2026-01-29 17:25:23
伊朗,现代人类文明的伤疤

伊朗,现代人类文明的伤疤

科海识贝sci
2026-01-15 16:44:32
我妈铁了心要嫁广场舞搭子,我没反对,领证前我说:你老了指望谁

我妈铁了心要嫁广场舞搭子,我没反对,领证前我说:你老了指望谁

朝暮书屋
2026-01-09 18:49:12
4换1交易方案出炉,场均19+5后卫加盟快船, 驰援卡登?

4换1交易方案出炉,场均19+5后卫加盟快船, 驰援卡登?

弄月公子
2026-01-29 10:56:09
中美俄罕见立场一致!佩斯科夫:只要她不下台,就没什么好谈的

中美俄罕见立场一致!佩斯科夫:只要她不下台,就没什么好谈的

泠泠说史
2026-01-29 17:32:37
1971年,刘思齐蒙冤入狱后向毛主席求助,毛泽东作出:娃娃们无罪

1971年,刘思齐蒙冤入狱后向毛主席求助,毛泽东作出:娃娃们无罪

史海孤雁
2026-01-27 18:02:17
26年央视春晚嘉宾名单曝光,牛鬼蛇神混子引争议

26年央视春晚嘉宾名单曝光,牛鬼蛇神混子引争议

杜鱂手工制作
2026-01-06 18:48:05
美国大使威胁:若加拿大不推进采购88架F-35战机 美军战机将更频繁进入加领空

美国大使威胁:若加拿大不推进采购88架F-35战机 美军战机将更频繁进入加领空

财联社
2026-01-27 22:04:25
英国国王自购的新车到了 全部用中国零部件组装而成

英国国王自购的新车到了 全部用中国零部件组装而成

沙雕小琳琳
2026-01-27 10:53:22
十四届全国人大社会建设委员会副主任委员孙绍骋被查

十四届全国人大社会建设委员会副主任委员孙绍骋被查

南方都市报
2026-01-29 18:06:28
交警扣押92岁老人,撂下狠话认识谁都没用,老人亮明身份引起震动

交警扣押92岁老人,撂下狠话认识谁都没用,老人亮明身份引起震动

兰姐说故事
2025-01-20 17:25:03
尼帕病毒来势汹汹,建议:每家最好备6样东西,关键时刻能救命呢

尼帕病毒来势汹汹,建议:每家最好备6样东西,关键时刻能救命呢

现代小青青慕慕
2026-01-28 08:59:53
传闻:李泽楷梁洛施分手,爆出30亿协议,其中一附加条款值得注意

传闻:李泽楷梁洛施分手,爆出30亿协议,其中一附加条款值得注意

卡西莫多的故事
2026-01-29 10:00:00
太顶了!明明什么都没露,却性感得要命!

太顶了!明明什么都没露,却性感得要命!

贵圈真乱
2025-12-20 12:02:06
曼城2-0加拉塔萨雷,赛后评分:不是哈兰德第一,曼城21号第一

曼城2-0加拉塔萨雷,赛后评分:不是哈兰德第一,曼城21号第一

凌空倒钩
2026-01-29 10:27:04
2026-01-29 18:48:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16197文章数 514560关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

女大学生到东北游玩晕倒雪地冻伤 三根手指或面临截肢

头条要闻

女大学生到东北游玩晕倒雪地冻伤 三根手指或面临截肢

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

张译不再隐瞒!公开回应退圈息影真相

财经要闻

崔东树:中国汽车未来年销或达5000万辆

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

亲子
家居
教育
健康
军事航空

亲子要闻

萌娃偷偷告诉妈妈:下次你再选老公,我来帮你

家居要闻

极简轻奢 家的无限可能

教育要闻

小学几何思维训练,求长方形面积

耳石症分类型,症状大不同

军事要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

无障碍浏览 进入关怀版