网易首页 > 网易号 > 正文 申请入驻

一个跨越所有生命领域的基因组基础模型,实现基因组建模与设计

0
分享至



编辑丨&

生命的所有信息都编码在 DNA 中。尽管基因组测序、合成和编辑工具已彻底改变了生物学研究,但我们仍然缺乏对基因组浩瀚复杂性的足够理解——无法精准预测大多数基因变化的后果,更无法智能地设计全新的生物系统。

但一切都可以从零开始。Arc 研究所、英伟达、斯坦福大学等机构带来了 Evo 2——一个在 9 万亿 DNA 碱基对上训练、覆盖细菌、古菌、真核生物和噬菌体所有生命领域的基因组基础模型。他们利用 Evo 2 设计了全基因组序列,其中包括一个受生殖单粒(M. genitalium)启发的序列。

相关研究以「Genome modelling and design across all domains of life with Evo 2」为题,于 2026 年 3 月 4 日发布在《Nature》。



论文链接:https://www.nature.com/articles/s41586-026-10176-5

通用基因语言模型

基于其前身 Evo 1,Evo 2 完全基于单细胞基因组训练,Evo 2是迄今为止生物学领域最大的人工智能模型。除了扩展的细菌、古菌和噬菌体基因组收藏外,Evo 2 还包括来自人类、植物及其他真核生物领域中单细胞和多细胞物种的信息。

当下研究团队共训练了两个版本的 Evo 2:一个较小版本,拥有 70 亿参数;一个更大版本,包含 400 亿参数。这些数据均来自于 OpenGenome2 的新训练数据集,由经过精心整理的非冗余核苷酸序列数据汇编而成,总共超过 8.8 万亿个核苷酸。



图 1:Evo 2 的模型架构、训练过程、数据集及评估概述。

在技术层面,Evo2 基于 StripedHyena 2 架构。这一架构融合了卷积与高效注意力机制,专门优化超长序列建模能力。与经典 Transformer 相比,该架构在长序列建模上更具计算效率,使万亿级训练成为现实。

更重要的是,Evo2 并非为某一单一任务优化,而是一个可迁移的基础表示模型——下游任务仅需微调或零样本推断即可完成。通过计算序列的似然概率,Evo 2 可以零样本预测突变对蛋白质、RNA 乃至整个生物体适应度的影响。而作为生成模型,Evo 2 可以根据给定提示,续写出完整、自然的基因组序列,从线粒体到细菌染色体。

特征解读

倘若想深入模型内部,探究黑箱其中的秘密,研究团队同样也准备了工具——稀疏自编码器(SAE)。它将模型的神经元激活模式分解为稀疏、高维的表示,其中每个潜在维度往往呈现出人类可解释的模式。



图 2:Evo 2 的机制可解释性揭示了 DNA、RNA、蛋白质和生物体层面特征。

通过寻找包含特定注释的序列片段中的特征并与已学习的 SAE 潜在维度、已知生物学概念匹配,团队成功发现了大肠杆菌有关特征、人类基因启动子的激活、人类基因中外显子和内含子结构密切相关的特征。这些发现证明,Evo 2 的内部表示捕获了从移动遗传元件、调控基序到蛋白质二级结构的广泛生物学信号。

变异、序列、进化

鉴于 Evo 2 能够学习中心法则三种模态(DNA、RNA 和蛋白质)以及生命的三个领域中的概然图景,团队尝试在多个维度对该模型进行性能上的验证。

  1. 人类变异效应预测:这是 Evo 2 最亮眼的应用之一。在评估中,对于非 SNV(插入、缺失、重复),Evo 2 40B 在所有方法中排名第一;对于非编码区 SNV,Evo 2 在无监督模型中排名第一。



图 3:Evo 2 实现了准确的零射击人类变异效应预测。

  1. 基因组规模生成
  • 线粒体基因组:Evo 2 能生成完整的 16kb 人类线粒体 DNA,包含正确的编码序列数量、tRNA 和 rRNA 基因数量,并保持正确的共线性。
  • 原核基因组:在生成生殖支原体基因组时,Evo 2生成的基因中近 70% 具有显著 Pfam hit,远超 Evo 1 的 18%。
  • 真核染色体:Evo 2 能生成酵母染色体III(约 330kb)规模的 DNA,包含 tRNA、启动子和具有内含子结构的基因。



图 4:跨生命领域的基因组尺度生成。

  1. 引导生成特定染色质模式: 这是 Evo 2 最令人惊叹的应用。团队将 Evo 2 与染色质可及性预测模型 Enformer和 Borzoi 结合,通过束搜索引导生成,使 Evo 2 能够按需设计出特定位置和长度的染色质开放区域。 他们甚至用这种技术在小鼠基因组中写入了摩斯密码消息("EVO2"、"ARC"、"LO"),并通过实验验证——将合成的DNA整合到小鼠胚胎干细胞中。

最大规模的开源生物基础模型

Evo 2 团队秉持开放科学理念,发布了模型的 40B、7B、1B 版本,并给出了完整的 OpenGenome2 训练数据集。在生物安全方面,团队采取了负责任的设计:他们将感染人类及其他复杂生物的病原体排除在Evo 2的基础数据集中,并确保模型不会对这些病原体的询问提供有建设性答案。

虽然 Evo 2 生成的序列在计算机指标上更“自然”,但这不保证序列在细胞中具有功能。基因组规模的设计还缺少一些必需基因,实验测试需要大规模、迭代的努力。未来的方向一定是与大规模DNA合成技术结合、引入实验反馈的强化学习。这些方向将使 Evo 2 走向真正可编程的复杂生物系统设计。

相关报道:https://www.nature.com/articles/d41586-026-00681-y

https://phys.org/news/2026-03-evo-ai-genetic-code-domains.html

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
无缘世界杯?伊拉克通知国际足联无法参加附加赛 40%球员无法出行

无缘世界杯?伊拉克通知国际足联无法参加附加赛 40%球员无法出行

念洲
2026-03-07 06:17:28
熬了8年!高速收费终于定了,2026年起,车主上高速彻底变了

熬了8年!高速收费终于定了,2026年起,车主上高速彻底变了

奇思妙想草叶君
2026-03-06 23:23:57
山东某银行员工年终收入

山东某银行员工年终收入

济宁人
2026-03-06 08:21:01
贾国龙“消失”了,留下员工为他买单

贾国龙“消失”了,留下员工为他买单

财闻
2026-03-06 21:40:22
17岁男生发现新物种筷子蛇 直接发SCI期刊封神

17岁男生发现新物种筷子蛇 直接发SCI期刊封神

快科技
2026-03-06 12:37:06
AI情色工厂

AI情色工厂

南七道
2026-03-06 17:03:08
伊朗军方称不会关闭霍尔木兹海峡

伊朗军方称不会关闭霍尔木兹海峡

国际在线
2026-03-07 06:50:02
局势逆转,伊朗接连击落美战机,特朗普又收到噩耗,美军弹药见底

局势逆转,伊朗接连击落美战机,特朗普又收到噩耗,美军弹药见底

基斯默默
2026-03-06 16:42:00
美国战争研究所:红军城方向战斗逐渐减弱,俄军正在囤积更多物资

美国战争研究所:红军城方向战斗逐渐减弱,俄军正在囤积更多物资

碳基生物关怀组织
2026-03-06 23:27:45
李嘉诚再开金口:未来十年,中国近一半家庭,将面临6大难题?

李嘉诚再开金口:未来十年,中国近一半家庭,将面临6大难题?

巢客HOME
2026-03-07 00:25:03
中国女篮拒14分逆转双杀巴西获4连胜 刘禹彤17+7张子宇11分

中国女篮拒14分逆转双杀巴西获4连胜 刘禹彤17+7张子宇11分

醉卧浮生
2026-03-06 21:13:26
特朗普宣称“与伊朗不会达成任何协议”

特朗普宣称“与伊朗不会达成任何协议”

新华社
2026-03-06 22:14:06
广东一女子收到男友送的生日礼物刮刮乐花束,刮出一等奖80万元,最新回应:奖金将孝敬父母、旅游、存银行

广东一女子收到男友送的生日礼物刮刮乐花束,刮出一等奖80万元,最新回应:奖金将孝敬父母、旅游、存银行

大象新闻
2026-03-06 02:03:20
这款伊朗的“穷人巡航导弹”,把美国打心疼了

这款伊朗的“穷人巡航导弹”,把美国打心疼了

枢密院十号
2026-03-06 21:29:22
“不想为以色列卖命”:帝国最后的遮羞布,美式民主终成笑话

“不想为以色列卖命”:帝国最后的遮羞布,美式民主终成笑话

怪口历史的K先生
2026-03-06 15:22:51
特殊时点,金正恩再上“最大的船”

特殊时点,金正恩再上“最大的船”

中国新闻周刊
2026-03-06 18:14:11
伊朗导弹千里猎杀,美驱逐舰燃起大火?特朗普一句话震动全球

伊朗导弹千里猎杀,美驱逐舰燃起大火?特朗普一句话震动全球

东极妙严
2026-03-06 15:09:57
硅谷在封,中国在抢:OpenClaw到底改变了什么?

硅谷在封,中国在抢:OpenClaw到底改变了什么?

版面之外
2026-03-06 17:35:42
伊朗反击变弱,导弹和无人机数量断崖式下降,这是一个危险的信号

伊朗反击变弱,导弹和无人机数量断崖式下降,这是一个危险的信号

麓谷隐士
2026-03-06 07:37:46
拉里贾尼才是伊朗现在真正的实权派?接班哈梅内伊他还不够资格

拉里贾尼才是伊朗现在真正的实权派?接班哈梅内伊他还不够资格

合赞历史
2026-03-06 11:51:29
2026-03-07 07:35:00
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1245文章数 224关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

伊朗称向美军“林肯”号航母发射导弹

头条要闻

伊朗称向美军“林肯”号航母发射导弹

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

家居
数码
本地
时尚
公开课

家居要闻

暖棕撞色 轻法奶油风

数码要闻

AYANEO Pocket AIR Mini x B.Duck小黄鸭联名限定款掌机亮相

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

这些才是适合普通人的穿搭!搭配腰带、多穿牛仔裤,简单舒适

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版