![]()
撰文丨王聪
编辑丨王多鱼
排版丨水成文
所有生命都是用 DNA 编码信息。尽管基因组测序、合成和基因组编辑工具已经改变了生物学研究,但我们对基因组所编码的巨大复杂性的理解,仍不充分,无法预测许多类型的基因组变化的影响,也无法智能地构建新的生物系统。
飞速发展的人工智能模型(AI Model)能够从不同生物的基因组序列中学习、提取信息,其预测和设计能力日益增强,为我们实现预测生命和设计生命提供了前所未有的机会。
2026 年 3 月 4 日,Arc 研究所的Patrick Hsu和Brian Hie团队联合斯坦福大学、加州大学伯克利分校、加州大学旧金山分校以及英伟达的科学家,在国际顶尖学术期刊Nature上发表了题为:Genome modelling and design across all domains of life with Evo 2 的研究论文。
这标志着有史以来最大的生物学人工智能模型(AI model for biology)——Evo-2,经过了同行评议后正式发表。该模型训练了从病毒到单细胞的细菌、古菌,再到真核生物以及多细胞的植物以及人类的生命之树中的 12.8 万个基因组的9.3 万亿个核苷酸,从而能够实现对所有生命域的理解、建模和设计遗传密码,从头开始编写整个染色体,甚至从头设计生命,还能准确预测所有类型的基因突变(包括编码基因和非编码基因)的影响。
Evo-2 的训练使用了 2000 多个英伟达 H100 GPU,并得到了英伟达研究人员和工程师的合作支持。更重要的是,Evo-2 是完全开源的,在 GitHub 上共享了模型参数、训练代码、推理代码以及训练使用的 OpenGenome 2 数据集。世界各地的研究人员可以通过英伟达 BioNeMo 平台免费访问以及部署 Evo-2,从而加速对生物复杂性的探索和设计。
![]()
Evo-1
2024 年 11 月 15 日,Patrick Hsu和Brian Hie团队在国际顶尖学术期刊Sciencce上发表了题为:Sequence modeling and design from molecular to genome scale with Evo 的研究论文,该论文还被选为当期封面论文。
该论文发布了首个在全基因组规模上以单核苷酸分辨率预测和生成 DNA 序列的 AI 模型——Evo。
Evo是在原核生物(细菌、古菌)和噬菌体的基因组上进行训练,能够在 DNA、RNA 和蛋白质模式下实现零样本功能预测,还能够生成长度超过百万碱基对的具有合理基因组结构的 DNA 序列。研究团队使用 Evo 生成了CRISPR-Cas分子复合物和IS200/IS605转座子,并验证了它们的功能活性,这也是首次通过语言模型实现蛋白质-RNA 和蛋白质-DNA 协同设计的实例。
![]()
![]()
Brian Hie(左)和Patrick Hsu(右)
Evo-2
所有生命都以DNA编码信息,就像人类用语言记录思想。尽管基因测序、合成和编辑技术已经相当成熟,但我们仍然难以完全理解基因组中蕴含的复杂信息,更无法精准预测基因突变的影响或智能设计新的生物系统。
Evo-2的核心理念是将DNA视为一种“生命语言”,通过大规模无监督学习,让 AI 自行掌握这种语言的语法和语义。
Evo-2 的前身 Evo 完全是在单细胞生命的基因组上进行训练的,而 Evo-2 进一步将其训练数据扩展到了生命的所有域——从细菌、古细菌、噬菌体,以及植物、动物、人类和其它单细胞和多细胞的真核生物,总计12.8 万个全基因组和宏基因组数据的 9.3 万亿个核苷酸(包含编码序列和非编码序列),训练参数高达 400 亿(Evo-2 有两个版本,训练参数分别是 70 亿和 400 亿)。训练过程使用了超过 2000 张英伟达 H100 GPU,持续数月时间,规模接近顶尖通用大模型。
![]()
Evo-2 最引人注目的技术突破是其 100 万个 token 的上下文窗口,相当于能够一次性处理长达 100 万碱基对的 DNA 序列。
在生物学中,许多关键功能依赖于长距离相互作用。例如,一个增强子可能距离它调控的基因数十万碱基之遥,通过染色体折叠在三维空间上接触目标基因。而传统模型受限于上下文长度,难以捕捉这种长距离相互作用关系。
为了实现这一能力,研究团队使用全新的StripedHyena 2架构,这是一种新的卷积混合架构,融合了输入依赖卷积和注意力机制,相比 Transformer 架构,能够大幅提高训练速度和推理效率,在处理长序列时比标准 Transformer 快了 3 倍,显存占用也更低。
![]()
Evo-2 的模型架构、训练程序、数据集和评估概述
核心能力:预测与生成的双重突破
1、零样本预测基因突变的影响
Evo-2 最强大的能力之一是零样本预测——无需针对特定任务进行微调,就能准确评估基因突变的功能影响。
在 ClinVar 数据库(包含人类疾病相关变异注释)的测试中,Evo-2 表现出色——
编码区单核苷酸突变:AUROC 达到 0.841,虽然略低于专门训练的 AlphaMissense(0.958),但作为通用模型已相当出色。
非编码区突变:表现尤为突出,AUROC 高达 0.987,显著优于其他模型。
复杂变异类型:对于插入、缺失、重复等非单核苷酸突变,Evo-2 更是全面领先。
精准预测剪接突变
剪接是基因表达的关键步骤,剪接错误与多种疾病相关。在 SpliceVarDB 数据集(包含实验验证的剪接突变)上,Evo-2 在内含子突变预测中与专业监督模型竞争激烈,略低于 SpliceAI 和 CADD,但优于 Pangolin;在外显子突变预测中,虽然落后于专业模型,但超越了所有零样本模型。
生成完整的基因组序列
除了预测,Evo-2 还能生成全新的DNA序列。研究团队用它生成了——
线粒体基因组(细胞中的能量工厂的遗传物质)
最小细菌基因组(生殖支原体)
酵母染色体(真核生物,染色体长达 33 万碱基对)。
这些生成的序列在结构上与自然序列高度相似,rRNA、tRNA 的数量分布也接近天然基因组。
![]()
Evo-2 跨越生命域的基因组规模的生成能力
重点应用:从临床诊断到合成生物学
临床基因突变解读与精准医疗
BRCA1是著名的乳腺癌易感基因,准确预测其突变后果对风险评估和预防策略至关重要。该研究显示,Evo-2 在没有针对特定任务进行训练(即零样本)的情况下,能够准确预测 BRCA1 基因的编码区和非编码区单核苷酸突变,这一能力扩展到相关基因 BRCA2 时同样突出,这表明了 Evo-2 是一个有效的零样本预测器,能够广泛应用于多种类型的人类功能性基因突变评估。
合成生物学与基因组工程
Evo-2 的生成能力为合成生物学开辟了新可能。通过推理时搜索技术,研究人员可以引导模型设计具有特定功能的 DNA 序列。例如,团队成功设计了具有预设染色质可及性模式的序列,甚至在表观基因组上“写”出了“EVO2”、“ARC”这样的摩斯电码。这种可控生成能力,使得定制化设计启动子、增强子等调控元件成为可能。
基础生物学研究
Evo-2 的内部表示捕捉了多种生物学特征,包括外显子-内含子边界(基因的结构单元)、转录因子结合位点(基因开关)、蛋白质结构元素(α螺旋、β折叠)、噬菌体基因组区域(细菌病毒的遗传物质)。这些发现不仅验证了模型的学习能力,也为发现新的功能元件提供了工具。
开放生态:加速生命科学创新
与许多封闭的 AI 模型不同,Evo-2 实现了完全开源——包括模型参数、训练代码、推理代码以及 OpenGenome2 数据集。
这种开放性对生物计算领域是结构性的事件。长期以来,该领域被工具生态割裂、数据许可复杂、基准标准不统一所困扰。Evo-2 的完全开源意味着它不是一个“演示模型”,而是一个可能成为标准生态的平台。
生物学开始拥有自己的“通用底座”,研究人员可以在其基础上开发各种应用,加速整个领域的创新。
生物安全与伦理考量
值得一提的是,研究团队在生物安全方面采取了谨慎措施,在训练数据中排除了能够感染真核生物的病毒序列,以确保模型不会被滥用于设计和操纵致病性病毒。
这一策略不仅降低了潜在的生物安全风险,也体现了对伦理问题的高度重视。团队验证了这些数据排除导致模型对真核病毒基因组序列的建模性能较差,表明数据排除达到了预期效果。
总的来说,Evo 系列模型为生物学建模与设计奠定了基础,该框架通过统一的表征方式整合了生物学的多尺度特征。这些能力结合大规模 DNA 操作技术,或将实现更复杂生物功能的可编程设计。预计未来通过整合基因组序列数据与其他模态数据,有望开发出能够有效模拟健康与疾病状态下复杂表型的模型。
Evo-2 的出现标志着生命科学正站在一个新时代的门槛,当 AI 不仅能读懂基因组的“语言”,还能像作家一样创作全新的生命代码,我们对于生命的理解和设计能力将发生质的飞跃。
论文链接:
https://www.nature.com/articles/s41586-026-10176-5
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.