大基因组模型：基于万亿碱基训练的开源AI|含子|翻译|序列|位点|dna|rna|开源ai

大基因组模型：基于万亿碱基训练的开源AI

2026-03-05 15:26:03　来源: 至顶科技

北京举报

分享至

2025年底，我们报道了一个名为Evo的AI系统的发展，该系统在大量细菌基因组上进行训练。训练数据如此庞大，以至于当给出一组相关基因序列时，它能够正确识别下一个基因或建议一个全新的蛋白质。

该系统之所以有效，是因为细菌倾向于将相关基因聚集在一起——这在具有复杂细胞的生物体中并不适用，这些生物体往往具有同样复杂的基因组结构。鉴于此，我们的报道指出，"目前尚不清楚这种方法是否适用于更复杂的基因组。"

显然，Evo背后的团队将此视为一项挑战，因为今天他们正在描述Evo 2，这是一个开源AI，已经在生命三大域（细菌、古细菌和真核生物）的基因组上进行训练。在对万亿个DNA碱基对进行训练后，Evo 2发展出了对我们这样复杂基因组中关键特征的内在表示，包括调节DNA和剪切位点等对人类来说难以发现的元素。

基因组特征

细菌基因组按照相对简单的原则组织。任何编码蛋白质或RNA的基因都是连续的，编码序列中没有中断。执行相关功能的基因，如代谢糖类或产生氨基酸，往往聚集在一起，使它们能够被一个紧凑的调节系统控制。这一切都很简单高效。

真核生物则不同。基因的编码部分被内含子打断，内含子不编码任何东西。它们由可能分散在数十万个碱基对上的序列调节。定义内含子边界或调节蛋白结合位点的序列都是弱定义的——虽然它们有一些绝对必需的碱基，但有很多碱基只是有高于平均水平的倾向具有特定碱基（比如"45%的时间是T"）。在大多数真核基因组中围绕所有这些的是大量被称为垃圾的DNA：非活跃病毒、严重损坏的基因等。

这种复杂性使得真核基因组更难解释。虽然已经开发了许多专门工具来识别剪切位点等特征，但它们都有足够的错误倾向，以至于在分析30亿碱基长的基因组这样大的东西时会成为问题。我们可以通过进行进化比较和寻找保守序列来学到更多，但这有局限性，我们通常对物种间的差异同样感兴趣。

然而，这些统计概率非常适合神经网络，神经网络擅长识别肉眼无法察觉的微妙模式。但你需要绝对大量的数据和计算时间来处理并挑选出一些这些微妙特征。

我们现在拥有该过程所需的原始基因组数据。然而，建立一个系统将其输入有效的AI训练程序仍然是一个挑战。这就是Evo背后团队承担的挑战。

训练大基因组模型

Evo 2系统的基础是一个名为StripedHyena 2的卷积神经网络。训练分两个阶段进行。初始阶段侧重于通过向系统提供富含重要基因组特征的约8000个碱基长的序列块来教授系统识别这些特征。之后，第二阶段一次提供一百万个碱基的序列，为系统提供识别大规模基因组特征的机会。

研究人员使用名为OpenGenome2的数据集训练了两个版本的系统，该数据集包含来自生命三大域以及感染细菌的病毒的8.8万亿个碱基。他们没有包括攻击真核生物的病毒，因为他们担心系统可能被误用来创造对人类的威胁。训练了两个版本：一个具有70亿参数，使用2.4万亿个碱基调整；完整版本具有400亿参数，在完整的开放基因组数据集上训练。

训练背后的逻辑相当简单：如果某些东西重要到足以在许多物种中进化保守，它将在多个环境中出现，系统应该在训练期间重复看到它。研究人员写道："通过学习大量进化数据集中序列的可能性，生物序列模型捕获通常反映功能重要性的保守序列模式。这些约束允许模型在没有任何任务特定微调或监督的情况下执行零样本预测。"

最后这个方面很重要。例如，我们可以告诉它已知剪切位点的样子，这可能有助于它挑选出额外的剪切位点。但这可能使它更难识别我们尚未识别的任何不寻常剪切位点。跳过微调也可能帮助它识别我们目前根本不知道但可能通过未来研究变得明显的基因组特征。

所有这些现在都已向公众开放。论文宣布："我们已经完全开放了Evo 2，包括模型参数、训练代码、推理代码和OpenGenome2数据集。"

研究人员还使用了一个能够识别神经网络内部特征的系统来探索Evo 2内部，找出它学会识别的东西。他们训练了一个单独的神经网络来识别Evo 2中的激发模式并识别其中的高级特征。它清楚地识别了蛋白质编码区域和围绕它们的内含子边界。它还能够识别编码区域内蛋白质的一些结构特征（α螺旋和β折叠），以及破坏其编码序列的突变。甚至像移动遗传元件（你可以将其视为DNA级寄生虫）这样的东西最终都在Evo 2中有了特征。

这有什么用？

为了测试系统，研究人员开始进行单碱基突变并将它们输入Evo 2以观察其反应。Evo 2能够检测当突变影响DNA中转录为RNA开始的位点或将RNA翻译为蛋白质开始的位点时的问题。它还识别突变的严重性。那些会中断蛋白质翻译的突变，如引入停止信号，被识别为比那些保持翻译完整的突变更重要的变化。

它还识别序列何时根本不被翻译。许多关键的细胞功能直接由RNA执行，Evo 2能够识别突变何时也破坏了这些功能。

令人印象深刻的是，识别真核基因组特征的能力在没有失去识别细菌和古细菌特征能力的情况下发生。事实上，系统似乎能够确定它在哪个物种中工作。许多进化群体使用具有不同信号集的遗传密码来停止蛋白质翻译。Evo 2能够识别何时查看来自这些物种之一的序列，并为它们使用正确的遗传密码。

它还擅长识别能容忍大量变异性的特征，如信号从蛋白质编码序列中剪切RNA以去除内含子的位点。从某些测量来看，它比专门用于该任务的软件更好。在评估BRCA2基因中的突变时也是如此，其中许多突变与癌症相关。给定已知BRCA2突变的额外训练，其性能进一步改善。

总体而言，Evo 2似乎非常适合评估基因组和识别关键特征。构建它的研究人员建议它可以作为初步基因组注释的良好自动化工具。

但Evo早期版本的惊人之处在于，当给出包含已知细菌基因的序列块时，它的一些回应包括具有相关功能的全新蛋白质。现在它在更复杂的真核基因上进行了训练，它能做同样的事情吗？

我们并不完全知道。如果给它一堆来自酵母（真核生物）的DNA，它会回应一个包含功能RNA和具有调节信息和剪切位点的基因样序列的序列。但研究人员没有测试任何蛋白质是否有特定作用。而且很难看出他们如何能做这个测试。对于细菌基因，他们可以安全地假设AI生成的基因应该做与附近基因相关的事情。但这在真核生物中通常不是这样，所以很难猜测他们应该测试哪些功能。

在一个稍微更有信息性的测试中，研究人员要求Evo 2在给出关于在这两种细胞类型中活跃序列的信息后，制作一些在一种细胞类型中活跃而在另一种中不活跃的调节DNA。产生的序列然后被插入这些细胞并进行测试，但结果相当弱，只有17%的序列在两种细胞类型之间的活性差异达到两倍或更多。这是一个重大成就，但它不在设计全新蛋白质的同一领域。

接下来是什么？

总的来说，鉴于这在描述原始Evo的论文发表不到四个月后就出现了，没有做更多工作来测试Evo 2在设计生物学相关DNA序列方面的能力一点也不令人惊讶。生物学实验很困难且耗时，而且提前判断哪些实验会提供最令人信服的信息并不总是容易的。所以我们可能要等几个月到几年才能发现社区是否能找到Evo 2的有趣用途，以及它是否擅长解决任何有用的蛋白质设计问题。

还有一个问题是进一步的训练和专业化是否可以创造出在特定任务方面特别擅长的Evo 2相关系统，如评估癌细胞基因组或注释新测序的基因组。在某种程度上，研究团队似乎想要发布这个系统，以便其他人可以开始探索如何使用它；这与所有软件都被开放的事实一致。

一个巨大的开放问题是这个系统是否识别了我们不知道如何测试的任何东西。像内含子/外显子边界和调节DNA这样的东西已经经过几十年的研究，我们已经知道如何寻找它们，并且可以识别Evo 2何时发现它们。但在过去几十年中，我们在基因组中发现了稳定的新特征流——CRISPR重复序列、微RNA等。在技术上仍然可能存在我们尚不知道的基因组特征，而Evo 2已经挑选出了它们。

可以想象使用这里描述的工具来查询Evo 2并挑选出新的基因组特征的方法。所以我期待看到这种工作最终可能产生什么。

Q&A

Q1：Evo 2是什么？它有什么特别之处？

A：Evo 2是一个开源AI系统，基于名为StripedHyena 2的卷积神经网络构建。它在包含8.8万亿个碱基的生命三大域（细菌、古细菌和真核生物）基因组数据上进行训练。与之前只能处理细菌基因组的Evo不同，Evo 2能够识别复杂真核基因组中的关键特征，如调节DNA和剪切位点。

Q2：Evo 2如何训练？使用了多少数据？

A：Evo 2采用两阶段训练方法。第一阶段通过8000个碱基长的序列块教授系统识别重要基因组特征；第二阶段一次处理一百万个碱基的序列来识别大规模基因组特征。研究团队训练了两个版本：70亿参数版本使用2.4万亿个碱基，400亿参数完整版本在整个OpenGenome2数据集上训练。

Q3：Evo 2能够识别哪些基因组特征？

A：Evo 2能够识别多种复杂的基因组特征，包括蛋白质编码区域、内含子边界、剪切位点、调节DNA、转录和翻译起始位点，甚至能识别蛋白质结构特征如α螺旋和β折叠。它还能检测突变的严重性，识别移动遗传元件，并根据不同物种使用正确的遗传密码。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.