![]()
撰文丨易
理解生命蓝图的复杂性是生物学的核心挑战之一。DNA作为所有生命形式的信息载体,其序列编码了从分子功能到系统行为的全部指令。尽管基因组测序、合成和编辑技术已取得长足进步,但我们仍然缺乏足够的知识来预测大多数基因组变化的影响,或是有逻辑地设计全新的生物系统。传统方法在解析非编码区域的功能、理解跨物种的保守性以及从零开始设计功能性基因组方面存在显著瓶颈。近年来,从海量生物序列数据中学习的人工智能模型,为预测和设计生物功能提供了新的可能。然而,现有的模型通常在数据广度(覆盖所有生命域)、序列上下文长度(理解长距离基因组相互作用)以及多功能性(统一处理DNA、RNA和蛋白质)方面存在局限。Evo 1等先前模型主要专注于原核生物,对更复杂、含有大量非编码区的真核基因组建模能力不足。因此,开发一个能够整合所有生命形式、跨越不同生物组织层次、并兼具强大预测与生成能力的通用基因组基础模型,成为推动计算生物学和合成生物学发展的关键需求。
近日,美国弧形研究所Brian L. Hie和Patrick D. Hsu在Nature期刊发表题为Genome modelling and design across all domains of life with Evo 2的研究论文,开发了能够统一理解并设计生命全领域基因组的Evo 2模型,它不仅实现了在基因组序列变异功能预测方面的突破,还能在外部功能模型的引导下生成具有预设表观遗传模式的合成DNA序列。
![]()
研究团队 首先利用了一个覆盖细菌、古菌、真核生物和噬菌体、包含超过9万亿个DNA碱基对的超大规模基因组数据集,并采用创新的StripedHyena 2卷积混合架构,训练出了拥有百万个token上下文窗口的基础模型Evo 2。该方法使模型具备了理解长程基因组相互作用的空前能力。结果显示,Evo 2能够零样本地准确预测遗传变异的功能影响,其序列似然度的变化精准反映了从启动子、密码子到不同物种遗传密码的进化约束,并在人类临床变异预测上实现了对以往通用模型的超越,特别是在非SNV变异和BRCA1非编码区变异预测上表现优异。
随后, 研究团队 通过可解释性分析技术,对模型内部的表示进行了解析。利用稀疏自编码器分析Evo 2的神经元激活模式,该方法揭示出模型内部自发学习到了丰富且可解释的生物学特征。研究结果证实,模型学到的抽象特征直接关联于外显子-内含子边界、转录因子结合位点、蛋白质二级结构乃至原噬菌体区域等多种核心生物元件,表明这个模型确实建立了对基因组语法和语义的深度理解。
进一步, 研究团队 评估了Evo 2作为生成模型的强大能力。通过设计基因补全、细胞器及微型基因组生成等一系列任务,该方法展示了模型从提示信息中生成连贯、合理生物序列的潜力。结果表明,Evo 2生成的线粒体基因组在基因组成和顺序上高度仿真,生成的原核基因组中大部分基因含有有意义的蛋白质结构域,其生成的蛋白质在长度和二级结构分布上与天然蛋白相似,证明了其在基因组尺度设计的可行性。
然后,作者将Evo 2的生成能力与外部预测模型结合,开创性地提出了一个推理时引导的设计范式。该方法的核心是利用Evo 2作为序列生成器,同时以染色质可及性预测模型作为“指导评分函数”,通过波束搜索技术进行优化。研究结果取得了突破性成功:Evo 2成功生成了包含特定“莫尔斯电码”图案在内的复杂染色质开放模式的DNA序列,并将这些序列在小鼠和人类细胞中进行了实验验证。实验测得的染色质可及性图谱与设计目标高度吻合,准确率极高,且生成序列中富含与细胞类型相关的转录因子结合基序,展现出超越简单随机生成策略的生物学合理性。
总结而言,本研究通过构建一个超大规模、长上下文的基因组基础模型Evo 2,系统性地结合了零样本预测、可解释性分析、大规模序列生成和推理时引导设计等多种方法。其结果不仅证明了该模型在理解遗传密码、预测变异影响方面达到了新的高度,更重要的是,它成功地将强大的生成能力与特定的功能设计目标相结合,首次实现了对哺乳动物细胞表观基因组状态的按需编程,为人工智能驱动的基因组理解和设计建立了全新的强大平台。
https://doi.org/10.1038/s41586-026-10176-5
制版人: 十一
学术合作组织
(*排名不分先后)
![]()
战略合作伙伴
(*排名不分先后)
![]()
![]()
转载须知
【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。
BioArt
Med
Plants
人才招聘
![]()
点击主页推荐活动
关注更多最新活动!
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.