2008年,科学家做了一件非凡的事情。他们第一次在实验室中构建了细菌的完整遗传密码。这为将合成基因组放入细胞并以某种方式"重启"生物机器奠定了基础。许多科学家将其描述为第一种合成生命形式。现在,科学家们有了AI,他们能更向前迈进一步吗?
![]()
我们知道AI能够学习跨越数万亿个DNA字母的模式。这能否将基因组设计从手动工程转向机器生成?这正是由加利福尼亚州Palo Alto研究所的计算生物学家Brian Hie与生物工程师Patrick Hsu领导的研究团队着手探索的。
在一篇新的《自然》论文中,研究人员介绍了Evo2,这是一个在来自生命之树上的数万亿个DNA字母上训练的新AI模型。利用该系统,团队生成了完整的基因组序列,包括一个受生殖支原体细菌启发的序列。
为什么这很重要?如果AI能够设计可工作的基因组,它可能会极大地加速合成生物学。这将允许科学家为医学、能源、生物技术和其他用例创造全新的生物体。
Evo2模型的细节于3月4日发表在《自然》杂志的一篇论文中。
该模型的工作原理是将DNA视为语言。然而,它不使用单词,而是分析构成基因组的遗传字母长串。研究人员声称,该模型是在从细菌、植物、动物和其他生命形式中收集的数千个生物体的数万亿个DNA碱基上训练的。
![]()
Evo2研究这些序列,以学习基因和其他基因组特征如何在真实基因组中出现和相互作用。因此,不是像大型语言模型那样预测文本中的下一个单词,Evo2预测哪些DNA序列在生物学上是合理的。
许多基因组AI模型做类似的事情,但Evo2在一些重要方面有所不同。早期的基因组AI模型通常专注于短的DNA片段,Evo2的设计目的是在更大的规模上运行。该系统可以模拟数百万个字母长的序列。这使它能够捕获跨越整个基因组区域的模式。
在这种规模上工作使模型能够捕获基因组的不同部分如何相互交互。当尝试生成类似于完整基因组的长DNA序列时,这种能力至关重要。
"这些AI模型是合成基因组学的'ChatGPT时刻',"英国曼彻斯特大学的基因组工程师Patrick Yizhi Cai说。"你可以开始编写自然界中从未存在过的东西。"Cai是对这项工作进行评论的独立专家。
Evo2的开发者对它进行了测试,要求模型生成受生殖支原体启发的基因组规模DNA序列——这是一种以拥有任何自由生物中最小基因组之一的细菌而闻名。这种细菌经常用于合成生物学研究,因为它的基因组很小且相对简单。这使它成为针对构建或重新设计基因组实验的一个有用起点。
根据研究人员的说法,Evo2成功生成了遵循真实基因组中观察到的结构模式的长段DNA。这为设计新生物体提供了可能的蓝图。
值得记住的是,在实验室中设计DNA只是第一步。对模型来说看起来合理的序列不一定能在活细胞中发挥作用。
"这很酷,但还没到那个地步,"荷兰瓦赫宁根大学的合成生物学家Nico Claassens说。
一个挑战是AI设计的基因组仍然需要在实验室中合成和测试。另一个挑战是设计能够控制活细胞所有基本功能的DNA。科学家花了数十年时间学习如何读取DNA。最近,CRISPR等技术使研究人员能够越来越精确地编辑基因。像Evo2这样的系统暗示了一个新阶段,AI可能有助于从头开始设计整个基因组。
![]()
如果这些工具成熟并在不同环境中进行测试,合成生物学可能逐渐从修改现有生物体转向直接从数据中设计新的生物系统。AI最终是否会帮助创造功能齐全的合成生命尚待观察,但前进的方向正变得越来越清晰——而且快得多。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.