网易首页 > 网易号 > 正文 申请入驻

大基因组模型:基于万亿碱基训练的开源AI

0
分享至


2025年底,我们报道了一个名为Evo的AI系统的发展,该系统在大量细菌基因组上进行训练。训练数据如此庞大,以至于当给出一组相关基因序列时,它能够正确识别下一个基因或建议一个全新的蛋白质。

该系统之所以有效,是因为细菌倾向于将相关基因聚集在一起——这在具有复杂细胞的生物体中并不适用,这些生物体往往具有同样复杂的基因组结构。鉴于此,我们的报道指出,"目前尚不清楚这种方法是否适用于更复杂的基因组。"

显然,Evo背后的团队将此视为一项挑战,因为今天他们正在描述Evo 2,这是一个开源AI,已经在生命三大域(细菌、古细菌和真核生物)的基因组上进行训练。在对万亿个DNA碱基对进行训练后,Evo 2发展出了对我们这样复杂基因组中关键特征的内在表示,包括调节DNA和剪切位点等对人类来说难以发现的元素。

基因组特征

细菌基因组按照相对简单的原则组织。任何编码蛋白质或RNA的基因都是连续的,编码序列中没有中断。执行相关功能的基因,如代谢糖类或产生氨基酸,往往聚集在一起,使它们能够被一个紧凑的调节系统控制。这一切都很简单高效。

真核生物则不同。基因的编码部分被内含子打断,内含子不编码任何东西。它们由可能分散在数十万个碱基对上的序列调节。定义内含子边界或调节蛋白结合位点的序列都是弱定义的——虽然它们有一些绝对必需的碱基,但有很多碱基只是有高于平均水平的倾向具有特定碱基(比如"45%的时间是T")。在大多数真核基因组中围绕所有这些的是大量被称为垃圾的DNA:非活跃病毒、严重损坏的基因等。

这种复杂性使得真核基因组更难解释。虽然已经开发了许多专门工具来识别剪切位点等特征,但它们都有足够的错误倾向,以至于在分析30亿碱基长的基因组这样大的东西时会成为问题。我们可以通过进行进化比较和寻找保守序列来学到更多,但这有局限性,我们通常对物种间的差异同样感兴趣。

然而,这些统计概率非常适合神经网络,神经网络擅长识别肉眼无法察觉的微妙模式。但你需要绝对大量的数据和计算时间来处理并挑选出一些这些微妙特征。

我们现在拥有该过程所需的原始基因组数据。然而,建立一个系统将其输入有效的AI训练程序仍然是一个挑战。这就是Evo背后团队承担的挑战。

训练大基因组模型

Evo 2系统的基础是一个名为StripedHyena 2的卷积神经网络。训练分两个阶段进行。初始阶段侧重于通过向系统提供富含重要基因组特征的约8000个碱基长的序列块来教授系统识别这些特征。之后,第二阶段一次提供一百万个碱基的序列,为系统提供识别大规模基因组特征的机会。

研究人员使用名为OpenGenome2的数据集训练了两个版本的系统,该数据集包含来自生命三大域以及感染细菌的病毒的8.8万亿个碱基。他们没有包括攻击真核生物的病毒,因为他们担心系统可能被误用来创造对人类的威胁。训练了两个版本:一个具有70亿参数,使用2.4万亿个碱基调整;完整版本具有400亿参数,在完整的开放基因组数据集上训练。

训练背后的逻辑相当简单:如果某些东西重要到足以在许多物种中进化保守,它将在多个环境中出现,系统应该在训练期间重复看到它。研究人员写道:"通过学习大量进化数据集中序列的可能性,生物序列模型捕获通常反映功能重要性的保守序列模式。这些约束允许模型在没有任何任务特定微调或监督的情况下执行零样本预测。"

最后这个方面很重要。例如,我们可以告诉它已知剪切位点的样子,这可能有助于它挑选出额外的剪切位点。但这可能使它更难识别我们尚未识别的任何不寻常剪切位点。跳过微调也可能帮助它识别我们目前根本不知道但可能通过未来研究变得明显的基因组特征。

所有这些现在都已向公众开放。论文宣布:"我们已经完全开放了Evo 2,包括模型参数、训练代码、推理代码和OpenGenome2数据集。"

研究人员还使用了一个能够识别神经网络内部特征的系统来探索Evo 2内部,找出它学会识别的东西。他们训练了一个单独的神经网络来识别Evo 2中的激发模式并识别其中的高级特征。它清楚地识别了蛋白质编码区域和围绕它们的内含子边界。它还能够识别编码区域内蛋白质的一些结构特征(α螺旋和β折叠),以及破坏其编码序列的突变。甚至像移动遗传元件(你可以将其视为DNA级寄生虫)这样的东西最终都在Evo 2中有了特征。

这有什么用?

为了测试系统,研究人员开始进行单碱基突变并将它们输入Evo 2以观察其反应。Evo 2能够检测当突变影响DNA中转录为RNA开始的位点或将RNA翻译为蛋白质开始的位点时的问题。它还识别突变的严重性。那些会中断蛋白质翻译的突变,如引入停止信号,被识别为比那些保持翻译完整的突变更重要的变化。

它还识别序列何时根本不被翻译。许多关键的细胞功能直接由RNA执行,Evo 2能够识别突变何时也破坏了这些功能。

令人印象深刻的是,识别真核基因组特征的能力在没有失去识别细菌和古细菌特征能力的情况下发生。事实上,系统似乎能够确定它在哪个物种中工作。许多进化群体使用具有不同信号集的遗传密码来停止蛋白质翻译。Evo 2能够识别何时查看来自这些物种之一的序列,并为它们使用正确的遗传密码。

它还擅长识别能容忍大量变异性的特征,如信号从蛋白质编码序列中剪切RNA以去除内含子的位点。从某些测量来看,它比专门用于该任务的软件更好。在评估BRCA2基因中的突变时也是如此,其中许多突变与癌症相关。给定已知BRCA2突变的额外训练,其性能进一步改善。

总体而言,Evo 2似乎非常适合评估基因组和识别关键特征。构建它的研究人员建议它可以作为初步基因组注释的良好自动化工具。

但Evo早期版本的惊人之处在于,当给出包含已知细菌基因的序列块时,它的一些回应包括具有相关功能的全新蛋白质。现在它在更复杂的真核基因上进行了训练,它能做同样的事情吗?

我们并不完全知道。如果给它一堆来自酵母(真核生物)的DNA,它会回应一个包含功能RNA和具有调节信息和剪切位点的基因样序列的序列。但研究人员没有测试任何蛋白质是否有特定作用。而且很难看出他们如何能做这个测试。对于细菌基因,他们可以安全地假设AI生成的基因应该做与附近基因相关的事情。但这在真核生物中通常不是这样,所以很难猜测他们应该测试哪些功能。

在一个稍微更有信息性的测试中,研究人员要求Evo 2在给出关于在这两种细胞类型中活跃序列的信息后,制作一些在一种细胞类型中活跃而在另一种中不活跃的调节DNA。产生的序列然后被插入这些细胞并进行测试,但结果相当弱,只有17%的序列在两种细胞类型之间的活性差异达到两倍或更多。这是一个重大成就,但它不在设计全新蛋白质的同一领域。

接下来是什么?

总的来说,鉴于这在描述原始Evo的论文发表不到四个月后就出现了,没有做更多工作来测试Evo 2在设计生物学相关DNA序列方面的能力一点也不令人惊讶。生物学实验很困难且耗时,而且提前判断哪些实验会提供最令人信服的信息并不总是容易的。所以我们可能要等几个月到几年才能发现社区是否能找到Evo 2的有趣用途,以及它是否擅长解决任何有用的蛋白质设计问题。

还有一个问题是进一步的训练和专业化是否可以创造出在特定任务方面特别擅长的Evo 2相关系统,如评估癌细胞基因组或注释新测序的基因组。在某种程度上,研究团队似乎想要发布这个系统,以便其他人可以开始探索如何使用它;这与所有软件都被开放的事实一致。

一个巨大的开放问题是这个系统是否识别了我们不知道如何测试的任何东西。像内含子/外显子边界和调节DNA这样的东西已经经过几十年的研究,我们已经知道如何寻找它们,并且可以识别Evo 2何时发现它们。但在过去几十年中,我们在基因组中发现了稳定的新特征流——CRISPR重复序列、微RNA等。在技术上仍然可能存在我们尚不知道的基因组特征,而Evo 2已经挑选出了它们。

可以想象使用这里描述的工具来查询Evo 2并挑选出新的基因组特征的方法。所以我期待看到这种工作最终可能产生什么。

Q&A

Q1:Evo 2是什么?它有什么特别之处?

A:Evo 2是一个开源AI系统,基于名为StripedHyena 2的卷积神经网络构建。它在包含8.8万亿个碱基的生命三大域(细菌、古细菌和真核生物)基因组数据上进行训练。与之前只能处理细菌基因组的Evo不同,Evo 2能够识别复杂真核基因组中的关键特征,如调节DNA和剪切位点。

Q2:Evo 2如何训练?使用了多少数据?

A:Evo 2采用两阶段训练方法。第一阶段通过8000个碱基长的序列块教授系统识别重要基因组特征;第二阶段一次处理一百万个碱基的序列来识别大规模基因组特征。研究团队训练了两个版本:70亿参数版本使用2.4万亿个碱基,400亿参数完整版本在整个OpenGenome2数据集上训练。

Q3:Evo 2能够识别哪些基因组特征?

A:Evo 2能够识别多种复杂的基因组特征,包括蛋白质编码区域、内含子边界、剪切位点、调节DNA、转录和翻译起始位点,甚至能识别蛋白质结构特征如α螺旋和β折叠。它还能检测突变的严重性,识别移动遗传元件,并根据不同物种使用正确的遗传密码。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪机车夺冠又退赛!张雪主动回应,德比斯公开认错,评论区炸锅

张雪机车夺冠又退赛!张雪主动回应,德比斯公开认错,评论区炸锅

蹲坑看世界
2026-05-04 00:22:18
泽连斯基亮出绝密证据:俄内部文件泄露,俄军60%精锐已打残

泽连斯基亮出绝密证据:俄内部文件泄露,俄军60%精锐已打残

瞩望云霄
2026-05-02 21:15:38
太扎心了!“火化不要灰”成热议话题,一组逝者名单多是30岁上下

太扎心了!“火化不要灰”成热议话题,一组逝者名单多是30岁上下

火山詩话
2026-05-03 12:43:57
没时间了,中方通牒送进东京,断高市后路,日本人流泪向中国道歉

没时间了,中方通牒送进东京,断高市后路,日本人流泪向中国道歉

近史博览
2026-05-03 03:46:47
大外交|一周内高层通话、各界代表来华,中美互动进入“密集期”

大外交|一周内高层通话、各界代表来华,中美互动进入“密集期”

澎湃新闻
2026-05-03 16:12:28
赴美生子彻底崩盘!那些“美国籍孩子”,如今进退两难

赴美生子彻底崩盘!那些“美国籍孩子”,如今进退两难

小陆搞笑日常
2026-05-03 15:32:27
重磅!两架美军C17运输机接连抵达北京,这是要干嘛?

重磅!两架美军C17运输机接连抵达北京,这是要干嘛?

军武咖
2026-05-03 20:18:15
突发!川普对德国挥出重拳,乌媒发文与美国决裂,展示核弹图片

突发!川普对德国挥出重拳,乌媒发文与美国决裂,展示核弹图片

史政先锋
2026-05-03 22:30:36
痛心!安徽19岁失联小伙遗体找到,生前邀父吃最后晚餐 细节曝光

痛心!安徽19岁失联小伙遗体找到,生前邀父吃最后晚餐 细节曝光

社会日日鲜
2026-05-03 10:11:16
五一最堵10大景点出炉!网友:第1名堵到怀疑人生,第5名直接劝退

五一最堵10大景点出炉!网友:第1名堵到怀疑人生,第5名直接劝退

奇思妙想草叶君
2026-05-02 16:12:40
申花官方:蒋圣龙顺利完成肾脏穿刺引流手术

申花官方:蒋圣龙顺利完成肾脏穿刺引流手术

五星体育
2026-05-03 22:59:43
惨遭4连鞭!吴宜泽复刻艾伦噩梦:从3-0到4-4 墨菲绝不是软柿子

惨遭4连鞭!吴宜泽复刻艾伦噩梦:从3-0到4-4 墨菲绝不是软柿子

风过乡
2026-05-04 01:45:04
孙杨无证驾驶再上热搜,全体拘留人员当时被迫陪他吃素

孙杨无证驾驶再上热搜,全体拘留人员当时被迫陪他吃素

映射生活的身影
2026-05-03 02:46:28
三人首发0分!历史首次!史诗级耻辱啊....

三人首发0分!历史首次!史诗级耻辱啊....

柚子说球
2026-05-03 20:28:16
泰国普吉岛游客嘟嘟车上公然发生性行为,引发众议

泰国普吉岛游客嘟嘟车上公然发生性行为,引发众议

浮光惊掠影
2026-05-03 20:24:27
特朗普:已赚回出兵成本的37倍!美国已经卖了1亿桶委内瑞拉石油,未来一个月还有1亿桶,他此前呼吁中国购买委石油,中方:其他国家无权指手画脚

特朗普:已赚回出兵成本的37倍!美国已经卖了1亿桶委内瑞拉石油,未来一个月还有1亿桶,他此前呼吁中国购买委石油,中方:其他国家无权指手画脚

每日经济新闻
2026-05-03 09:07:16
重磅:乌克兰摧毁俄罗斯在波罗的海最大的普里莫尔斯克港!

重磅:乌克兰摧毁俄罗斯在波罗的海最大的普里莫尔斯克港!

项鹏飞
2026-05-03 22:01:52
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
三度登顶!张雪车队陕西烧烤摊庆功全场买单,将在当地征战越野赛事

三度登顶!张雪车队陕西烧烤摊庆功全场买单,将在当地征战越野赛事

上游新闻
2026-05-03 13:07:07
笑傲双红会,曼联时隔10年再度单赛季英超双杀利物浦

笑傲双红会,曼联时隔10年再度单赛季英超双杀利物浦

懂球帝
2026-05-04 00:33:17
2026-05-04 04:00:49
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
18162文章数 49702关注度
往期回顾 全部

科技要闻

库克罕见"拒答"!苹果正被AI供应链卡脖子

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

头条要闻

高端小区多位业主拒收房:小区车位数量“蒸发”约1/3

体育要闻

曼联3-2双杀利物浦!提前三轮锁定欧冠资格 梅努制胜

娱乐要闻

黄晓明五一带娃去游乐场 父子幸福同框

财经要闻

后巴菲特时代,首场股东会透露了啥

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

教育
时尚
本地
旅游
游戏

教育要闻

期中考暨一模出分,大家考的怎么样?

春天别总傻傻穿一身黑,看看这些日常穿搭,高级舒适又优雅

本地新闻

用青花瓷的方式,打开西溪湿地

旅游要闻

五一假期,全国最拥堵10个地方出炉:放眼望去一片黑压压的人头

扶我起来 《马拉松》未来多年将持续更新剧情

无障碍浏览 进入关怀版