网易首页 > 网易号 > 正文 申请入驻

Evo 2作者、斯坦福计算生物学家:AI可发现人类无法看到的模式

0
分享至

编辑 | ScienceAI

最近,科学家发布了有史以来最大的生物学人工智能(AI)模型 ——Evo 2。

该模型基于 128,000 个基因组进行训练,涵盖了从人类到单细胞细菌和古细菌的生命之树,可以从头开始编写整个染色体和小基因组。它还可以理解现有的 DNA,包括与疾病相关的难以解释的「非编码」基因变体。

Evo 2 由美国 Arc 研究所(Arc Institute)和斯坦福大学的研究人员以及芯片制造商 NVIDIA 共同开发,科学家可以通过线上界面使用,也可以免费下载其软件代码、数据和复制模型所需的其他参数。

项目链接:https://github.com/ArcInstitute/evo2

早在去年 11 月,Evo 的第一个版本 (在 80,000 种细菌、古细菌和病毒的基因组上进行训练)就登上了《Science》杂志封面。

Evo 及 Evo 2 的突破是不言而喻的,研究团队是如何实现这些突破的?

在 Evo 2 发布之前,外媒《Quanta Magazine》曾采访 Evo 研究团队主要成员、论文通讯作者 —— 斯坦福大学计算生物学家 Brian Hie,采访围绕 DNA 与人类语言之间的相似之处,Evo 能做什么和不能做什么等话题展开。Brian Hie 表示:「人类很难理解生物序列」,而「Evo 发现了人类无法看到的模式」。

图示:Evo 团队核心成员,Brian Hie(中)。

ScienceAI 对《Quanta Magazine》访谈核心内容进行了不改变原意的编译、整理,内容如下。

是什么让你认为 DNA 可以像语言一样处理?

DNA 本身像人类自然语言一样是序列化的。它是由离散的「token」或构建块组成的序列。我们将人类自然语言 tokenize 为单词、字母或汉字。在生物学中,一个 token 可以对应一个 DNA 碱基对或一个氨基酸。

就像自然语言一样,DNA 也有其自然结构。这些序列并不是随机的。自然语言中的许多结构也是非正式的,可能是模糊的,并且一直在变化。同样地,DNA 序列也有一些模糊性。相同的序列在不同的上下文中可能意味着不同的事物。

怎么想到将 LLM 应用于 DNA?

分子生物学的中心法则是一个非常美丽的东西。它指出 DNA 编码 RNA,RNA 编码蛋白质。所以如果你在 DNA 上训练一个模型,并且它是一个好模型,你就可以免费获得 RNA 和蛋白质的语言建模,因为 DNA 和蛋白质序列之间有直接的对应关系。

你还可以在基因组本身上进行训练:基因在基因组上彼此相邻。当你训练一个蛋白质语言模型时,你基本上会取整个基因组并剪掉所有编码蛋白质的部分,然后分别训练所有这些小部分。但这忽略了蛋白质所在的广阔遗传背景。特别是在微生物基因组中,功能相关的蛋白质在基因组上直接相邻,所以这些蛋白质编码区域在基因组上的顺序很重要,而在蛋白质语言模型中失去了这些信息。

我意识到在更基础的层次上训练模型 —— 从蛋白质下降到 DNA—— 可以扩展模型的能力。

如何训练 Evo「阅读」DNA?

蛋白质和 DNA 语言模型之间的一个重要区别是模型用于进行下一个碱基对预测的序列长度,我们称之为「上下文长度」。上下文长度类似于一个人一次可以看到的小说的一两页。Evo 是在由许多基因组组成的「小说」上训练的。

这需要一些技术发展,因为长的上下文长度消耗大量的计算能力。计算需求随着上下文长度的增加呈二次方增长,但幸运的是,已有一些研究找到了方法来减少长上下文所需计算。斯坦福实验室的一名学生帮我们将相关进展应用到我们的 DNA 模型中。

Evo 的训练数据集也很重要。从蛋白质语言建模中,我了解到序列多样性很重要。当向模型展示生命的进化替代方案,模型就可以利用这些替代方案来学习一般规则。

你是如何测试 Evo 的,它的表现如何?

我们给 Evo 提供了具有各种突变的蛋白质编码 DNA 序列。任务是预测这些突变的「进化可能性」,即它们在自然界中存在的概率。被认为可能的突变应该在实验室中保持或改善蛋白质的功能,不可能的突变应该与功能不良相关。

Evo 没有任何关于功能的明确知识。它只知道过去进化中使用了哪些突变。此外,模型仅在 DNA 上进行训练,没有任何关于 DNA 的哪些部分与蛋白质匹配的指导。因此,Evo 必须弄清楚 DNA 如何编码蛋白质,以及蛋白质在基因组上的起始和终止位置。

我们通过蛋白质功能的实验测试对 Evo 得出的可能性进行了评分。我们发现:如果某个碱基对在 Evo 模型下具有高可能性,那么该碱基对很可能会保持或改善蛋白质的功能;如果该碱基对的可能性较低,那么将其插入序列中很可能会破坏蛋白质功能。

LLM 容易出错,Evo 是否更准确?

对于ChatGPT,你希望它能准确掌握事实。而在生物学中,这些「幻觉」几乎可以被视为一种特性而非缺陷。如果某个奇特的新序列在细胞中起作用,生物学家会认为这是新颖的。

但 Evo 确实也会犯错。例如,它可能根据某个序列预测出一种蛋白质结构,但当我们在实验室中合成这种蛋白质时,结果可能是错误的。

原文链接:https://www.quantamagazine.org/the-poetry-fan-who-taught-an-llm-to-read-and-write-dna-20250205/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
笑不活!司晓迪“可汗大点兵”炸翻顶流圈,我却笑死在成毅评论区

笑不活!司晓迪“可汗大点兵”炸翻顶流圈,我却笑死在成毅评论区

八卦南风
2026-01-03 17:33:45
鹿晗醉酒跟司晓迪躺一起,更多同款证据被扒,网友喊话关晓彤倒油

鹿晗醉酒跟司晓迪躺一起,更多同款证据被扒,网友喊话关晓彤倒油

萌神木木
2026-01-03 10:37:59
雷军直播回应“1300公里只充一次电”争议:被黑出心理阴影

雷军直播回应“1300公里只充一次电”争议:被黑出心理阴影

TechWeb
2026-01-04 14:06:09
AI巨头们开抢实习生!月薪12.8万砸你

AI巨头们开抢实习生!月薪12.8万砸你

新智元
2026-01-04 11:25:49
梅德韦杰夫:一旦战败,就用核弹攻击4个国家,让世界进入末日

梅德韦杰夫:一旦战败,就用核弹攻击4个国家,让世界进入末日

荆楚寰宇文枢
2025-09-28 22:00:23
马杜罗被抓,中国到底亏多少?600亿贷款+几千万吨石油

马杜罗被抓,中国到底亏多少?600亿贷款+几千万吨石油

素年文史
2026-01-04 14:26:43
柯文哲将担任张启楷竞选总干事,钮则勋:显示其意志力与企图心

柯文哲将担任张启楷竞选总干事,钮则勋:显示其意志力与企图心

海峡导报社
2026-01-04 11:16:11
方媛上海购物被偶遇!生图个子矮小身形肥硕,溜肩驼背无名媛气质

方媛上海购物被偶遇!生图个子矮小身形肥硕,溜肩驼背无名媛气质

一娱三分地
2026-01-04 20:24:56
鹿晗喝醉后和司晓迪同床,更多同款证据被扒,难怪关晓彤要分手

鹿晗喝醉后和司晓迪同床,更多同款证据被扒,难怪关晓彤要分手

叶公子
2026-01-03 13:02:36
演员宋轶素颜状态曝光!没有浓妆加持,这般清清爽爽的样子

演员宋轶素颜状态曝光!没有浓妆加持,这般清清爽爽的样子

草莓解说体育
2026-01-04 14:09:31
格力承诺家用空调不涨价,称暂无“铝代铜”相关计划

格力承诺家用空调不涨价,称暂无“铝代铜”相关计划

界面新闻
2026-01-05 09:54:08
留给大清的时间,真的不多了

留给大清的时间,真的不多了

我是历史其实挺有趣
2026-01-03 08:50:37
2010年,刘强东给身价400亿的张磊连打7个电话借钱7500万美元

2010年,刘强东给身价400亿的张磊连打7个电话借钱7500万美元

忠于法纪
2025-12-31 09:12:00
随着喀麦隆2-1,摩洛哥1-0,非洲杯八强有4席已经出炉

随着喀麦隆2-1,摩洛哥1-0,非洲杯八强有4席已经出炉

侧身凌空斩
2026-01-05 07:06:26
马琳王皓职位曝光,王励勤妥协了,教练组将官宣,秦志戬总教练

马琳王皓职位曝光,王励勤妥协了,教练组将官宣,秦志戬总教练

卿子书
2026-01-05 08:43:41
被处决毒枭要水喝,3停5口是17年前教的暗号:我是卧底,有内鬼!

被处决毒枭要水喝,3停5口是17年前教的暗号:我是卧底,有内鬼!

星宇共鸣
2025-12-29 09:56:33
别墅是中产返贫的最大陷阱!过来人血泪总结:别墅的四大硬伤

别墅是中产返贫的最大陷阱!过来人血泪总结:别墅的四大硬伤

流苏晚晴
2026-01-02 17:56:17
小米17u彻底凉了!首销三日销量不及前代一半

小米17u彻底凉了!首销三日销量不及前代一半

真义科技
2026-01-03 18:00:12
饺子拒绝金鸡奖,揭开内娱最大笑话:154亿票房,不配一个奖?

饺子拒绝金鸡奖,揭开内娱最大笑话:154亿票房,不配一个奖?

花心电影
2025-11-17 12:00:18
粉丝集体泪目!言承旭晒合照官宣,苦等多年终迎圆满

粉丝集体泪目!言承旭晒合照官宣,苦等多年终迎圆满

大黑爱旅游
2026-01-04 09:50:10
2026-01-05 12:36:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1197文章数 223关注度
往期回顾 全部

科技要闻

雷军新年首播:确认汽车业务降速

头条要闻

委内瑞拉代总统致信:诚邀美国政府共同制定合作议程

头条要闻

委内瑞拉代总统致信:诚邀美国政府共同制定合作议程

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

黄宗泽夺双料视帝,泪洒颁奖台忆往昔

财经要闻

李迅雷:扩内需要把重心从"投"转向"消"

汽车要闻

不是9S是8X!极氪全新高性能旗舰SUV命名官宣

态度原创

房产
艺术
教育
本地
公开课

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

艺术要闻

19幅 列宾美院学生优秀毕业作品

教育要闻

家长晒孩子,网友:养废了!这要是我儿子,能打到他找不着北

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版