网易首页 > 网易号 > 正文 申请入驻

首个能读懂所有物种DNA模型问世,Arc、斯坦福、英伟达等联合打造

0
分享至

在生命科学研究中,DNA 序列承载着从最简单的细菌到最复杂的人类所有生命形式的遗传信息。然而,预测和理解这些序列的功能一直是生物学家面临的重大挑战。比如,判断一个基因突变是否会导致疾病,或者设计一个能在特定细胞中精确表达的基因序列,往往需要耗费大量的时间和资源进行实验验证。

2 月 19 日,Arc 研究所联合美国斯坦福大学、美国加州大学伯克利分校、美国加州大学旧金山分校以及英伟达,发布了一个突破性的 AI 模型 Evo 2。这个被称为“生物基础模型”的系统,首次实现了对生命三大领域(原核生物、古细菌和真核生物)的 DNA 序列进行统一建模。更重要的是,它能够“读写思考”DNA 语言,不仅可以预测序列的功能,还能设计具有特定功能的新序列。

Evo 2 最大的突破在于它的训练数据规模。研究团队构建了名为 OpenGenome2 的数据集,收录了 9.3 万亿个核苷酸序列,几乎囊括了地球上所有已知的生命形式。数据来自 12.8 万个物种的基因组,不仅包含简单的细菌和古细菌,还首次加入了人类、植物等复杂生物的基因组信息。正是这种前所未有的数据覆盖面,让 Evo 2 获得了类似人类生物学家的“通识理解能力”。

研究团队使用 StripedHyena 2 作为模型架构,这是首个基于卷积多混合模型的架构,它巧妙地将多种不同类型的运算符组合在一起,形成了一种条纹状的排列模式。这种设计显著提高了模型在处理短序列和长序列时的效率。值得一提的是,OpenAI 联合创始人 Greg Brockman 在休假期间参与了这一技术难题的攻克。

通过这一创新架构,Evo 2 可以一次处理长达 100 万个核苷酸的序列,是上一代模型处理能力的 8 倍。这意味着模型可以捕捉到基因组中远距离元件之间的关系,这对于理解真核生物的基因调控特别重要。

模型的训练有两个阶段。第一阶段是在 8,192 个标记的上下文长度下进行预训练,这个阶段重点关注功能遗传元件,如基因编码区、调控序列等。第二阶段则是中期训练,将上下文长度逐步扩展到 100 万个标记,使模型能够学习基因组中远距离元件之间的复杂关系。

研究人员还开发了创新的数据增强和权重分配方法,在预训练阶段优先处理信息密度较高的功能区域,在中期训练阶段则注重长序列的整体构成。

最重要的是,该项目完全开源。团队不仅开源了 Evo 2 的模型参数、训练代码和推理代码,还发布了完整的 OpenGenome2 训练数据集(项目地址:https://github.com/arcinstitute/evo2)。这使其成为目前规模最大的完全开放 AI 模型之一。

为了方便研究人员使用,团队还开发了名为 Evo Designer 的用户友好界面,以及一个可以揭示模型内部机制的可视化工具,这让研究人员能够更好地理解模型是如何“思考”生物学问题的。

值得一提的是,为了确保安全使用,研究团队特意在训练数据中排除了所有可能感染高等生物的病毒序列。他们通过严格的测试验证,确保模型在这类序列上的分析和生成能力都很有限。

在几十年的生物学研究中,我们积累了海量的生物数据,但要真正“读懂”这些数据却并不容易。Evo 2 的出现,让我们对生物信息的理解和预测达到了新的高度。

在基础预测任务上,Evo 2 表现出了相当突出的准确性。比如说,它能在没有任何专门训练的情况下,准确判断 DNA 突变是否会影响蛋白质功能。更令人惊讶的是,它对于复杂的真核生物也有很好的理解——这在以前的模型中是很难实现的。

这种能力在医学领域相当有用。举个例子,在分析与乳腺癌相关的 BRCA1 基因时,Evo 2 能以超过 90% 的准确率区分出哪些基因变异可能致病,哪些是良性的。这意味着,在进行昂贵的细胞实验或动物实验之前,研究人员可以先用 Evo 2 筛选出最值得关注的突变。

不仅能读懂 DNA,Evo 2 还会“写”DNA。研究团队用 Evo 2 成功生成了完整的线粒体基因组、简单细菌基因组,以及酵母染色体。这些生成的序列不仅在数量上庞大,质量上也保持了高度的自然性和连贯性。更令人惊喜的是,模型生成的序列中包含了正确数量的编码序列、tRNA 基因和 rRNA 基因,并保持了适当的基因组结构。

此外,研究人员还发现 Evo 2 不是在简单地记忆数据,而是真正理解了生物学原理。通过特殊的分析技术,他们发现模型自主学会了识别外显子和内含子的界限、寻找蛋白质结合位点,甚至能发现细菌基因组中潜藏的病毒序列。这些都是生物学家特别关心的特征。

研究团队还展示了一种创新的应用:用 Evo 2 设计具有特定表观遗传特征的 DNA 序列。他们甚至成功地将莫尔斯密码信息编码到了表观基因组中,这是首次在生物学语言建模中实现推理时缩放的案例。

Evo 2 的出现标志着“生成生物学”领域的重要里程碑。这个模型为理解和设计生物系统提供了前所未有的能力。在医疗领域,它可以帮助预测基因突变的致病性,加速罕见病的诊断和治疗方案的制定。在合成生物学领域,模型可以辅助设计新的基因治疗工具或生物传感器。

作为一个完全开源的项目,Evo 2 为整个生命科学研究社区提供了强大的工具。研究人员可以基于这个基础模型开发更多专门的应用。Arc 研究所的研究员表示,未来他们计划将这种表示方法与表观基因组学和转录组学信息整合,朝着构建可以有效模拟复杂细胞表型的“虚拟细胞模型”迈进。

这项研究再次证明,人工智能正在从根本上改变我们理解和操控生命的方式。通过将进化铭刻在 DNA 中的信息转化为机器可理解的模式,Evo 2 或将为生命科学研究开辟一种新的范式。

参考资料:

1.https://arcinstitute.org/manuscripts/Evo2

2.https://arcinstitute.org/news/blog/evo2

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
61岁的王姬驾驭一身黑色礼服,这身材让年轻人都望尘莫及

61岁的王姬驾驭一身黑色礼服,这身材让年轻人都望尘莫及

大江
2026-05-24 12:20:25
VOGUE见光死!刘诗诗脸下垂,郭晓婷脸白脖子黑,何穗生图凶巴巴

VOGUE见光死!刘诗诗脸下垂,郭晓婷脸白脖子黑,何穗生图凶巴巴

洲洲影视娱评
2026-05-30 17:06:06
张嘉益有个规矩:片酬可以商量,必须给孙浩留个位置,跑龙套都行

张嘉益有个规矩:片酬可以商量,必须给孙浩留个位置,跑龙套都行

科学发掘
2026-05-17 09:41:03
TCL中环,终于不再沉默!

TCL中环,终于不再沉默!

赶碳号
2026-05-31 10:08:25
连续三届预测世界杯冠军都命中,德经济学家今年再出手!自嘲“上错花轿嫁对郎”

连续三届预测世界杯冠军都命中,德经济学家今年再出手!自嘲“上错花轿嫁对郎”

红星新闻
2026-05-30 16:59:17
武契奇刚带着遗憾走,又一位中国老朋友要来华,一待就是5天

武契奇刚带着遗憾走,又一位中国老朋友要来华,一待就是5天

南宗历史
2026-05-30 18:47:51
捂住“耿同学”的嘴,你们就睡得着了?

捂住“耿同学”的嘴,你们就睡得着了?

新浪财经
2026-05-31 00:52:17
人到中年,女人最吃的从来不是甜言蜜语,是走心的偏爱

人到中年,女人最吃的从来不是甜言蜜语,是走心的偏爱

青苹果sht
2026-05-20 05:30:11
结婚22年夫妻性生活实验:性对婚姻究竟有多重要?

结婚22年夫妻性生活实验:性对婚姻究竟有多重要?

周哥一影视
2026-05-31 07:44:43
难以置信!长沙一销售哭诉月薪9760元太低了,网友:已超98%的人

难以置信!长沙一销售哭诉月薪9760元太低了,网友:已超98%的人

火山詩话
2026-05-30 08:05:24
这一次,为什么没有人再质疑余承东?

这一次,为什么没有人再质疑余承东?

汽车有文化
2026-05-29 14:22:57
5.31乒乓德甲半决赛:樊振东3-0大获全胜,没有换胶皮 头发有点长

5.31乒乓德甲半决赛:樊振东3-0大获全胜,没有换胶皮 头发有点长

郝小小看体育
2026-05-31 00:28:49
沙滩上的绝美女神

沙滩上的绝美女神

疾跑的小蜗牛
2026-05-29 21:33:27
我供小叔子考上北大,他毕业后只汇款不回家,我去北京一看愣住了

我供小叔子考上北大,他毕业后只汇款不回家,我去北京一看愣住了

千秋文化
2026-05-18 20:02:10
穷到连打招呼都像在讨钱,你才知道拼命工作有多重要

穷到连打招呼都像在讨钱,你才知道拼命工作有多重要

温一壶月光啊
2026-05-30 01:01:48
惠州一钓鱼佬险些钓上大蟒蛇,称起初以为是个废弃轮胎,网友:“除了鱼什么都能钓到”

惠州一钓鱼佬险些钓上大蟒蛇,称起初以为是个废弃轮胎,网友:“除了鱼什么都能钓到”

扬子晚报
2026-05-30 20:06:14
骆家辉警告中国:最好不要自主生产尖端芯片,这不是美国想看到的

骆家辉警告中国:最好不要自主生产尖端芯片,这不是美国想看到的

蜉蝣说
2026-04-14 17:00:37
向太这回恐要翻车!曝49岁黄晓明曾当众给她下跪,同桌十几人目睹

向太这回恐要翻车!曝49岁黄晓明曾当众给她下跪,同桌十几人目睹

寒士之言本尊
2026-05-29 16:09:42
向美捐8亿被骂叛徒,无锡唐氏21代掌门回应:我的钱只认文明归属

向美捐8亿被骂叛徒,无锡唐氏21代掌门回应:我的钱只认文明归属

文史达观
2026-05-30 17:04:23
为什么有很多人连基本的常识都没有?网友:人无语的时候真的会笑

为什么有很多人连基本的常识都没有?网友:人无语的时候真的会笑

另子维爱读史
2026-05-22 20:43:04
2026-05-31 11:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16770文章数 514990关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

罗马尼亚遭袭 梅德韦杰夫:欧盟已进入与俄罗斯的战争

头条要闻

罗马尼亚遭袭 梅德韦杰夫:欧盟已进入与俄罗斯的战争

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

贾玲最新动作!侯明昊给虞书欣抬轿!

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

旅游
游戏
艺术
本地
公开课

旅游要闻

英媒:“极致中国化”助推入境旅游热潮

《我的世界》今年秋季更新将加入一个全新生物群系

艺术要闻

Luis Alvarez Roure | 美国现实主义画家

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版