网易首页 > 网易号 > 正文 申请入驻

生物版 Deepseek 来了!史上最大开源 AI 生物学模型,400 亿参数引爆学界

0
分享至

  来源:智药局

  生物学大模型又迎新里程碑!

  2025年 2 月19 日,来自 Arc Institute、英伟达、斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的科学家们,联合发布了生物学大模型 Evo2。

  团队称, Evo 2 是迄今为止最大的公开 AI 生物学模型,完整版高达 400 亿参数,包含 12.8 万个物种的 9.3 万亿个核苷酸。

  它囊括了生物学的基本语言:DNA、RNA 和蛋白质,能够一次分析长达一百万个核苷酸的序列长度。

  作为基因组基础模型,具有生成整个基因组、预测突变、理解非编码 DNA 的能力,可以广泛应用于生物分子研究,精准医学、药物研发,合成生物等。

  此外,Evo2 是生物学领域最大规模的全面开源模型之一,发布了包括训练数据、训练和推理代码以及模型权重,引爆了学术界。

  这也意味着,人类能够已经具备重写生命最底层代码 —— 基因组的能力,这将打开新生物技术时代的大门。

  Evo2 震撼发布,多重升级

  如果说, DeepSeek 是以文字作为大模型基础,那么 Evo2 则以基因组数据为基础,不过它生成的不是文本,而是基因组序列。

  在 Evo 一代中, 科学家们使用了 80,000 种细菌和古细菌的基因组,并在此以单核苷酸分辨率进行训练,使其模型能够完成全基因组规模的预测任务和生成设计。

  而 Evo2 在各个方面进行了重大升级,整体能力也进行了巨大的飞跃。

  首先,Evo2 的数据量庞大,完整版包含 400 亿参数,远超一代的 70 亿参数规模。Evo2 在 12,8000 万个物种(包括人类和其他动物、植物和其他真核生物)的基因组上训练这些基因组总共包含 9.3 万亿个核苷酸。

  其次,Evo2 使用 stripedhyena2 作为模型架构,和当前普遍 transformer 架构不同,它不仅能够响应速度更快,还能够捕捉基因组的相互作用,自主学习外显子 — 内含子边界,以及转录因子结合位点等信息。

  Evo2 显著扩大了上下文窗口,能一次性处理多达 100 万个碱基对,这种能够大规模处理能力对于基因组非常重要,因为它有助于处理基因组中的长序列,也意味着计算生物学的重大进展。

  图源:Evo 2 的模型架构、训练过程、数据集和评估的概述

  下游任务方面,Evo2 能够执行跨 DNA、RNA 和蛋白质的通用预测和设计任务。此前 Evo1 生成世界上第一个人工智能生成的 CRISPR-Cas 系统,这是一种蛋白质和 ncRNA(非编码 RNA)的大型功能复合物。

  而利用 Evo2,研究人员分别创建了酵母染色体、人类线粒体基因组 、生殖支原体的原核基因组(常用的最小基因组模型),证明了其生成能力。

  此外,Evo2 还擅长识别人类基因中的致病突变,甚至通过深刻理解意味着它可以识别不同生物体的基因序列模式,而实验研究人员则需要数年时间才能发现这些模式。

  在技术层面,要在核苷酸精度上训练多达 400 亿参数并不容易,甚至 OpenAI 的联合创始人兼总裁 Greg Brockman 在休假期间都在花时间处理这个问题。

  最终还是老黄出马支持了这个项目。官方表示,Evo2 在英伟达 DGX Cloud AI 平台上训练,使用了 2000 多张 H100 GPU,最终使得 Evo 2 能够使用比 Evo 1 多 30 倍的数据进行训练,一次推理的核苷酸数量是 Evo 1 的 8 倍以上。

  当然,结果是 Evo 2 被集成到 NVIDIA BioNeMo 中,成为英伟达生命科学模型全家桶中的一员。

  该项目已经完全开源,研究团队已经在 github 上传其训练数据、训练和推理代码以及模型权重,是迄今为止规模最大的开源生物学 AI 模型。

  此外,研究人员还开发了一个名为 Evo Designer 的在线 AI 平台,科学家们可以输入基因组序列,并在这个平台中进行基因组生成以及预测,真的非常贴心。

  图源:Evo Designer 平台

  开源地址:

  https://github.com/arcinstitute/evo2

  网页地址:

  https://arcinstitute.org/tools/evo/evo-designer

  从基因组到生命

  简而言之,Evo2 已经学会了 DNA 的基本原理,标志着 AI 在生物学的革命性进步,有望为精准医疗、药物研发、合成生物打开广阔的天地。

  精准医学

  Evo2 能够无需针对人类疾病数据进行专门训练,精准识别基因突变与疾病之间的关联,甚至它的表现超过了没有训练过人类疾病数据的专门模型。

  例如乳腺癌相关基因 BRCA1 的变体测试中,Evo2 预测突变的准确率超过 90%。未来 Evo 2 可以深入分析患者基因组数据,为个性化医疗提供支持。

  药物发现

  Evo 2 不仅可以解读基因序列,还能设计新的基因组和生物分子(如蛋白质分子等)。这意味着研究人员可以利用该模型设计出针对特定疾病靶点的新型药物分子。

  在基因治疗领域,Evo 2 能够设计出仅在特定细胞类型中激活的基因元件,例如新的转座子或基因开关,通过减轻脱靶效应提高基因治疗的安全性。

  未来,Evo2 有望能寻找人类疾病的遗传原因并加速新药的开发,减少细胞或动物实验所需的时间和研究资金。

  合成生物学

  对 Evo2 而言,合成生物则是一个更为广阔的领域。

  通过生成新的 DNA 序列,Evo2 可以设计具有特别性能的生命体,填补自然界原本不存在的生态位。

  例如在 Evo 2 可设计分解塑料的蛋白质,或者改善气候的微生物。在农业领域,Evo2 也有望解决全球粮食短缺问题,加深科学家对植物的理解。

  关于潜在的伦理和安全风险问题,科学家们也考虑到了。

  Evo 2 的基础数据集中已经排除了感染人类和其他复杂生物体的病原体,并确保该模型不会对这类问题生成有效的答案。

  简单来说,人工智能不再局限于描述生物学,而是开始设计生物学,这使得从头开始设计的合成生命、由人工智能优化的可编程基因组、潜在的新基因疗法成为可能,甚至为虚拟细胞奠定了基础。

  Evo-2 完全开源,也可能引发生物工程领域的大规模创新,降低基因组设计的巨大障碍。

  不过就像通用基础大模型一样,Evo 2 在哪些方面可以产生最大的影响还有待观察。和执行特定任务的小模型不同,可能还需要研究人员在模型之上构建特定于任务的 AI 程序。

  而 Evo-2 背后的缔造者,Acr 研究所还展示了一个更为宏大的目标:模拟整个细胞。

  Evo-2 有望将基因组数据与表观遗传学、蛋白质组学等各类数据相结合,这也意味着实施更大规模的生命编程。

  说不定未来,我们真的有可能看到 AI 创造新的生命形式。

  题图来源:EvoDesigner 平台

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
网传985女生相亲,男生直接落荒而逃网友说:该校出品必属精品!

网传985女生相亲,男生直接落荒而逃网友说:该校出品必属精品!

灯锦年
2026-06-01 18:17:11
8年折损两千亿:王健林输掉万达,却保住了最后体面

8年折损两千亿:王健林输掉万达,却保住了最后体面

财经保探长
2026-06-01 21:34:58
终于"露馅"了!巴拿马外长装怂总统装输,原来想骗我们签协议?

终于"露馅"了!巴拿马外长装怂总统装输,原来想骗我们签协议?

风干迷茫人
2026-06-01 16:07:23
阴阳合同新进展!判刑14年,伦纳德被诬陷?鲍尔默直言自己也被骗

阴阳合同新进展!判刑14年,伦纳德被诬陷?鲍尔默直言自己也被骗

你的篮球频道
2026-06-02 09:05:33
疑似内讧,球迷怒喷广厦脸不要脸,要求交易孙铭徽,三大水货淘汰

疑似内讧,球迷怒喷广厦脸不要脸,要求交易孙铭徽,三大水货淘汰

宗介说体育
2026-06-02 10:09:51
全网最冤顶流!被污蔑封杀、沉默两年,Angelababy强势涅槃归来

全网最冤顶流!被污蔑封杀、沉默两年,Angelababy强势涅槃归来

财哥讲故事
2026-06-02 11:44:21
莫迪缺席北京:印度国运与14亿人发展前景堪忧

莫迪缺席北京:印度国运与14亿人发展前景堪忧

梦在深巷aqa
2026-06-02 11:56:57
“儿媳,你新房这么小,我住哪里”“阿姨,您怎能住外人的房呢”

“儿媳,你新房这么小,我住哪里”“阿姨,您怎能住外人的房呢”

清水家庭故事
2026-06-01 10:49:56
人口告别世界第一?催生“二孩”无效后,国家终于向住房出手了!

人口告别世界第一?催生“二孩”无效后,国家终于向住房出手了!

混沌录
2026-05-30 23:41:14
女子把山姆超市当免费仓库,贪便宜操作太难看

女子把山姆超市当免费仓库,贪便宜操作太难看

音乐时光的娱乐
2026-05-31 20:29:29
看完奚梦瑶的家庭背景,才明白她为何能嫁豪门,被何猷君宠成公主

看完奚梦瑶的家庭背景,才明白她为何能嫁豪门,被何猷君宠成公主

可乐谈情感
2026-05-31 06:56:54
袁文才、王佐被彭老总错杀后,为啥却让毛主席一生都无法释怀?

袁文才、王佐被彭老总错杀后,为啥却让毛主席一生都无法释怀?

旧史新谭
2026-05-27 17:57:45
“我要戴罪立功”,黑老大刑前5分钟全招,举报材料震动山西官场

“我要戴罪立功”,黑老大刑前5分钟全招,举报材料震动山西官场

易玄
2026-06-01 13:01:53
神级补强!魔笛挂靴赴皇马辅佐穆帅,专治银河战舰更衣室内乱!

神级补强!魔笛挂靴赴皇马辅佐穆帅,专治银河战舰更衣室内乱!

田先生篮球
2026-06-02 09:23:02
红旗国雅旗舰轿车抵达俄罗斯,售价几乎翻倍

红旗国雅旗舰轿车抵达俄罗斯,售价几乎翻倍

赛场名场面
2026-06-02 01:09:53
2003年刘涌执行死刑前,喝了一口白酒,让妻子在脚镣处塞了1元钱

2003年刘涌执行死刑前,喝了一口白酒,让妻子在脚镣处塞了1元钱

华人星光
2026-05-29 11:30:09
随着34岁J罗妙传+迪亚斯1球1助+3-1击败劲旅,哥伦比亚终结2连败

随着34岁J罗妙传+迪亚斯1球1助+3-1击败劲旅,哥伦比亚终结2连败

侧身凌空斩
2026-06-02 09:03:55
亚洲水塔崩塌!二十亿人水源告急

亚洲水塔崩塌!二十亿人水源告急

天气观察站
2026-06-01 18:50:12
U17世界杯小组赛赛程公布,国少比赛将在23点和0点进行

U17世界杯小组赛赛程公布,国少比赛将在23点和0点进行

狗哥是一名内拉
2026-06-02 10:04:24
山姆超市 大妈拿桶接免费可乐,购物车上还有几个空桶,少年看呆

山姆超市 大妈拿桶接免费可乐,购物车上还有几个空桶,少年看呆

凡知
2026-05-25 13:54:50
2026-06-02 12:43:00
生物学霸 incentive-icons
生物学霸
科研资讯平台
10758文章数 31260关注度
往期回顾 全部

科技要闻

英伟达RTX Spark 很猛,但首批机型不便宜

头条要闻

特朗普被指怒骂内塔尼亚胡"疯了":没我你早就进监狱了

头条要闻

特朗普被指怒骂内塔尼亚胡"疯了":没我你早就进监狱了

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君婚礼曝光 深情热吻甜蜜

财经要闻

锂电“资源墙”高筑 全球性长期博弈开始

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

教育
手机
时尚
游戏
本地

教育要闻

51 名师专访 — 暴一凡【执绘笔筑热爱 以美育伴同行】

手机要闻

小米17T Pro搭载徕卡光学专业三摄:拥有5倍潜望长焦

安妮海瑟薇40岁后美出新高度, 开挂的关键原来是这个

靠大尺度MOD火了!游戏官方:成人内容越多越好

本地新闻

用剪纸的方式,打开江苏扬州

无障碍浏览 进入关怀版