网易首页 > 网易号 > 正文 申请入驻

AlphaFold3重磅开源,诺奖级AI颠覆世界!GitHub斩获1.8k星,本地即可部署

0
分享至

新智元报道

编辑:静音

【新智元导读】六个月的争议后,诺奖级AI AlphaFold3开源了。这个在蛋白质结构预测领域掀起波澜的AI——期待它的开源推动更多科学家的大量创新。文后附有安装和运行步骤详解哦!

AlphaFold3源码终于开放了!

六个月前,AlphaFold3横空出世震撼了整个学术界。AlphaFold的开发人也凭借它在上个月赢得了诺贝尔化学奖。


然而,这个诺奖级AI的「不开源」一直引起学界的不满。谷歌DeepMind只推出了一个免费研究平台「AlphaFold Server」,而且该服务有每日的次数限制。相比于开源的AlphaFold2来说,这种使用方式缺失了很多自由度。

好在它现在终于开源了!开源后,生化医药的科学家们可以在本地部署AlphaFold3,极大地缩短了新药、疫苗等研发进程。

现在,任何人都可以下载AlphaFold3软件代码并进行非商业使用,但目前只有学术背景的科学家可申请访问训练权重。

GitHub上的AlphaFold3开源项目代码目前已斩获1.8k星。

开源项目:https://github.com/google-deepmind/alphafold3

AlphaFold3的「效仿者」们

在过去的几个月中,不少公司都依靠AlphaFold3论文中的伪代码,争相发布了各自受到AlphaFold3启发的类似模型。

比如,获得OpenAI投资的AI生物初创Chai Discovery,就在9月发布了用于分子结构预测的新型多模态基础模型Chai-1,并附带了一份技术报告,比较了Chai-1与AlphaFold等模型的性能。

官网地址:https://www.chaidiscovery.com/

另一家位于美国旧金山的公司Ligo Biosciences则发布了一个无使用限制的AlphaFold3版本。但它尚未具备完整的功能,比如模拟药物和蛋白质以外分子的能力。

项目地址:https://github.com/Ligo-Biosciences/AlphaFold3

其他团队也正在开发没有使用限制的AlphaFold3版本:AlQuraishi希望在年底前推出一个名为OpenFold3的完全开源模型。这将使制药公司能够使用专有数据(例如结合不同药物的蛋白质结构)重新训练模型,从而有可能提高性能。

开源的重要性

过去一年里,许多公司发布了新的生物AI模型,这些公司对开放性采取了不同的态度。

威斯康星大学麦迪逊分校的计算生物学家Anthony Gitter对盈利性公司加入他的领域没有异议——只要他们在期刊和预印本服务器上分享工作时遵循科学界的标准。

「我和其他人希望盈利性公司们也分享关于如何进行预测的信息,并以我们可以审查的方式发布AI模型和代码,」Gitter补充道,「我的团队不会基于无法审查的工具进行构建和使用。」

DeepMind科学AI负责人Pushmeet Kohli表示,几种AlphaFold3复制品的出现表明,即使没有开源代码,该模型也是可复现的。

他补充说,未来他希望看到更多关于出版规范的讨论,因为这一领域越来越多地由学术界和企业研究人员共同参与。

此前,AlphaFold2的开源推动了其他科学家的大量创新。

例如,最近一次蛋白质设计竞赛的获胜者使用该AI工具设计出能够结合癌症靶标的新蛋白质。

AlphaFold项目的负责人Jumper最喜欢的一个AlphaFold2创新,是一个团队使用该工具识别出一种帮助精子附着在卵细胞上的关键蛋白。

Jumper迫不及待地想看到在分享AlphaFold3后出现这样的惊喜。

安装和运行

安装AlphaFold3需要一台运行Linux的机器;AlphaFold3不支持其他操作系统。

完整安装需要多达1TB的磁盘空间来存储基因数据库(建议使用SSD存储)以及一块具有计算能力8.0或更高的 NVIDIA GPU(具有更多内存的GPU可以预测更大的蛋白质结构)。

经过验证,单个NVIDIA A100 80 GB或NVIDIA H100 80 GB可以适配最多5120个token的输入。在NVIDIA A100和H100 GPU上的数值准确性也已被验证。

尤其是对于较长的目标,基因搜索阶段可能会消耗大量RAM——建议至少使用64GB的RAM运行。

配置步骤:

1. 在GCP上配置机器

2. 安装Docker

3. 为A100安装NVIDIA驱动程序

4. 获取基因数据库

5. 获取模型参数

6. 构建AlphaFold3 Docker容器或Singularity镜像

获取AlphaFold3源代码

通过git下载AlphaFold3的代码库:

git clone https://github.com/google-deepmind/alphafold3.git

获取基因数据库

此步骤需要「curl」和「zstd」。

AlphaFold3需要多个基因(序列)蛋白质和RNA数据库来运行:

- BFD small

- MGnify

- PDB(mmCIF格式的结构)

- PDB seqres

- UniProt

- UniRef90

- NT

- RFam

- RNACentral

Python程序「fetch_databases.py」可以用来下载和设置所有这些数据库。

建议在「screen」或「tmux」会话中运行以下命令,因为下载和解压数据库需要一些时间。完整数据库的总下载大小约为252GB,解压后的总大小为630GB。

cd alphafold3 # Navigate to the directory with cloned AlphaFold3 repository.
python3 fetch_databases.py --download_destination=

该脚本从托管在GCS上的镜像下载数据库,所有版本与AlphaFold3论文中使用的相同。

脚本完成后,应该有以下目录结构:

pdb_2022_09_28_mmcif_files.tar # ~200k PDB mmCIF files in this tar.
bfd-first_non_consensus_sequences.fasta
mgy_clusters_2022_05.fa
nt_rna_2023_02_23_clust_seq_id_90_cov_80_rep_seq.fasta
pdb_seqres_2022_09_28.fasta
rfam_14_9_clust_seq_id_90_cov_80_rep_seq.fasta
rnacentral_active_seq_id_90_cov_80_linclust.fasta
uniprot_all_2021_04.fa
uniref90_2022_05.fa

获取模型参数

访问AlphaFold3模型参数需要向Google DeepMind申请并获得授权。

数据管线

数据管线的运行时间(即基因序列搜索和模板搜索)可能会因输入的大小、找到的同源序列数量以及可用的硬件(磁盘速度尤其会影响基因搜索的速度)而显著变化。

如果想提高性能,建议提高磁盘速度(例如通过利用基于RAM的文件系统),或增加可用的CPU核心并增加并行处理。

此外,请注意,对于具有深度MSA的序列,Jackhmmer或Nhmmer可能需要超出推荐的64 GB RAM的大量内存。

模型推理

AlphaFold3论文的补充信息中的表8提供了在配置为运行在16个NVIDIA A100上时的AlphaFold3的无需编译的推理时间,每个设备具有40GB的内存。


相比之下,该存储库支持在单个NVIDIA A100上运行AlphaFold3,具有80GB内存,并在配置上进行了优化以最大化吞吐量。

下表中使用GPU秒(即使用16个A100时乘以16)比较了这两种设置的无需编译的推理时间。该存储库中的设置在所有token大小上效率更高(提高至少2倍),表明其适合高吞吐量应用。


硬件要求

AlphaFold3正式支持以下配置,并已对其进行了广泛的数值准确性和吞吐量效率测试:

- 1 NVIDIA A100(80GB)

- 1 NVIDIA H100(80GB)

通过以下配置更改,AlphaFold3可以在单个NVIDIA A100 (40GB) 上运行:

1. 启用统一内存。

2. 调整model_config.py中的pair_transition_shard_spec:

pair_transition_shard_spec: Sequence[_Shape2DType] = (
(2048, None),
(3072, 1024),
(None, 512),
)

虽然数值上准确,但由于可用内存较少,因此与NVIDIA A100 (80GB) 的设置相比,该配置的吞吐量会较低。

虽然也可以在单个NVIDIA V100上使用run_alphafold.py中的--flash_attention_implementation=xla来运行长度最多为1280 token的AlphaFold3,但此配置尚未经过数值准确性或吞吐量效率的测试,因此请谨慎操作。

参考资料:

https://www.nature.com/articles/d41586-024-03708-4

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
汉语是不是最简练的语言?网友:全世界只有中文视频网站有弹幕!

汉语是不是最简练的语言?网友:全世界只有中文视频网站有弹幕!

蜉蝣说
2024-12-12 15:15:47
琼瑶葬礼结束,家人发文感谢,琼瑶最后一份礼物曝光,惹人泪目

琼瑶葬礼结束,家人发文感谢,琼瑶最后一份礼物曝光,惹人泪目

180°视角
2024-12-11 17:58:44
梅德韦杰夫在华感叹中国发展:“令人钦佩”

梅德韦杰夫在华感叹中国发展:“令人钦佩”

环球网资讯
2024-12-11 23:08:12
真实事件!普京女婿被俄罗斯亿万富翁欺负,普京助理找上门

真实事件!普京女婿被俄罗斯亿万富翁欺负,普京助理找上门

马尔科故事会
2024-11-05 13:56:12
5948元!iPhone16ProMax价格跌破6000元 库克回复相机按键问题

5948元!iPhone16ProMax价格跌破6000元 库克回复相机按键问题

小柱解说游戏
2024-12-11 18:48:56
深圳突发爆炸小区18万一平,有业主称前一晚曾有燃气泄漏的味道

深圳突发爆炸小区18万一平,有业主称前一晚曾有燃气泄漏的味道

派大星纪录片
2024-12-11 18:23:43
以摧毁叙全部战略能力,巴沙尔带走巨额财富

以摧毁叙全部战略能力,巴沙尔带走巨额财富

近距离
2024-12-11 10:22:56
今年冬至,“六十年不遇”,三大特点,今年冬天到底冷不冷?

今年冬至,“六十年不遇”,三大特点,今年冬天到底冷不冷?

书中自有颜如玉
2024-12-11 15:40:33
美国让英伟达把5090显卡也禁了

美国让英伟达把5090显卡也禁了

玲子日记
2024-12-12 14:41:57
正式官宣!中国005航母将用核动力,独创颠覆技术,性能超福特级

正式官宣!中国005航母将用核动力,独创颠覆技术,性能超福特级

看世界的人
2024-12-11 22:17:14
赵勇富任广西壮族自治区党委党史研究室主任,此前任南宁市委宣传部部长

赵勇富任广西壮族自治区党委党史研究室主任,此前任南宁市委宣传部部长

澎湃新闻
2024-12-12 17:16:27
快讯!外媒:因证据不足,瑞典结束对姆巴佩涉嫌“强奸案”调查

快讯!外媒:因证据不足,瑞典结束对姆巴佩涉嫌“强奸案”调查

环球网资讯
2024-12-12 17:04:52
眼睛快瞎了,科尔谈火箭NBA杯主场配色:感觉自己陷入了地狱深处

眼睛快瞎了,科尔谈火箭NBA杯主场配色:感觉自己陷入了地狱深处

懂球帝
2024-12-12 11:19:12
明年起,年满18岁男性必须兵役登记!为什么要兵役登记?

明年起,年满18岁男性必须兵役登记!为什么要兵役登记?

老鹈爱历史
2024-12-10 09:49:51
上海人注意:冷空气明天中午杀到!最冷时段明确,部分区域有冰冻……最新研判:12月中旬偏冷

上海人注意:冷空气明天中午杀到!最冷时段明确,部分区域有冰冻……最新研判:12月中旬偏冷

上观新闻
2024-12-12 13:40:47
有种“痴情”叫李乃文,因一场吻戏与女演员意难平,40岁终获幸福

有种“痴情”叫李乃文,因一场吻戏与女演员意难平,40岁终获幸福

星光历史
2024-12-12 16:07:21
密集履新!他已任安徽一地市政府“一把手”!

密集履新!他已任安徽一地市政府“一把手”!

鲁中晨报
2024-12-12 17:09:06
从12月份开始,银行存款一夜大改,5万以上存款的注意了

从12月份开始,银行存款一夜大改,5万以上存款的注意了

猫小狸同学
2024-12-12 12:00:03
深圳18万/平米豪宅爆炸!最新消息来了

深圳18万/平米豪宅爆炸!最新消息来了

深蓝财经
2024-12-11 19:58:37
中央定调!退休迎来调整,2025年实施,养老金地区差距,会缩小吗

中央定调!退休迎来调整,2025年实施,养老金地区差距,会缩小吗

社保小达人
2024-12-12 12:30:03
2024-12-12 18:48:49
新智元
新智元
AI产业主平台领航智能+时代
11858文章数 65720关注度
往期回顾 全部

科技要闻

极越两大股东百度、吉利为何见死不救?

头条要闻

跨度30年 韩勇在吉林、新疆、陕西任职时敛财2.61亿

头条要闻

跨度30年 韩勇在吉林、新疆、陕西任职时敛财2.61亿

体育要闻

欧冠“病友德比”,曼城又输了

娱乐要闻

赛琳娜官宣订婚!高调晒鸽子蛋钻戒

财经要闻

多个首次!连平解读政治局会议重要信号

汽车要闻

高颜值高空间高乐趣 iCAR V23是懂年轻人的

态度原创

家居
本地
房产
公开课
军事航空

家居要闻

动态包容 有呼吸感的家

本地新闻

探黔地风情,于山水之间赏不败之花

房产要闻

纯板大宅+九年「广铁」!撬动广州改善生活,盯紧这个项目!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

根据停火协议 以色列首次从黎巴嫩撤军

无障碍浏览 进入关怀版