DeepMind用AI破解50年难题，2亿蛋白质结构一夜解锁|构象|复合物|膜蛋白|deepmind

DeepMind用AI破解50年难题，2亿蛋白质结构一夜解锁

2026-04-12 09:31:16　来源: 灰度测试中

北京举报

分享至

2020年，一个蛋白质结构预测比赛的分数表，让整个结构生物学界安静了十分钟。

CASP14（第14届蛋白质结构预测关键评估）的榜单上，一个代号AlphaFold的模型，把GDT_TS分数干到了92.4。这个数字什么概念？实验测定的晶体结构，误差范围通常在95分左右。换句话说，AI预测的结构，已经和实验室里泡了几个月的结果，肉眼几乎分不出差别。

蛋白质折叠问题困扰了科学界半个多世纪。从1961年安芬森（Christian Anfinsen）在诺贝尔奖领奖台上提出这个挑战，到2020年DeepMind的论文登上《自然》，中间隔了59年。期间无数团队尝试过物理模拟、统计近似、同源建模，全都在原子级精度前败下阵来。

AlphaFold的突破在于换了一条路。它没有死磕分子动力学模拟——那条路算力需求是指数级爆炸的。它把物理约束和生物知识编进了神经网络的损失函数里，用多序列比对（MSA，Multiple Sequence Alignment）捕捉进化留下的结构线索。

「我们提供了一种计算方法，能够在没有已知相似结构的情况下，常规性地达到原子级精度。」DeepMind团队在论文里写得克制，但熟悉这个领域的人都知道，这句话的分量相当于说「我们造了一台不用燃料的飞机，还能超音速」。此前的方法，遇到全新蛋白家族时精度直接跳水，这是业界默认的天花板。

两条死胡同，和一条没人走过的路

蛋白质结构预测的历史，基本就是两部失败史。

物理派相信，只要算力够强、力场够准，就能从氨基酸序列算出三维构象。理论上没错——薛定谔方程确实描述了一切。但一个中等大小的蛋白质，原子数量在万左右，模拟时间尺度要到毫秒级，现有超算连边都摸不着。更麻烦的是蛋白质稳定性极度依赖环境，溶液条件、辅因子、翻译后修饰，任何一个变量都能让模型崩盘。

进化派则聪明一些。他们发现，如果两个氨基酸在三维空间里靠近，它们的突变往往是联动的——一个变了，另一个也得跟着变才能维持功能。这种「共进化信号」藏在海量序列比对里，可以用统计模型挖出来。2010年代的RaptorX、RosettaCM走的就是这条路，精度确实比物理模拟高，但遇到孤儿蛋白（没有同源序列的蛋白）照样抓瞎。

AlphaFold的狠招，是把这两条路的信息熔进了一个端到端的深度学习框架。MSA提供进化约束，结构模块负责几何推理，中间用注意力机制（Attention Mechanism）打通。整个系统训练时，物理合理性被硬编码进损失函数——键长、键角、手性、空间冲突，违反任何一条都要扣分。

结果在CASP14的靶标上，AlphaFold的GDT_TS中位数达到92.4，而第二名只有大约75。最夸张的是T1030靶标，一个来自古菌的孤儿蛋白，没有任何已知同源结构，AlphaFold扔出了94.2的分数。评审之一的John Moult后来回忆，「我们以为实验结构出错了，检查了三遍」。

从游戏AI到生物AI，同一套方法论

DeepMind做这件事，多少带点降维打击的意味。

团队核心成员来自AlphaGo项目。那套系统用深度强化学习搞定了围棋，本质是在超高维空间里做概率搜索。蛋白质构象空间虽然不同，但数学结构类似——都是天文数字级的可能性中找最优解。AlphaFold的架构里能看到明显的AlphaGo遗产：注意力网络处理长程依赖，迭代优化逐步精修结构，损失函数设计融入领域知识。

但生物问题的脏数据比围棋麻烦一百倍。PDB（蛋白质数据银行）里只有约17万个实验结构，而围棋有自对弈生成无限数据。DeepMind的解法是用自蒸馏（Self-distillation）和MSA扩充有效监督信号，同时用结构预测的不确定性估计来筛选高置信度区域。

论文里有个细节很说明问题：AlphaFold对结构域（Domain）边界的预测，比整体折叠还准。这是因为进化信号在结构域级别最清晰，而物理约束保证了连接区域的合理性。两种知识的耦合，让系统具备了某种「生物学直觉」——它知道哪里该信数据，哪里该信物理。

2021年，DeepMind把AlphaFold2开源，并预测了人类基因组全部约2万个蛋白质的结构。2022年，这个数据库扩展到2亿种蛋白质，覆盖几乎已知所有物种。此前50年，实验结构生物学家攒了17万个结构；AI用两年时间，把这个数字翻了1000倍。

结构生物学家失业了吗？

这个问题在2020年底的学术会议上被问了无数次。

答案是否定的，但工作方式确实变了。冷冻电镜（Cryo-EM）和X射线晶体学仍然是金标准，尤其是膜蛋白、动态复合物、药物结合态这些AI预测置信度低的场景。但研究流程被彻底重构：现在科学家先查AlphaFold数据库，有高精度预测就直接开工功能研究，只有必要时才上实验验证。

更深远的影响在药物研发。传统上，靶点结构解析是瓶颈中的瓶颈，一个膜蛋白结构可能卡住项目两年。AlphaFold让这个过程从「开荒」变成「验证」。当然，它预测的是静态结构，而药物设计需要理解构象变化和结合动力学，这部分AI还替代不了。

DeepMind后来拆分出Isomorphic Labs，专门做AI驱动的药物发现。2024年，他们和礼来、诺华签了大单，用AlphaFold衍生技术设计小分子。这条商业路径能走多远，取决于AI在动态结构和药物-靶点相互作用上的下一步突破。

回到CASP14那个92.4分。评审Moult当时说，「这基本解决了单链蛋白的折叠问题」。但「基本解决」和「完全解决」之间，隔着膜蛋白、多链复合物、内在无序蛋白、翻译后修饰——这些才是结构生物学剩下的硬骨头。

2024年的AlphaFold3已经能预测蛋白质-核酸-小分子复合物，但精度距离单链蛋白仍有差距。那个50年的难题，AI用两年冲到了终点线前，最后几米却可能还要再走十年。

当2亿个蛋白质结构免费躺在数据库里，下一个被AI解锁的生物学难题，会是什么？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.