2020年,一个蛋白质结构预测比赛的分数表,让整个结构生物学界安静了十分钟。
CASP14(第14届蛋白质结构预测关键评估)的榜单上,一个代号AlphaFold的模型,把GDT_TS分数干到了92.4。这个数字什么概念?实验测定的晶体结构,误差范围通常在95分左右。换句话说,AI预测的结构,已经和实验室里泡了几个月的结果,肉眼几乎分不出差别。
蛋白质折叠问题困扰了科学界半个多世纪。从1961年安芬森(Christian Anfinsen)在诺贝尔奖领奖台上提出这个挑战,到2020年DeepMind的论文登上《自然》,中间隔了59年。期间无数团队尝试过物理模拟、统计近似、同源建模,全都在原子级精度前败下阵来。
AlphaFold的突破在于换了一条路。它没有死磕分子动力学模拟——那条路算力需求是指数级爆炸的。它把物理约束和生物知识编进了神经网络的损失函数里,用多序列比对(MSA,Multiple Sequence Alignment)捕捉进化留下的结构线索。
「我们提供了一种计算方法,能够在没有已知相似结构的情况下,常规性地达到原子级精度。」DeepMind团队在论文里写得克制,但熟悉这个领域的人都知道,这句话的分量相当于说「我们造了一台不用燃料的飞机,还能超音速」。此前的方法,遇到全新蛋白家族时精度直接跳水,这是业界默认的天花板。
两条死胡同,和一条没人走过的路
蛋白质结构预测的历史,基本就是两部失败史。
物理派相信,只要算力够强、力场够准,就能从氨基酸序列算出三维构象。理论上没错——薛定谔方程确实描述了一切。但一个中等大小的蛋白质,原子数量在万左右,模拟时间尺度要到毫秒级,现有超算连边都摸不着。更麻烦的是蛋白质稳定性极度依赖环境,溶液条件、辅因子、翻译后修饰,任何一个变量都能让模型崩盘。
进化派则聪明一些。他们发现,如果两个氨基酸在三维空间里靠近,它们的突变往往是联动的——一个变了,另一个也得跟着变才能维持功能。这种「共进化信号」藏在海量序列比对里,可以用统计模型挖出来。2010年代的RaptorX、RosettaCM走的就是这条路,精度确实比物理模拟高,但遇到孤儿蛋白(没有同源序列的蛋白)照样抓瞎。
AlphaFold的狠招,是把这两条路的信息熔进了一个端到端的深度学习框架。MSA提供进化约束,结构模块负责几何推理,中间用注意力机制(Attention Mechanism)打通。整个系统训练时,物理合理性被硬编码进损失函数——键长、键角、手性、空间冲突,违反任何一条都要扣分。
结果在CASP14的靶标上,AlphaFold的GDT_TS中位数达到92.4,而第二名只有大约75。最夸张的是T1030靶标,一个来自古菌的孤儿蛋白,没有任何已知同源结构,AlphaFold扔出了94.2的分数。评审之一的John Moult后来回忆,「我们以为实验结构出错了,检查了三遍」。
从游戏AI到生物AI,同一套方法论
DeepMind做这件事,多少带点降维打击的意味。
团队核心成员来自AlphaGo项目。那套系统用深度强化学习搞定了围棋,本质是在超高维空间里做概率搜索。蛋白质构象空间虽然不同,但数学结构类似——都是天文数字级的可能性中找最优解。AlphaFold的架构里能看到明显的AlphaGo遗产:注意力网络处理长程依赖,迭代优化逐步精修结构,损失函数设计融入领域知识。
但生物问题的脏数据比围棋麻烦一百倍。PDB(蛋白质数据银行)里只有约17万个实验结构,而围棋有自对弈生成无限数据。DeepMind的解法是用自蒸馏(Self-distillation)和MSA扩充有效监督信号,同时用结构预测的不确定性估计来筛选高置信度区域。
论文里有个细节很说明问题:AlphaFold对结构域(Domain)边界的预测,比整体折叠还准。这是因为进化信号在结构域级别最清晰,而物理约束保证了连接区域的合理性。两种知识的耦合,让系统具备了某种「生物学直觉」——它知道哪里该信数据,哪里该信物理。
2021年,DeepMind把AlphaFold2开源,并预测了人类基因组全部约2万个蛋白质的结构。2022年,这个数据库扩展到2亿种蛋白质,覆盖几乎已知所有物种。此前50年,实验结构生物学家攒了17万个结构;AI用两年时间,把这个数字翻了1000倍。
结构生物学家失业了吗?
这个问题在2020年底的学术会议上被问了无数次。
答案是否定的,但工作方式确实变了。冷冻电镜(Cryo-EM)和X射线晶体学仍然是金标准,尤其是膜蛋白、动态复合物、药物结合态这些AI预测置信度低的场景。但研究流程被彻底重构:现在科学家先查AlphaFold数据库,有高精度预测就直接开工功能研究,只有必要时才上实验验证。
更深远的影响在药物研发。传统上,靶点结构解析是瓶颈中的瓶颈,一个膜蛋白结构可能卡住项目两年。AlphaFold让这个过程从「开荒」变成「验证」。当然,它预测的是静态结构,而药物设计需要理解构象变化和结合动力学,这部分AI还替代不了。
DeepMind后来拆分出Isomorphic Labs,专门做AI驱动的药物发现。2024年,他们和礼来、诺华签了大单,用AlphaFold衍生技术设计小分子。这条商业路径能走多远,取决于AI在动态结构和药物-靶点相互作用上的下一步突破。
回到CASP14那个92.4分。评审Moult当时说,「这基本解决了单链蛋白的折叠问题」。但「基本解决」和「完全解决」之间,隔着膜蛋白、多链复合物、内在无序蛋白、翻译后修饰——这些才是结构生物学剩下的硬骨头。
2024年的AlphaFold3已经能预测蛋白质-核酸-小分子复合物,但精度距离单链蛋白仍有差距。那个50年的难题,AI用两年冲到了终点线前,最后几米却可能还要再走十年。
当2亿个蛋白质结构免费躺在数据库里,下一个被AI解锁的生物学难题,会是什么?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.