![]()
编辑丨&
过去几年里,蛋白质基础模型(protein language models,pLMs)几乎重塑了整个计算生物学。
从 AlphaFold 3 的结构预测,到生成式蛋白设计,再到酶优化、抗病毒肽生成、药物靶点发现,大模型开始像理解自然语言一样「理解蛋白质」。论文中提到,如今 pLM 已经在药物-靶点相互作用预测、结构预测与蛋白设计等任务中达到 SOTA 水平。
但与此同时,一个问题也越来越尖锐:
这些模型为什么会得出这些结果?
研究者开始意识到,现代蛋白 AI 正在变成一种典型「黑箱」——它能生成序列、预测功能、甚至设计全新蛋白,但人类往往无法解释其内部决策逻辑。这种不透明性不仅影响科学可信度,更直接关系到生物安全、偏差传播与可控生成。也正因为如此,来自欧洲多家机构的研究团队在这篇路线图论文中,试图系统回答一个此前很少被完整讨论的问题:如果蛋白 AI 未来真的会参与生物设计,那么我们该如何「看懂」它?
相关研究以「Towards the explainability of protein language models」为题,于 2026 年 5 月 11 日发布在《Nature Machine Intelligence》。
![]()
论文链接:https://www.nature.com/articles/s42256-026-01232-w
XAI 开始进入蛋白质世界
可解释人工智能(XAI)领域近年来备受关注。XAI 旨在通过近似机器学习(ML)模型的内部推理或可视化其从数据中学习到的模式,来提高模型的透明度。这些方法有助于弥合模型复杂性与人类可解释性之间的鸿沟,但将其应用于生物分子语言模型在技术上仍颇具挑战性。
研究团队认为,目前大多数蛋白模型的能力提升,依赖的是更大的数据、更大的参数、更深的 Transformer。但这套逻辑,并不能自动带来「理解」。因此,论文中提出了一套面向蛋白 AI 的 XAI 分类框架。他们把可解释方法按信息来源分成四大类:
- 训练数据层
- 分析哪些蛋白序列真正影响模型
- 发现训练偏差
- 输入层
- 分析哪些氨基酸真正驱动预测
- 模型内部结构
- Attention
- 神经元
- SAE(Sparse Autoencoder)
- residual stream
- 输入-输出行为
- 通过扰动、代理模型等方式解释模型决策
![]()
图 1:XAI 方法在蛋白质建模工作流中的概念性概述。
这套框架不仅适用于 Transformer,也适用于 diffusion、GNN 乃至 AlphaFold 类系统。
打开黑匣子之后
为了理解可解释人工智能在当今蛋白质研究中的应用,研究人员回顾了现有科学文献,并审查了数十项已将可解释性工具应用于蛋白质语言模型的研究。这是迄今为止最全面的同类调查。
![]()
图 2:通过分析输入序列实现可解释性。
在几乎所有情况下,可解释性都被用作「评估器」,用以检查模型是否学会了生物学家已知的模式,例如识别结合位点或结构基序。虽然评估器有助于基准模型质量,但它们无法推断未知的例子、改进模型架构,更重要的是,无法揭示从训练数据中产生的生物学洞见。
为此,研究团队从文献中总结出 XAI 的五种角色:评估者、多任务处理、工程师、教练、教师。其中,教师角色仍是 AI 发展的终极愿景。这意味着人类能从模型中提取真正新颖的生物学洞察,发现人类尚未知晓的模式,真正从 AI 中学习新知识。
培养一位教师
为什么要如此执着于「可解释性」?因为它是生物安全的根本。
![]()
图 3:XAI 方法在蛋白质研究中的作用。
如果一个 AI 模型是不可解释的,它可能会悄悄地在某个蛋白设计中嵌入一段具有免疫逃逸功能的基序,而人类科学家仅从外观上无法察觉。只有当 XAI 能够清晰地标注出「这个序列段之所以被保留,是因为它具有破坏某种宿主受体的潜力」,研究者才能在危险发生前按下停止键。
这也就牵扯出教师角色的多维度推进方向之一:保真度。紧随其后的是先验可解释模型、可视化策略与湿实验验证。
在蛋白质科学领域,达到教师阶段意味着人工智能系统帮助研究人员发现蛋白质折叠、催化或分子相互作用的新规则,从而改变药物、材料和可持续技术的设计方式。
相关链接:https://phys.org/news/2026-05-roadmap-safer-protein-ai.html
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.