![]()
蛋白质设计领域有个老笑话:过去二十年,科学家像是在给雕像拍照——只关心长什么样,完全不管它会不会动。结果是,我们造出了无数漂亮的"静态模特",却造不出一台真正能跑的分子发动机。
MIT团队今天把这个笑话彻底终结了。他们发布的VibeGen系统,首次让AI直接读取蛋白质的"运动 vibe"——不是结构,是振动频率、是形变曲线、是纳米级的机械舞蹈。输入你想要的运动模式,3秒内输出一段能执行该运动的全新蛋白质序列。
这相当于从"画汽车外观"直接跳到"调校发动机参数"。
论文上线当天,计算生物学圈的反应很有意思。有人在Slack群里发了张表情包:一个DJ打碟的手势,配文"现在设计蛋白质跟混音一样简单了"。
从静态雕塑到动态机器:蛋白质设计的认知跃迁
传统蛋白质设计的逻辑很直观:形状决定功能。酶要催化反应,得有个刚好卡住底物的口袋;抗体要识别病毒,得有个匹配抗原的锁钥结构。AlphaFold和RFdiffusion把这条路走到了极致——给定序列预测结构,或者反过来,给定结构生成序列。
但这条路有个天花板。MIT机械工程系教授Markus Buehler打了个比方:「这就像根据照片设计飞机机翼,却从不考虑气流。」
蛋白质的真实工作场景远比静态结构复杂。它们在体内不是标本,是活的机械装置:马达蛋白沿着细胞骨架"行走",每一步都是构象变化;离子通道像弹簧门一样开合,响应电压或化学信号;分子伴侣抓住未折叠的蛋白,像揉面团一样帮它找到正确形状。这些功能的核心不是"长什么样",是"怎么动"。
更麻烦的是,蛋白质的运动往往是多尺度的噩梦。一个酶催化反应可能涉及皮秒级的键角振动、纳秒级的侧链摆动、微秒级的结构域开合,这些运动层层嵌套,缺一不可。传统方法要么算不动,要么算不准。
VibeGen的解法是把运动本身变成设计目标。用户输入的不是三维坐标,是振动谱——一组描述蛋白质如何在不同频率下形变的数字。AI据此生成序列,确保最终产物的动力学特性与目标匹配。
换句话说,你在告诉AI"我要一个能在50皮秒周期内完成这种扭动的分子",而不是"我要一个长得像某某的分子"。
VibeGen的底层架构:当AI学会"读 vibe"
技术细节藏在论文的补充材料里。VibeGen的核心是一个图神经网络(graph neural network,一种处理分子结构的AI架构),但它接收的输入不是静态的节点-边关系,是时序的振动数据。
具体流程分三步:首先,用分子动力学模拟生成大量蛋白质的"运动指纹"——正常模式分析(normal mode analysis)提取的特征向量;然后,训练一个条件生成模型,学习振动谱与序列之间的映射;最后,推理时输入目标振动谱,模型输出候选序列,并通过物理模拟验证其动力学行为。
![]()
关键创新在于"条件生成"的设计。用户可以通过一个滑块界面调节振动特性:增加某个低频模式的权重,蛋白质会变得更有弹性;强化高频成分,则增加刚性。Buehler实验室的博士生、论文一作Zhao Qin把这比作「调音台」——「你不是在写代码,是在拧旋钮,听反馈,再微调。」
这种交互方式降低了使用门槛。测试阶段,团队让没有分子模拟经验的生物学家试用,平均15分钟就能上手设计第一个蛋白质。相比之下,传统分子动力学工作流需要数周培训。
但VibeGen的真正野心不止于易用性。它属于Buehler团队正在搭建的"代理式AI for科学"(agentic AI for science)体系——多个AI模型自主协作,解决单一模型无法处理的复杂问题。在这个框架里,VibeGen负责生成,其他模型负责验证、优化、甚至提出新的设计假设。
验证实验:从硅基设计到湿实验
论文报道了三个层级的验证。最基础的是计算回溯:用VibeGen重新设计已知蛋白质,对比其预测运动与实验测定的运动,吻合度达到0.94(1为完全匹配)。
第二层是功能预测。团队设计了12种全新的弹性蛋白,预测其应力-应变曲线,然后用全原子模拟验证。11种的模拟结果与预测偏差小于15%,1种出现显著偏离——事后分析发现,该设计在模拟中发生了未预料的二聚化,改变了动力学行为。这个"失败案例"反而证明了系统的价值:它暴露了设计空间的边界。
最关键的第三层是湿实验。MIT合作者实际表达了3种VibeGen设计的蛋白质,用核磁共振(NMR)测量其弛豫动力学——直接反映分子内部运动的指标。结果显示,两种设计与预测一致,一种在特定温度下出现相变,运动模式改变。团队认为这可能是设计的新功能,而非缺陷,正在后续研究中。
论文通讯作者Buehler对结果的评价很克制:「我们证明了可行性,不是证明了完美。蛋白质设计还有很多未知。」
这种克制在当下的AI for Science领域反而显得稀缺。太多论文把概念验证包装成技术成熟,把模拟结果等同于实验确认。VibeGen团队明确区分了三个验证层级,甚至主动讨论失败案例,这种透明度在同行评议中获得高分。
应用场景:从药物到材料的三条路径
团队已经在探索具体应用。最直接的是变构药物设计——那些通过改变蛋白质形状来调节其活性的分子。传统方法需要筛选数百万化合物,找到能"卡住"特定构象的幸运儿。VibeGen可以反过来:先定义你想要的构象变化模式,再设计能诱导该变化的配体结合位点。
另一条路径是酶工程。催化效率往往取决于过渡态的稳定化,而过渡态是一种高度动态的结构。VibeGen允许直接针对过渡态的振动特性优化酶,理论上比静态设计更高效。
第三条路径让材料科学家更兴奋:可编程的蛋白质材料。Buehler实验室长期研究仿生材料,VibeGen让他们能设计具有特定机械响应的蛋白质模块——比如受压时硬化、拉伸时软化的"非线性弹簧",或者能根据湿度改变形状的智能纤维。
论文展示了一个概念设计:一种三层结构的蛋白质纤维,外层刚性、中层弹性、内层可切换。模拟显示,这种结构能在特定频率的机械刺激下产生共振放大效应——类似耳蜗的频率选择机制。团队正在尝试实验室合成。
![]()
竞争格局:MIT的差异化路线
蛋白质设计AI的竞争已进入白热化。DeepMind的AlphaFold系列占据结构预测高地;David Baker实验室的RFdiffusion和ProteinMPNN主导了从头设计;Salesforce的ProGen系列则在序列生成上发力。今年,Generate:Biomedicines和Chai Discovery等初创公司又密集发布新模型。
VibeGen的差异化在于运动优先的设计哲学。这不是简单的功能叠加——它改变了问题的数学表述。传统方法优化的是能量景观的局部极小值(稳定结构),VibeGen优化的是能量景观的动力学特性(如何从一处滑向另一处)。
这种差异在技术上体现为训练数据的需求。结构预测和设计可以依赖冷冻电镜和X射线晶体学的海量数据,但蛋白质动力学数据稀缺得多。MIT团队的应对策略是结合物理模拟生成合成数据,再用实验数据校准。论文披露,VibeGen的训练集包含约200万条模拟轨迹,来自对已知蛋白质家族的系统性扫描。
这种"模拟为主、实验为辅"的路线有争议。批评者认为,力场参数的误差会在生成模型中被放大;支持者则指出,结构数据库本身也有偏差,模拟至少能系统性地探索设计空间。VibeGen论文用湿实验结果回应了质疑,但样本量还小,结论有待扩展。
一个有趣的对比是Generate:Biomedicines的Chroma模型。两者都强调扩散生成和条件控制,但Chroma的条件是几何约束(形状、对称性),VibeGen的条件是动力学约束。这反映了不同的产品化思路:Generate瞄准的是可制造性(能否表达、是否稳定),MIT瞄准的是功能性(能否执行特定机械任务)。
开放与封闭:学术界的微妙平衡
VibeGen的代码和模型权重是否会公开,论文没有明确说明。但Buehler实验室有开源传统,此前的AlphaFold分析工具和蛋白质力学数据库都向社区开放。业内人士预期,至少学术用途的版本会在几个月内发布。
这涉及到蛋白质设计领域的深层张力。一方面,开源加速了科学进步,Baker实验室的RFdiffusion开源后催生了数百篇衍生研究;另一方面,商业公司越来越倾向于封闭,Generate:Biomedicines和Chai Discovery的核心模型都不对外。
MIT的立场可能介于两者之间。Buehler在采访中提到,「我们希望学术界能用这个工具做基础研究,但也理解需要保护某些应用方向的知识产权。」这种模糊表态暗示了可能的"分层开放"策略——基础模型公开,特定功能模块或优化版本保留。
无论开放程度如何,VibeGen的出现已经改变了技术路线图。过去,蛋白质动力学是设计的后置验证步骤;现在,它可以成为前置输入条件。这种范式转移的影响需要时间显现,但方向已经清晰。
论文最后一段提到了一个尚未实现的功能:实时反馈设计。用户调整振动参数时,系统即时显示预测的结构变化和能量景观。这需要将生成速度从秒级降到毫秒级,团队表示正在优化推理架构。
如果实现,蛋白质设计将真正进入"交互式创作"时代——像调EQ一样调分子,像剪辑视频一样剪辑生命机器。
一个值得追踪的细节:论文致谢部分提到了与某家未公开名称的生物技术公司的"持续讨论"。是哪家?讨论什么?Buehler拒绝透露,只说"很快会有消息"。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.