AI蛋白质,刚刚杀入一条鲶鱼。
10月19日,合成生物学公司Anthrogen正式推出蛋白质模型Odyssey,最大参数规模达到1020亿。
据介绍,Odyssey不仅能够理解蛋白质的序列与结构,更具备多目标协同设计能力。
用户可以为蛋白质设定多个目标,例如“高效结合靶点”、“低免疫原性”、“易于大规模生产”等,Odyssey将自动生成满足所有条件的候选分子。
bio
R
xiv
https://www.biorxiv.org/content/10.1101/2025.10.15.682677v1
Anthrogen创始人Ankit Singhal表示,这是迄今为止最大、性能最强的蛋白质语言模型,将于不久后开源。
![]()
更令人惊讶的是,开发成员仅有6人,大部分还是来自哥伦比亚大学和杜克大学的学生。
不过,针对所谓“最大、性能最强”的表述,不少人提出了质疑。
AI蛋白质公司EvolutionaryScale的科学家Michael Hla在评论区询问是否有用于对比的评测信息,并表示「问题很多」。
![]()
创始人给出了一些对比指标,但Arc Institute的研究员表示证据显然还不够。
![]()
尽管相关表述引发争议,但该模型在架构、训练方式上的的创新仍然值得重点关注。
Anthrogen的愿景是像设计机器一样,精确地设计全新的分子,Odyssey正是实现这一目标的第一步。
![]()
千亿大模型,多项关键创新
当前,许多蛋白质模型借鉴了自然语言处理(NLP)领域的自注意力机制(Self-Attention)。
这一机制允许序列中任意两个位置直接交互。
然而,在蛋白质中,远距离相互作用是通过三维结构和共价骨架传递的,依赖关系是局部协同、多体耦合的,而非任意“跳跃”。
为此,Odyssey引入了共识块(Consensus blocks),取代自注意力机制。
该机制鼓励相邻氨基酸区域达成“局部一致”,再将这种一致性沿着序列和接触图(Contact Graph)迭代地向外传播。
这种设计带来了两大优势:
计算效率更高:自注意力的计算复杂度为序列长度的平方,而共识机制为线性,显著降低了长蛋白质的训练与生成成本。
训练更稳定:随着模型规模扩大,自注意力机制对学习率(Learning Rate,)极为敏感,稍有偏差即导致训练失败。而共识机制在更宽泛的学习率范围内保持稳定,减少了训练中断和重启。
![]()
图:Odyssey整体架构示意图
同时,为了更好地模拟生物进化过程,Odyssey采用离散扩散(discrete diffusion)作为训练方法。
可以想象成:首先将一个完整的蛋白质序列和结构“打乱”,然后模型学习如何随着时间的推移,一步步、有逻辑地“揭开面纱”,最终重建出完整的、合理的蛋白质。
这种方式优于传统的掩码语言建模(Masked Language Modeling, MLM),使模型学会进行多残基协同修正,而非孤立预测,更符合真实蛋白质的折叠与功能机制。
此外,研究人员还引入了有限标量量化器(Finite Scalar Quantizer, FSQ)。将三维几何信息被编码为类似“字母”的离散符号,可与氨基酸序列一同作为模型输入,实现序列与结构的统一处理。
Odyssey在核心机制上的创新,解决了传统模型在处理蛋白质数据时的局限性,从而提升了性能和实用性。
![]()
图:Odyssey展现出强大的缩放性能
其在性能上超越了许多竞争模型,而所需的训练数据量大约减少了10倍。这对于高质量标注数据稀缺的蛋白质领域具有重大价值。
![]()
理解生物规律,可用于药物设计与酶改造
随后,研究团队通过一个具体的案例,展示了Odyssey的实际应用。
他们想看看这个模型能不能理解真实蛋白质的功能,并生成符合这些功能的序列。
于是,他们选了六个真实的酶作为测试对象。
实验中使用的是12亿参数版本的Odyssey模型。采用了类似“补全”的方式。他们把酶的完整序列和结构输入模型,但把序列中的一部分氨基酸随机遮盖住。
接下来,他们让模型根据没被遮盖的部分和完整的结构信息,去预测并生成那些被遮盖区域的氨基酸。
这个过程生成了数千个不同的序列变体。研究人员用两个关键指标来评估这些生成结果:一个是pTM,用来衡量生成结构和原始结构的整体相似度;另一个是cRMSD,用来评估局部结构的紧密程度。
实验结果显示,模型生成的序列变体在pTM和cRMSD等指标上呈现出明显的双峰分布。
![]()
图:针对六种未参与训练的酶,模型的对齐性能表现良好
生成的序列可以被清晰地分为两组:一组具有高pTM和低cRMSD(即结构高度相似且紧密),另一组则性能较差。
这种现象说明,Odyssey并非随机生成序列,而是学习到了与蛋白质功能和稳定性相关的深层物理和结构约束。它能够区分出“可行”和“不可行”的序列-结构组合。
这个实验虽然没有创造全新的蛋白质,但它证明了模型具备理解复杂生物规律的能力。它能在保持蛋白质三维结构的前提下,生成高质量、功能兼容的氨基酸序列。
这项能力非常实用,比如在药物研发中优化抗体或在工业上改造酶的性能,为Odyssey在更多领域的应用打下坚实基础。
![]()
在读博士创业,知名投资人押注
Anthrogen的创始人是两个哥伦比亚大学的博士生Ankit Singhal和ConnorLee,两人将于2026年毕业。
![]()
图: Ankit Singhal
Ankit Singhal 先后在哥伦比亚大学Mancia实验室(2022–2024)和AlQuraishi实验室(2023)从事整合膜蛋白结构解析和基于AI的蛋白质突变自由能预测研究。
![]()
图:Connor Lee
Connor Lee是ROAM实验室的研究员,在机器人领域拥有十多年的经验,在FIRST机器人竞赛中排名第三,入选福布斯「30 Under 30」。
Anthrogen成立于2023年,旨在利用转基因微生物和人工智能设计的酶,直接从大气中的二氧化碳中制造关键化学品和燃料。
去年,Anthrogen完成了400万美元的种子资金,由Regen Ventures和BoxGroup领投,Y Combinator、Wayfinder和Y Combinator联合创始人Paul Graham参投。
Ankit Singhal表示,种子轮融资将用于创造新型酶,这些酶可以捕获二氧化碳并将其转化为燃料、塑料、淀粉和纤维素等其他分子。
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.