结合亲和力(affinity),即药物与受体结合的强度,是判断化合物是否可能成为可行疗法的重要早期指标。对于科学家来说,预测结合亲和力价值巨大但难以使用,因为它依赖于通过繁琐实验获得的详细蛋白质结构以及计算量巨大的基于物理的模拟。这些限制正是 SandboxAQ 试图通过 AQAffinity 解决的问题。
![]()
AQAffinity 是一个新的开源AI 模型,可以直接从蛋白质序列预测蛋白质-配体结合亲和力,而无需实验来确定结构。该模型于 1 月与 Nvidia 合作推出,基于OpenFold Consortium 开发的开源生物分子共折叠模型 OpenFold3 构建,为研究人员提供了一种更实用的方法来大规模评估预测结合亲和力。SandboxAQ 的 AISim 业务单元创新主管、物理学家 Adam Lewis 博士介绍了他的团队如何致力于创建旨在加速药物、化学和材料发现的AI 模型。
AQAffinity 如何进行结合亲和力预测
"AQAffinity 计算蛋白质和分子之间的结合亲和力," Lewis 告诉媒体。"它给你一个数字,告诉你这个分子对蛋白质有多'粘稠',这是药物疗效的潜在指标,通常用于药物开发的早期阶段。"
这个"粘稠度"数值帮助研究人员决定哪些分子值得追求,哪些不太可能成功。结合亲和力并不能保证药物会起作用,但这是在进行昂贵的实验室实验之前缩小大量候选药物范围的最早方法之一。
AQAffinity 与许多现有结合亲和力预测工具的不同之处在于它如何得出这个粘稠度数字。传统方法通常依赖于通过 X 射线晶体学或冷冻电子显微镜等技术获得的实验确定的蛋白质结构。这些结构通常难以获取且昂贵,而且只存在于部分生物学相关蛋白质上。因此,许多药物发现项目要么完全无法使用结合亲和力预测,要么只能将其应用于少数经过充分研究的蛋白质。
相反,AQAffinity 直接从蛋白质序列运行,使用目标蛋白质的氨基酸序列作为输入。它构建在 OpenFold3 之上,OpenFold3 学习蛋白质结构和分子相互作用的内部表示,使结合亲和力预测能够无需单独的结构输入。这种区别很重要,因为它决定了研究人员可以实际将哪些计算工具应用于给定目标。"你通常会知道蛋白质序列," Lewis 说,"但你不需要成像实验晶体结构数据。"
![]()
AQAffinity 让什么变得更简单
消除结构要求的一个直接好处是速度。SandboxAQ 表示,AQAffinity 的设计运行速度比传统的基于物理的结合亲和力方法快得多,允许研究人员筛选大量候选药物,而无需这些方法带来的繁重计算负担。
另一个好处是可访问性。通过消除对实验结构的要求,AQAffinity 可以应用于表征不佳或难以成像的蛋白质,并且可以更早地在多个蛋白质中考虑结合亲和力。Lewis 说这使得超越单一目标并在药物发现项目的早期阶段提出相关问题变得更加容易。"我们真正希望打破的是拥有单一药物目标的范式,然后抱最好的希望六年,然后进入临床试验。"他说。
AQAffinity 还完全开源,采用宽松的 Apache 2.0 许可发布,并可在 Hugging Face 上获取。训练方法和数据来源都有文档记录,允许研究人员根据内部基准评估模型性能,并针对特定目标或化学空间微调模型。
当前限制
AQAffinity 的速度和可访问性在准确性方面存在权衡。根据早期测试,Lewis 说模型的性能"目前还没有优于,或者说甚至没有与最好的基于物理的方法相提并论",他将这一差距描述为预期之中的,因为 AQAffinity 专注于更快、无结构的预测。他还强调说,模型目前的性能在其训练数据代表的目标范围内最强。"在与训练集中结构相似的范围内,你看到可接受的表现。" Lewis 补充说,超出该范围的泛化能力"目前还不及我们所希望的。"
由于这些限制,Lewis 强调AQAffinity 不应被视为现有工作流程的直接替代品。相反,他建议研究人员在依赖其预测之前,用自己的数据评估该模型。"对于任何新方法,你应该从收集代表你实际要解决的问题的东西开始,开发某种回顾性研究,并据此测试模型。"他说。
Lewis 还指出,AQAffinity的开源设计使得针对特定项目微调模型成为可能,但他警告这样做需要谨慎。"你需要小心,因为你当然不想污染数据。你需要有足够的数据来保留合理的测试集,否则你不会知道模型是否工作良好,因为你只是在展示标记过的示例。"
SandboxAQ 将这些限制视为持续开发过程的一部分,而不是使用的障碍。Lewis 将准确性、速度和泛化性的改进描述为模型未来版本的积极工作领域。
![]()
AQAffinity 在OpenFold 生态系统中的定位
AQAffinity 与OpenFold 生态系统紧密相连。OpenFold3 本身完全开源并可用于商业用途,与一些受限、专有或难以独立评估的竞争生物分子模型形成对比。OpenFold Consortium 是由 Open Molecular Software Foundation 托管的非营利倡议,汇集了学术实验室、生物制药公司和技术合作伙伴,共同开发生物学和药物发现的开放工具。联盟成员能够在 2025 年底 beta 测试AQAffinity,将其性能与现有方法进行比较并提供早期反馈。
在小组讨论中,OpenFold Consortium 首席研究员 Mohammed AlQuraishi 教授指出 AQAffinity 是 OpenFold3 如何设计以支持快速下游创新的例子。"OpenFold3 允许人们从比他们本来会有的更高的起点开始,"他说。AlQuraishi 说这种进展是可能的,只是因为最近在蛋白质建模和 AI 方面的进步,如 AlphaFold,使这些工具在实际的药物发现工作中变得更加实用。"这些工具已经足够好用了,"他说。"它们已经超出了纯学术范畴,到了可以推动变革的程度。正因如此,它为这些真正创新的、能够将工业界和学术界聚集在一起的新组织结构创造了空间。"
Nvidia 的角色
SandboxAQ 和OpenFold 描述的大部分进展取决于加速计算的进步。在小组讨论中,Nvidia BioNeMo 高级联盟经理 Roy Tal 讨论了该公司如何通过开放研究和特定领域优化的结合,支持像OpenFold3 和 AQAffinity 这样的 AI 驱动药物发现。Tal 将 Nvidia 对开放模型的承诺描述为推进 AI 采纳的实际要求。"我们认为这是一个当务之急,为了增加 AI 的采用,并继续推动快速创新的步伐,重要的是在开源方面进行大量投资,"他说。"这意味着开放权重、开放训练、代码、研究论文等等。"
Tal 描述说,生命科学模型对计算系统提出了独特的要求,需要不同于用于语言或视觉模型的优化。他解释说,像 OpenFold3 这样的生物学模型依赖于专门的运算:"OpenFold3 和 AlphaFold 以及类似的架构有称为三角形运算的运算。三角形乘法、三角形注意力——这些是 3D 空间的几何感知运算,当我们考虑图像和语言时并不真正存在。"
Tal 指出,这些独特的运算计算成本高昂且耗时,需要定制的解决方案。"我们决定开发定制的 CUDA 内核,大幅加速这些运算,"他说,补充说这些优化允许更快的训练和推理,同时还能够表示更大的生物分子系统。"对于 OpenFold3 类架构的非常特定部分,我们用我们开发的称为cuEquivariance 的库加速它们,该库相对低级,可以插入这些模型,并在 OpenFold3 推出时插入其中,缩短了训练和推理的时间。"
SandboxAQ 还直接与Nvidia 的 AI 加速器团队合作优化其 GPU 工作流程。据该公司称,这种合作帮助将 GPU 利用率提升到 95%,并将一个开发周期从估计的三个月缩短到三周。Tal 将 Nvidia 的角色描述为减少计算瓶颈,以便研究人员可以专注于模型开发和科学问题。"作为我们要做的加速计算平台,我们要解决我们可以解决的技术瓶颈,"他说,"这样行业可以继续专注于研究、开发和产品。"
![]()
展望未来
SandboxAQ 对AQAffinity 的未来目标简单而雄心勃勃。"我们想让它更快,我们想让它适用于更广泛的蛋白质,我们想让它更准确。"但 Lewis 提到这不仅仅是简单地关注性能指标,还有对药物发现项目随时间如何演变的更大影响。"这些指标很简单,但不太简单的是它解锁了什么:"他描述了向允许研究人员在项目展开过程中重新审视和修订假设的工作流程的转变。"我们的愿景是不仅使用这些方法进行虚拟筛选,而是实现新型筛选,这样你可以在活动的过程中检查多个潜在的药物目标,因为这允许你开始在一个项目中迭代不同的目标和不同的分子,"他说。"这个想法是将化学迭代和生物迭代合二为一,这就是我们正在进行的所有不同技术流量的灯塔目标。"
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.