Koina：开源平台通过机器学习提升蛋白质组学数据分析效率|算法|koina

Koina：开源平台通过机器学习提升蛋白质组学数据分析效率

2025-11-14 13:34:45　来源: ScienceAI

天津举报

分享至

近几年来，蛋白质组学可谓是进入了「信息爆炸时代」。单次实验可能生成上百GB的高维数据，这给传统分析工具带来了巨大压力。

而机器学习，尤其是深度学习技术，本应成为加速分析的利器。但碍于数据整合、模型应用门槛等问题，机器学习结果往往缺乏直观的物理或生物学解释，所得结果并不能使研究者信服。

但随着德国慕尼黑工业大学（Technical University of Munich）与美国密西根大学（University of Michigan）等推出 Koina 平台，一个开源的、去中心化的、在线可访问的模型库之后，这一现状得到了改善。

相关的研究内容以「Koina: Democratizing machine learning for proteomics research」为题，于 2025 年 11 月 11 日发布在《Nature Communications》。

论文链接：https://www.nature.com/articles/s41467-025-64870-5

去中心化的机器学习平台

Koina是一个去中心化的机器学习模型平台，旨在帮助蛋白质组学研究人员快速应用、评估并共享机器学习模型。平台通过为研究人员提供开放式模型库和简单接口，解决了模型与数据间的兼容问题，极大降低了技术门槛。

图 1：Koina 的架构概述。

Koina 简化了新蛋白质组学机器学习模型的开发现过程，研究人员可以将自己训练的模型上传到平台，供全球学者访问、评估与使用。并且，该平台提供简单的 API 接口，帮助分析工具轻松集成机器学习模型。

图 2：Koina 可以轻松集成到第三方软件中。

此外，平台可以根据输入数据类型和任务目标，自动推荐最合适的机器学习模型，甚至提供简单的模型训练和调优功能。团队实现了一种启发式算法，这可以根据模型在数据子集的预测值与实验值之间的协议来选择模型。

优化的分析流程

为了应对不同模型支持的翻译后修饰（PTMs）和肽长度方面的差异等加剧的繁琐问题，团队标准化了所有模型之间的交互与输入格式。而输出部分，则予以保留，以便用户能够将他们的预测与原始来源进行核对。

这个共享接口封装了技术异构的模型集合及其相关的预处理和后处理步骤，以独立计算单元的形式，为最终用户抽象了不必要的细节，以「工作流」或「执行图」的形式呈现。

图 3：Prosit_2019_intensity和Prosit_2020_intensity_HCD模型的执行图。

后续的长期使用保持则采用 GitHub actions 的持续集成（CI）流程来支持。此外，Koina 支持同时托管不同版本的模型，这些设计选择促进了已发布模型的可重复性，促进了透明度和问责制，使其他研究人员能够更有信心地基于现有工作进行研究。

Koina 利用机器学习模型对已有数据进行训练，从而发现潜在的、复杂的肽段信息。在与 FragPipe 的结合使用中，它就提高了谱库的准确率与覆盖率。通过对比不同肽段的相似度，Koina 能自动纠正传统方法中的误识别。经过训练，它还能识别更多的低丰度肽段，平台实现了对肽段的高效检索，特别是在复杂的样本中。

让AI为生物学加速

Koina 的出现，意味着 AI 与生物学之间不再是「遥远的未来」，而是已经可以触及的现实。在这个平台的推动下，生物数据分析不再局限于传统实验，而是进入了一个可以迅速探索、验证、创新的新时代。

Koina 的方法完全独立于数据集的生物学或技术来源。该平台并非本质上局限于蛋白质组学，它可以轻松扩展到其他领域。通过邀请开发者参与 Koina，研究团队旨在营造一个协作环境，推动蛋白质组学机器学习的进步，最终惠及整个科学界。

声明：包含AI生成内容

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.