
近日,华中科技大学生命科学与技术学院宁康教授团队在Advanced Science在线发表了题为MGM as a large-scale pretrained foundation model for microbiome analyses in diverse contexts的研究论文。该研究发布了首个面向微生物组分析的大规模预训练基础模型——MGM(Microbial General Model)。MGM 基于 Transformer 架构,在超过 26 万份多样化微生物组样本上进行自监督预训练,不仅在分类任务上全面超越传统方法,更展现出强大的跨区域泛化能力、时序动态捕捉能力,以及能够通过“图灵测试”的微生物群落生成能力。
![]()
01 研究背景:微生物组数据的“巴别塔”
微生物群落广泛存在于人体、环境和工程系统中,对健康和生态至关重要。随着测序技术的普及,海量的微生物组数据被积累(如 MGnify 数据库)。然而,数据异质性(Data Heterogeneity)和批次效应(Batch Effects)成为了横亘在研究者面前的大山。
传统的监督学习方法往往难以捕捉跨研究、跨环境的通用模式;而现有的生物学大模型(如针对单细胞数据的 scBERT)由于词表和特征的根本差异,无法直接迁移到微生物组领域。
为了解决这一难题,宁康团队提出了MG M 一个专为微生物组设计的、具备上下文感知能力的通用人工智能模型。
02 核心创新:MGM 模型架构
MGM 采用了类似 GPT 的因果语言建模(Causal Language Modeling)策略。研究团队构建了包含 263,302 个样本的 Microcorpus-260K 数据集,涵盖宿主相关、环境、工程等多种生境。
独特的编码策略:为了解决微生物丰度数据的极值和标准化问题,MGM 创新性地采用了排序值编码(Rank Value Encoding),将微生物群落转化为离散的 Token 序列,既保留了相对丰度信息,又规避了绝对数值带来的噪音。
Transformer 架构:通过自注意力机制(Self-Attention),MGM 能够捕捉微生物群落中复杂的共现模式和生态互作网络。
迁移学习:预训练后的 MGM 可以通过简单的微调(Fine-tuning),迅速适配到各种下游任务中。
![]()
图1:MGM模型架构与迁移学习策略
03 性能突破:全面超越现有SOTA
在多项基准测试中,MGM 展现出了压倒性的优势:
1. 微生物群落分类:准确率近乎完美: 在基于 MGnify 数据的微生物溯源任务中,MGM 的平均 ROC-AUC 达到 0.99 ,显著优于随机森林(RF)、EXPERT、DeepPhylo 以及经典的 FEAST 方法。即便在未微调的情况下,MGM 的零样本表现也令人印象深刻。
2.跨区域疾病诊断:克服地理偏差 在炎症性肠病(IBD)的跨国诊断(爱尔兰与加拿大队列)中,MGM 展现了极强的泛化能力。在零样本(Zero-shot)跨区域测试中,MGM 的表现甚至超过了其他经过迁移学习微调的模型,证明其有效捕获了疾病相关的通用微生物特征,而非特定地区的噪音。
3.捕捉时序动态:揭示婴儿肠道发育轨迹 在婴儿肠道发育的纵向队列研究中,MGM 成功区分了顺产与剖宫产婴儿的微生物群落演替轨迹。通过注意力权重分析,MGM 精准识别了关键物种(Keystone Taxa):
顺产: Bacteroides (拟杆菌属)和 Bifidobacterium (双歧杆菌属)权重显著较高;
剖宫产: Haemophilus (嗜血杆菌属)表现出持续的高权重。
4.泛癌种诊断与生物标志物发现:在包含 5 种胃肠道肿瘤的 TCMA 数据集上,MGM 实现了0.97 的宏平均 ROC-AUC。通过计算机模拟(In silico)的扰动实验,模型准确识别了 与已有工作相一致的 致癌相关菌属。
04 生成式AI:微生物组的“图灵测试”
MGM不仅能“理解”微生物,还能“创造”微生物。研究团队开发了提示词引导(Prompt-guided)的生成 流程 ,能够根据疾病标签生成逼真的微生物群落概况。
为了验证生成数据的质量,团队设计了“微生物组图灵测试(Microbiome Turing Test)”,从统计保真度和生物学意义两个维度进行评估。结果显示,MGM 生成的数据在 Beta 多样性、物种共现网络等指标上与真实数据高度一致,且能够欺骗分类器,表现显著优于 GAN 等生成模型。
05 总结与展望
MGM的提出标志着微生物组研究进入了“ DeepSeek ” 时代 。它不仅是一个高精度的分类器,更是一个集成了表示学习、迁移学习、扰动分析和数据合成的统一框架。这一工作为解决微生物组数据整合难题提供了新思路,在疾病无创诊断、环境监测、合成生物学以及个性化医疗等领域具有广阔的应用前景。
华中科技大学宁康教授为通讯作者,华中科技大学博士生 张皓鸿 、博士生 张玉丽 、以及硕士生 康子鑫 为论文共同第一作者。华中科技大学生命科学与技术学院为第一完成单位。
论文链接:https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202513333
代码开源:https://github.com/HUST-NingKang-Lab/MGM
制版人: 十一
学术合作组织
(*排名不分先后)
![]()
战略合作伙伴
(*排名不分先后)
![]()
![]()
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
转载须知
【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。
BioArt
Med
Plants
人才招聘
近期直播推荐

点击主页推荐活动
关注更多最新活动!
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.