![]()
撰文丨王聪
编辑丨王多鱼
排版丨水成文
微生物为了生存竞争,进化出了合成各种复杂的次级代谢产物(Secondary Metabolite)的能力,例如青霉菌产生的青霉素,这些次级代谢产物是天然的药物宝库。这些次级代谢产物主要从培养的微生物物种中发现,然而,自然界中 99% 的微生物根本无法在实验室中人工培养。
随着测序技术发展,我们可以轻易读取环境中微生物的 DNA,并从中发现那些负责生产小分子的“生物合成基因簇”(biosynthetic gene cluster,BGC),相当于找到了微生物体内的“化工厂图纸”。但尴尬的局面出现了——传统的预测工具(例如 antiSMASH、PRISM)主要依赖“死记硬背”的预设化学反应规则库。面对海洋等极端环境中那些前所未见的“隐秘 BGC”,由于酶的非典型排列组合和极高的底物容错性,传统工具直接罢工,难以将基因组序列转化为精确的化学结构。
2026 年 4 月 30 日,复旦大学微生物组中心赵国屏/焦娜团队联合同济大学朱瑞新团队和中国科学院上海营养与健康研究所张国庆团队(徐挺军、杨雨薇为论文共同第一作者),在Nature Computational Science期刊发表了题为:DeepSeMS: revealing the hidden biosynthetic potential of the global ocean microbiome with a large language model 的研究论文。
该研究提出了一个基于 Transformer 架构的生成式人工智能模型——DeepSeMS,可从微生物生物合成基因簇(biosynthetic gene cluster,BGC)直接预测次级代谢产物结构,实现从微生物生物合成编码到候选分子空间的系统转译。
将 DeepSeMS 应用于全球海洋宏基因组,一次性预测了超过 60000 种次级代谢产物,并揭示了其化学多样性、生态特异性和巨大的生物医学潜力,尤其是作为新型抗生素的潜力。这项研究突显了深度学习驱动方法在揭示地球上最大但尚未充分探索的微生物生态系统中隐藏的生物合成潜力的强大能力。
![]()
DeepSeMS:当微生物基因遇上大语言模型
为了攻克这个难题,研究团队决定引入大语言模型(LLM),从而把“结构预测”变成了一个“语言翻译”问题。
这是一个基于 Transformer 架构的大语言模型——DeepSeMS,能够从生物合成基因簇(BGC)序列中准确预测次级代谢产物化学结构(Secondary Metabolite Chemical Structure),其工作原理极其精妙:
1、创造一套跨界的“双语词典”,输入端(生物语言)没有使用冗长复杂的原始基因碱基序列,而是将其浓缩为具有生化功能的“蛋白质结构域”(Pfam 标识符)。这种表示法既保留了关键的催化信息,又极大提升了计算效率。输出端(化学语言):采用 SMILES 字符串(一种用 ASCII 字符表示化学分子结构的国际通用标准)作为输出格式。
2、特征对齐的数据增强,AI 大模型的训练需要海量数据,但目前人类实验验证过的 BGC-代谢产物配对数据非常有限(仅几千条)。为此,研究团队首创了“特征对齐的 SMILES 枚举法”。相比于随机打乱分子式,这种方法在保留核心化学骨架不变的前提下,变换外围基团的表达形式。这不仅让模型学会了化学语法,还牢牢记住了生物合成的底层逻辑。
3、十倍交叉验证集成,在自然界,同一个基因簇往往能通过不同的代谢路径,生产出多种结构迥异的分子。DeepSeMS 采用了集成学习框架,每次预测都会给出多个候选结构,完美契合了生物系统的真实复杂性。
![]()
从 BGC 序列预测次级代谢产物化学结构的 DeepSeMS 框架概述
降维打击:“破译”96.38% 的未知基因簇
为了检验这位“跨界翻译官”的真实水平,研究团队拿它和领域内的标杆工具(antiSMASH7 和 PRISM4)进行了一场正面 PK。
第一轮测试:已知结构的 BGC,DeepSeMS 以绝对优势碾压对手:
预测成功率(算出有效化学结构):高达 97.55%(PRISM4为 88.96%,antiSMASH7 仅为 63.50%)。
结构恢复率(算出的结构与真实自然产物完全一致):达到了惊人的 41.10%(PRISM4为 8.90%,antiSMASH7 为 0%)。
即使在极度严苛的条件下(测试数据与训练数据相似度极低),DeepSeMS 依然保持了相当高的准确率,证明了它不是靠“死记硬背”拿高分,而是真正理解了生物合成的规律。
第二轮测试:来自深海的“隐秘 BGC”,面对 940 个完全未知的神秘基因簇,DeepSeMS 大放异彩,成功为其中 906个(96.38%)生成了合理的化学结构。相比之下,antiSMASH7 和 PRISM4 的成功率只有 16.91% 和 46.45%。
更令人惊喜的是,DeepSeMS 甚至能根据基因编码的酶类功能,准确推断出产物的碳骨架和糖基化修饰等微观特征,做到了真正的“懂它所做的,而不仅仅是猜它像谁”。
从海水中打捞出 6 万种潜在新药
海洋覆盖了地球 71% 的面积,是我们这颗星球上最大、也最未被开发的微生物生态系统。拥有了 DeepSeMS 这把“金刚钻”,研究团队立刻将目光投向了全球海洋微生物组数据库。
结果堪称史诗级大丰收:通过一次性分析近 2.7 万个宏基因组组装基因组中的 4.5 万多个 BGC,DeepSeMS 预测出了60327种独特的次级代谢产物。
对这些次级代谢产物的深度分析显示:
极高的新颖性:97% 的预测分子与目前已知的天然产物库完全不同;69% 预测分子的核心化学骨架是全新的。
明显的地理分布特征:北冰洋拥有的独特分子最多,而南大洋的分子多样性最高。深海、低氧和特定温度环境孕育了结构更为奇特的分子。
巨大的医药潜力:通过虚拟筛选,研究团队从中锁定了 7554 种含有已知抗生素核心特征(例如 β-内酰胺类、四环素类等结构基序)的候选分子!这些分子拥有不同于现有药物的侧链修饰,极有可能成为对抗多重耐药菌的新型武器。此外,还发现了大量与抗压保护物质(例如 ectoine)相关的全新分子。
从只能依靠运气在培养皿里“碰运气”,到在电脑前用大模型“算答案”,DeepSeMS 的诞生标志着我们在探索天然产物未知领域的道路上迈出了一大步。
![]()
将生物多样性转化为化学多样性
此外,研究团队还构建了 DeepSeMS 在线平台,用户可提交 antiSMASH、DeepBGC 等工具生成的 BGC 注释文件,或输入 antiSMASH job ID,获得候选分子结构、预测分数、分子性质、新颖性评估及潜在抗生素相关信息。该平台还整合了全球海洋微生物次级代谢物资源,支持按海域、生态环境和 BGC 类型进行浏览、检索和下载,为后续实验验证和天然产物发现提供资源基础。
总的来说,该研究突显了深度学习驱动方法在揭示地球上最大但尚未充分探索的微生物生态系统中隐藏的生物合成潜力的强大能力,为从生物多样性(Biodiversity)到化学多样性(Chemical diversity)的系统转译提供了一种可执行的新范式。
论文链接:
https://www.nature.com/articles/s43588-026-00983-1
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.