网易首页 > 网易号 > 正文 申请入驻

Nature子刊:赵国屏/焦娜/朱瑞新/张国庆合作开发AI模型DeepSeMS,揭示全球海洋微生物组中隐藏的生物合成潜力

0
分享至


撰文丨王聪

编辑丨王多鱼

排版丨水成文

微生物为了生存竞争,进化出了合成各种复杂的次级代谢产物(Secondary Metabolite)的能力,例如青霉菌产生的青霉素,这些次级代谢产物是天然的药物宝库。这些次级代谢产物主要从培养的微生物物种中发现,然而,自然界中 99% 的微生物根本无法在实验室中人工培养。

随着测序技术发展,我们可以轻易读取环境中微生物的 DNA,并从中发现那些负责生产小分子的“生物合成基因簇”(biosynthetic gene cluster,BGC),相当于找到了微生物体内的“化工厂图纸”。但尴尬的局面出现了——传统的预测工具(例如 antiSMASH、PRISM)主要依赖“死记硬背”的预设化学反应规则库。面对海洋等极端环境中那些前所未见的“隐秘 BGC”,由于酶的非典型排列组合和极高的底物容错性,传统工具直接罢工,难以将基因组序列转化为精确的化学结构。

2026 年 4 月 30 日,复旦大学微生物组中心赵国屏/焦娜团队联合同济大学朱瑞新团队和中国科学院上海营养与健康研究所张国庆团队(徐挺军杨雨薇为论文共同第一作者),在Nature Computational Science期刊发表了题为:DeepSeMS: revealing the hidden biosynthetic potential of the global ocean microbiome with a large language model 的研究论文。

该研究提出了一个基于 Transformer 架构的生成式人工智能模型——DeepSeMS,可从微生物生物合成基因簇(biosynthetic gene cluster,BGC)直接预测次级代谢产物结构,实现从微生物生物合成编码到候选分子空间的系统转译。

将 DeepSeMS 应用于全球海洋宏基因组,一次性预测了超过 60000 种次级代谢产物,并揭示了其化学多样性、生态特异性和巨大的生物医学潜力,尤其是作为新型抗生素的潜力。这项研究突显了深度学习驱动方法在揭示地球上最大但尚未充分探索的微生物生态系统中隐藏的生物合成潜力的强大能力。


DeepSeMS:当微生物基因遇上大语言模型

为了攻克这个难题,研究团队决定引入大语言模型(LLM),从而把“结构预测”变成了一个“语言翻译”问题。

这是一个基于 Transformer 架构的大语言模型——DeepSeMS,能够从生物合成基因簇(BGC)序列中准确预测次级代谢产物化学结构(Secondary Metabolite Chemical Structure),其工作原理极其精妙:

1、创造一套跨界的“双语词典”,输入端(生物语言)没有使用冗长复杂的原始基因碱基序列,而是将其浓缩为具有生化功能的“蛋白质结构域”(Pfam 标识符)。这种表示法既保留了关键的催化信息,又极大提升了计算效率。输出端(化学语言):采用 SMILES 字符串(一种用 ASCII 字符表示化学分子结构的国际通用标准)作为输出格式。

2、特征对齐的数据增强,AI 大模型的训练需要海量数据,但目前人类实验验证过的 BGC-代谢产物配对数据非常有限(仅几千条)。为此,研究团队首创了“特征对齐的 SMILES 枚举法”。相比于随机打乱分子式,这种方法在保留核心化学骨架不变的前提下,变换外围基团的表达形式。这不仅让模型学会了化学语法,还牢牢记住了生物合成的底层逻辑。

3、十倍交叉验证集成,在自然界,同一个基因簇往往能通过不同的代谢路径,生产出多种结构迥异的分子。DeepSeMS 采用了集成学习框架,每次预测都会给出多个候选结构,完美契合了生物系统的真实复杂性。


从 BGC 序列预测次级代谢产物化学结构的 DeepSeMS 框架概述

降维打击:“破译”96.38% 的未知基因簇

为了检验这位“跨界翻译官”的真实水平,研究团队拿它和领域内的标杆工具(antiSMASH7 和 PRISM4)进行了一场正面 PK。

第一轮测试:已知结构的 BGC,DeepSeMS 以绝对优势碾压对手:

预测成功率(算出有效化学结构):高达 97.55%(PRISM4为 88.96%,antiSMASH7 仅为 63.50%)。

结构恢复率(算出的结构与真实自然产物完全一致):达到了惊人的 41.10%(PRISM4为 8.90%,antiSMASH7 为 0%)。

即使在极度严苛的条件下(测试数据与训练数据相似度极低),DeepSeMS 依然保持了相当高的准确率,证明了它不是靠“死记硬背”拿高分,而是真正理解了生物合成的规律。

第二轮测试:来自深海的“隐秘 BGC”,面对 940 个完全未知的神秘基因簇,DeepSeMS 大放异彩,成功为其中 906个(96.38%)生成了合理的化学结构。相比之下,antiSMASH7 和 PRISM4 的成功率只有 16.91% 和 46.45%。

更令人惊喜的是,DeepSeMS 甚至能根据基因编码的酶类功能,准确推断出产物的碳骨架和糖基化修饰等微观特征,做到了真正的“懂它所做的,而不仅仅是猜它像谁”。

从海水中打捞出 6 万种潜在新药

海洋覆盖了地球 71% 的面积,是我们这颗星球上最大、也最未被开发的微生物生态系统。拥有了 DeepSeMS 这把“金刚钻”,研究团队立刻将目光投向了全球海洋微生物组数据库

结果堪称史诗级大丰收:通过一次性分析近 2.7 万个宏基因组组装基因组中的 4.5 万多个 BGC,DeepSeMS 预测出了60327种独特的次级代谢产物。

对这些次级代谢产物的深度分析显示:

  • 极高的新颖性:97% 的预测分子与目前已知的天然产物库完全不同;69% 预测分子的核心化学骨架是全新的。

  • 明显的地理分布特征:北冰洋拥有的独特分子最多,而南大洋的分子多样性最高。深海、低氧和特定温度环境孕育了结构更为奇特的分子。

  • 巨大的医药潜力:通过虚拟筛选,研究团队从中锁定了 7554 种含有已知抗生素核心特征(例如 β-内酰胺类、四环素类等结构基序)的候选分子!这些分子拥有不同于现有药物的侧链修饰,极有可能成为对抗多重耐药菌的新型武器。此外,还发现了大量与抗压保护物质(例如 ectoine)相关的全新分子。

从只能依靠运气在培养皿里“碰运气”,到在电脑前用大模型“算答案”,DeepSeMS 的诞生标志着我们在探索天然产物未知领域的道路上迈出了一大步。


将生物多样性转化为化学多样性

此外,研究团队还构建了 DeepSeMS 在线平台,用户可提交 antiSMASH、DeepBGC 等工具生成的 BGC 注释文件,或输入 antiSMASH job ID,获得候选分子结构、预测分数、分子性质、新颖性评估及潜在抗生素相关信息。该平台还整合了全球海洋微生物次级代谢物资源,支持按海域、生态环境和 BGC 类型进行浏览、检索和下载,为后续实验验证和天然产物发现提供资源基础。

总的来说,该研究突显了深度学习驱动方法在揭示地球上最大但尚未充分探索的微生物生态系统中隐藏的生物合成潜力的强大能力,为从生物多样性(Biodiversity)到化学多样性(Chemical diversity)的系统转译提供了一种可执行的新范式。

论文链接

https://www.nature.com/articles/s43588-026-00983-1

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
47岁高圆圆在公园被抓拍,麒麟臂、凉拖鞋,活脱脱一个买菜大姐

47岁高圆圆在公园被抓拍,麒麟臂、凉拖鞋,活脱脱一个买菜大姐

胖松松与瘦二毛
2026-05-06 12:40:53
两大利好!存储、cpu涨疯了,海光信息一度涨停,AI泡沫已经出现?

两大利好!存储、cpu涨疯了,海光信息一度涨停,AI泡沫已经出现?

看财经show
2026-05-06 17:01:06
美国会全票通过芯片封锁法案,成本暴涨,白宫24小时两次致电北京

美国会全票通过芯片封锁法案,成本暴涨,白宫24小时两次致电北京

流史岁月
2026-05-06 14:25:04
许家印骄奢淫逸细节大曝光

许家印骄奢淫逸细节大曝光

资本董事局
2026-05-06 09:34:03
黄宏生称段永平一场球后买创维股票赚了十几亿,段永平:完全不记得跟他打过球

黄宏生称段永平一场球后买创维股票赚了十几亿,段永平:完全不记得跟他打过球

界面新闻
2026-05-06 18:14:12
小学生赴俄庆祝胜利日一文让有的人不安了?

小学生赴俄庆祝胜利日一文让有的人不安了?

名人苟或
2026-05-06 12:51:00
总理座谈会上的两位年轻人,先后交出“万亿答卷”

总理座谈会上的两位年轻人,先后交出“万亿答卷”

智谷趋势
2026-04-27 08:44:07
悲催!陕西女子发帖问丈夫股票估值,大方承认“准备离婚分财产”

悲催!陕西女子发帖问丈夫股票估值,大方承认“准备离婚分财产”

火山詩话
2026-05-06 14:34:56
国际原油期货继续下行 美油大跌10%

国际原油期货继续下行 美油大跌10%

财联社
2026-05-06 18:36:15
中纪委划红线:严查公务员出现这5种行为,触碰将一律严肃处理

中纪委划红线:严查公务员出现这5种行为,触碰将一律严肃处理

细说职场
2026-05-06 14:21:03
深圳警方:对深圳市杰我睿珠宝有限公司、深圳市龙冶金业有限公司张某腾等涉嫌经济犯罪人员采取刑事强制措施

深圳警方:对深圳市杰我睿珠宝有限公司、深圳市龙冶金业有限公司张某腾等涉嫌经济犯罪人员采取刑事强制措施

界面新闻
2026-05-06 17:36:41
王心凌在深圳演出中遇意外:舞台镭射激光设备失控,强光直射王心凌腿部;网友反映激光长时间大面积扫射观众席,致手机相机镜头等设备损坏

王心凌在深圳演出中遇意外:舞台镭射激光设备失控,强光直射王心凌腿部;网友反映激光长时间大面积扫射观众席,致手机相机镜头等设备损坏

洪观新闻
2026-05-06 12:06:56
吴宜泽透露拿到奖金后准备在英国买房,50万英镑奖金需交税超23万镑,实际到手约26.5万镑

吴宜泽透露拿到奖金后准备在英国买房,50万英镑奖金需交税超23万镑,实际到手约26.5万镑

大风新闻
2026-05-06 11:53:02
其实从某个角度来说,李自成才是真正挽救了华夏民族的人

其实从某个角度来说,李自成才是真正挽救了华夏民族的人

掠影后有感
2026-05-06 09:58:38
7个项目停6个?部分城市的“智慧城市”项目为啥“投入即浪费”?

7个项目停6个?部分城市的“智慧城市”项目为啥“投入即浪费”?

澎湃新闻
2026-05-06 12:26:02
辽宁铁人官宣!徐正源签约2年,年薪70万美元,139天后再出发

辽宁铁人官宣!徐正源签约2年,年薪70万美元,139天后再出发

奥拜尔
2026-05-06 16:12:28
注意!超800万膳魔师紧急召回,已致3人永久失明,多人受伤!

注意!超800万膳魔师紧急召回,已致3人永久失明,多人受伤!

华人生活网
2026-05-06 03:52:28
伦敦世乒赛:8强出炉!日本3:0晋级,早田希娜11:0零封世界冠军

伦敦世乒赛:8强出炉!日本3:0晋级,早田希娜11:0零封世界冠军

国乒二三事
2026-05-06 18:17:55
芭提雅海湾8名外国游客不雅行为引争议,当地民众表示强烈不满

芭提雅海湾8名外国游客不雅行为引争议,当地民众表示强烈不满

曼谷陈大叔
2026-05-06 15:05:34
比亚迪取消员工园区免费充电

比亚迪取消员工园区免费充电

鞭牛士
2026-05-06 13:44:04
2026-05-06 20:03:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科学研究
9334文章数 145069关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

中国发布阻断禁令后鲁比奥声称将二次制裁 外交部回应

头条要闻

中国发布阻断禁令后鲁比奥声称将二次制裁 外交部回应

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

财经要闻

最新GDP!全国30强城市,又变了

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

本地
数码
教育
房产
公开课

本地新闻

用青花瓷的方式,打开西溪湿地

数码要闻

消息称三星苏州家电生产继续,传闻此前未能与塞夫就国行销售谈妥

教育要闻

点赞!这些北京学子登上《人民日报》

房产要闻

遥遥领先!这个澄迈顶流红盘,凭什么持续霸榜

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版