网易首页 > 网易号 > 正文 申请入驻

AAAI 2026 | 突破模态壁垒:基于生成模型的质谱分子精准检索

0
分享至

这篇 AAAI 2026 论文提出 GLMR,一种面向 MS/MS 质谱分子检索的两阶段生成式框架。它先通过跨模态对比学习完成预检索,筛出候选分子,再结合谱图上下文与候选先验生成目标分子并重排序,从而将“跨模态检索”转化为“生成式单模态优化”问题。实验表明,GLMR 在多个基准上显著优于现有方法,Recall@1 提升超 40%,在零样本电离条件下仍具强泛化性,为代谢组学与药物发现中的化合物鉴定提供了更精准的新路径。


论文标题: Breaking the Modality Barrier: Generative Modeling for Accurate Molecule Retrieval from Mass Spectra 论文链接: https://arxiv.org/pdf/2511.06259

一、引言

串联质谱(Tandem Mass Spectrometry, MS/MS)作为现代分析化学的核心技术,在代谢组学、天然产物发现、环境检测、药物研发等领域发挥着不可替代的作用。其基本原理是通过电离将分子碎裂成特征性离子片段,形成独特的"分子指纹"——质谱图。研究人员通过比对实验谱图与已知化合物的参考谱图,实现未知化合物的快速鉴定。

然而,从MS/MS谱图准确推断分子结构仍面临三大核心挑战:

  • 谱图-结构映射的非唯一性:不同分子可能因相似碎裂路径产生高度相似的谱图("同谱异构"现象);

  • 实验条件的敏感性:同一分子在不同仪器参数、碰撞能量、电离方式下可能产生显著差异的谱图;

  • 数据噪声与缺失:实际采集的谱图常包含背景噪声、低强度峰丢失、同位素干扰等问题。

传统谱库匹配方法(如NIST、MassBank)依赖高质量参考谱图,但已知化合物仅覆盖化学空间的一小部分。近年来,跨模态表示学习方法尝试将质谱与分子结构映射到统一语义空间,但仍面临模态不对齐的根本挑战:质谱描述的是物理碎裂行为(连续信号),而分子结构表达的是化学键合关系(离散图结构),两者在表征形式与语义粒度上存在本质差异。

为此,本文提出GLMR(Generative Language Model-based Retrieval),一个新颖的两阶段生成式检索框架。其核心洞见是:与其强行对齐两种异构模态,不如利用生成模型将跨模态检索转化为单模态检索。GLMR首先通过对比学习检索出一组候选分子作为"语义先验",再在生成模型中融合质谱上下文与候选先验,自回归生成优化后的目标分子,最终实现精准检索。

核心贡献:

  1. 提出生成式检索新范式,有效缓解质谱-分子跨模态不对齐问题;

  2. 设计跨模态融合模块,实现谱图信号与分子先验的上下文感知交互;

  3. 构建更具挑战性的MassRET-20k数据集,支持多电离加合物与零样本迁移评估;

  4. 在多个基准上实现SOTA,Recall@1提升超40%,验证方法的有效性与泛化性。

二、方法

GLMR整体框架如图1所示(建议在fig文件夹放置framework.png),包含预检索与生成检索两个协同阶段。

图1:GLMR两阶段生成式检索框架 2.1 预检索阶段:跨模态表示对齐

该阶段目标是通过对比学习,将质谱与分子映射到共享语义空间,快速筛选出Top-K候选分子,为生成阶段提供高质量先验。

分子编码器:采用ChemFormer(基于BART架构的分子预训练模型),将SMILES序列 编码为固定维度的表示:


其中 为可学习参数, 为嵌入维度(默认256)。

谱图编码器:将质谱表示为 元组序列,经线性投影后输入Transformer编码器:


为增强模型对峰强度分布的感知,作者引入强度感知位置编码,替代传统正弦位置编码。

对比学习目标:采用对称InfoNCE损失,鼓励同一分子的谱图-分子对嵌入相似,不同分子对嵌入相异:


训练完成后,对于查询谱图 ,通过余弦相似度检索候选分子集 。

2.2 生成检索阶段:上下文感知的分子生成

该阶段利用生成语言模型,在输入质谱与候选先验的共同指导下,自回归生成优化后的目标分子。

跨模态融合模块: 设计交叉注意力机制,以谱图表示 为Query,候选分子表示 为Key/Value,实现谱图驱动的分子先验筛选与融合:


其中 。融合后的表示 同时编码了谱图特征与候选分子的化学先验。

生成解码器:采用Transformer Decoder架构,以 为上下文,自回归生成目标分子的SMILES序列:


训练目标为最小化负对数似然:


重排序策略:将生成的分子 与候选集 计算余弦相似度,按加权分数重新排序:


2.3 训练策略与实现细节

  • 两阶段训练:先独立训练预检索模块,冻结其参数后再训练生成模块,避免梯度冲突;

  • 数据增强:对谱图随机丢弃低强度峰、添加高斯噪声,提升模型鲁棒性;

  • 推理优化:采用束搜索(beam search, beam=5)平衡生成质量与效率。

三、实验3.1 实验设置

数据集

  • MassSpecGym:大规模基准,含230k+质谱-分子对,覆盖多种仪器类型与碰撞能量;

  • MassRET-20k(本文构建):20k高质量条目,包含12种电离加合物([M+H]⁺、[M+Na]⁺、[M-H]⁻等),所有谱图均标注归一化碰撞能量(NCE),支持更细粒度的条件检索与零样本迁移评估。

评估指标:Recall@K(K=1,5,10,50)、Mean Reciprocal Rank (MRR)、Maximum Common Edge Subgraph(MCES)。

实现细节:PyTorch框架,AdamW优化器,初始学习率1e-4,batch size=128,在4×A100 GPU上训练约24小时。

3.2 主实验结果

GLMR在各项指标上均显著优于基线,Recall@1相比最优基线JESTR提升46.2%,验证了生成式检索范式的有效性。

在未见过的电离加合物类型上测试,GLMR仍保持Recall@1=58.32%,显著高于其他方法(平均提升35%+),展现出强大的跨条件泛化能力。

3.3 模态对齐分析

为量化模态鸿沟的缓解程度,作者定义模态差距(Modality Gap)指标:


实验发现:

  • 预检索阶段后,Gap从0.87降至0.43;

  • 生成检索阶段后,Gap进一步降至0.19;

这直观验证了GLMR"渐进式对齐"的设计思想。

3.4 消融实验与超参分析

组件消融

  • 移除预检索:Recall@1下降18.7%,说明候选先验对生成质量至关重要;

  • 移除重排序:MRR下降9.1%,表明生成结果需与候选集协同优化。

候选数K的影响:当K从10增至40时,Recall@1持续提升;K>40后增益饱和,故选择K=40作为默认值,在精度与效率间取得平衡。

四、结论

本文提出GLMR,一个基于生成语言模型的质谱分子检索框架。通过"预检索提供先验、生成模型融合上下文、重排序优化结果"的三阶段设计,有效突破了质谱与分子结构之间的模态壁垒。在MassSpecGym与MassRET-20k数据集上的大量实验表明,GLMR在检索精度、泛化能力、鲁棒性方面均显著优于现有方法,为代谢组学、天然产物发现等领域的化合物鉴定提供了新工具。

Illustration generated by AI.

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

添加工作人员微信(aceyiming投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗政坛大地震:革命卫队总司令强硬夺权……

伊朗政坛大地震:革命卫队总司令强硬夺权……

深度报
2026-04-21 21:19:56
任泽平退款731万,恒大高管们开始退钱了

任泽平退款731万,恒大高管们开始退钱了

互联网大观
2026-04-22 13:44:17
Shams:文班亚马确诊为脑震荡,将于明日接受后续检查

Shams:文班亚马确诊为脑震荡,将于明日接受后续检查

懂球帝
2026-04-22 10:58:07
段睿悲痛万分,深夜发布讣告:他走了,再也没有人等我回去了!

段睿悲痛万分,深夜发布讣告:他走了,再也没有人等我回去了!

小怪吃美食
2026-04-22 12:09:07
情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

新欧洲
2026-04-21 19:37:05
吃人的环境,养不出卓越的人

吃人的环境,养不出卓越的人

经济学教授V
2026-04-17 18:20:43
马克西29+4+9探花郎狂砍30分,乔治全能锁住塔图姆,76人掀翻绿军

马克西29+4+9探花郎狂砍30分,乔治全能锁住塔图姆,76人掀翻绿军

钉钉陌上花开
2026-04-22 09:30:14
段睿悲痛万分,深夜发布讣告:他走了,再也没有人等我回去了!

段睿悲痛万分,深夜发布讣告:他走了,再也没有人等我回去了!

阿凫爱吐槽
2026-04-22 10:20:09
再出名有啥用?51岁老来得女的刘德华,如今还是为女儿操碎了心

再出名有啥用?51岁老来得女的刘德华,如今还是为女儿操碎了心

荒野老五
2026-04-22 03:39:25
特朗普再次临阵退缩,伊朗晒导弹:随时准备开火

特朗普再次临阵退缩,伊朗晒导弹:随时准备开火

新民晚报
2026-04-22 13:40:28
起风了!大陆接到台湾消息,解放军刚按住日本,又有6国调兵遣将

起风了!大陆接到台湾消息,解放军刚按住日本,又有6国调兵遣将

书纪文谭
2026-04-21 23:03:59
G2湖人101-94战胜火箭 球员评价:4人优秀,3人及格,2人低迷

G2湖人101-94战胜火箭 球员评价:4人优秀,3人及格,2人低迷

篮球资讯达人
2026-04-22 13:27:16
马刺官宣:文班亚马脸部重摔地板 触发脑震荡保护协议提前退赛

马刺官宣:文班亚马脸部重摔地板 触发脑震荡保护协议提前退赛

醉卧浮生
2026-04-22 09:17:19
盘点日本十大混血女优,你更喜欢哪位

盘点日本十大混血女优,你更喜欢哪位

吃瓜党二号头目
2026-04-22 09:06:23
5月1日起正式严打!8类灰色行为直接入刑,所有人务必警惕

5月1日起正式严打!8类灰色行为直接入刑,所有人务必警惕

另子维爱读史
2026-04-22 07:39:03
性瘾?我要怎么办?

性瘾?我要怎么办?

性学研究僧
2026-04-21 22:48:53
美军扣船不到48小时,中美在安理会大吵一架,孙磊对各国作出表率

美军扣船不到48小时,中美在安理会大吵一架,孙磊对各国作出表率

基斯默默
2026-04-22 10:19:14
21岁小伙卖猪肉帮助抚养6个弟妹:羡慕同龄人上大学或出去打工,希望爸妈别再生了

21岁小伙卖猪肉帮助抚养6个弟妹:羡慕同龄人上大学或出去打工,希望爸妈别再生了

极目新闻
2026-04-21 22:03:17
日媒、外交部欧洲司发声!如今的樊振东,完全证实刘国梁当初的话

日媒、外交部欧洲司发声!如今的樊振东,完全证实刘国梁当初的话

阿纂看事
2026-04-21 18:17:13
格力回应铝线电机争议:相关工程机已停产,海信称靠多三两铜多500元时代已终结

格力回应铝线电机争议:相关工程机已停产,海信称靠多三两铜多500元时代已终结

红星资本局
2026-04-21 20:40:16
2026-04-22 15:27:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2352文章数 596关注度
往期回顾 全部

科技要闻

对话梅涛:没有视频底座,具身智能走不远

头条要闻

媒体:特朗普关上了谈判的大门 双方就只剩下一个选项

头条要闻

媒体:特朗普关上了谈判的大门 双方就只剩下一个选项

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

复婚无望!baby黄晓明陪小海绵零交流

财经要闻

伊朗拒绝出席 特朗普宣布延长停火期限

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

家居
教育
旅游
本地
数码

家居要闻

极简绘梦 克制和谐

教育要闻

“难怪穷女孩嫁不到真少爷”,高铁小少爷事件,撕碎普通家长幻想

旅游要闻

2026四川光雾山杜鹃花赏花季文旅消费促进活动启幕

本地新闻

春色满城关不住|白鹃梅浪漫盛放,吴山藏了一片四月雪

数码要闻

官宣!追觅硅谷发布会定档,4月27日-30日登陆北美

无障碍浏览 进入关怀版