网易首页 > 网易号 > 正文 申请入驻

NOSE:让AI学会闻,首个统一分子-受体-语义的三模态嗅觉表征框架

0
分享至



作者 | 论文团队

编辑丨ScienceAI

视觉有像素,听觉有频谱,这些物理量与感知之间存在稳定的映射。但嗅觉截然不同,同一个分子可能激活不同的受体组合,同一种气味在不同人的嘴里可以是「花香」也可以是「肥皂味」。如何让 AI 理解「分子闻起来是什么味道」,一直是 AI for Science 领域一个独特而前沿的挑战。

近日,厦门大学程俊教授团队与深势科技合作,提出了 NOSE(Neural Olfactory-Semantic Embedding)框架。该工作首次将分子结构、嗅觉受体序列和自然语言描述三种模态统一到一个连续的表征空间中,在覆盖三个感知层次的 11 个下游任务上达到 SOTA,并展现出优异的零样本泛化能力。研究成果已被自然语言处理顶级会议 ACL 2026 主会录用。



论文链接:https://arxiv.org/abs/2604.10452v1

代码链接:https://github.com/Xianyusyy/NOSE

为什么嗅觉数字化这么难?

嗅觉感知始于气味分子的挥发扩散,与鼻腔中嗅觉受体的结合,经过神经信号传导,最终在大脑中形成主观知觉。这条通路天然涉及三种截然不同的信息,包括分子的三维化学结构、嗅觉受体蛋白的序列特征,以及人类用自然语言给出的感知描述(如「花香」「薄荷味」「奶油感」)。

然而,现有方法从未在统一框架中建模这条完整通路。它们要么仅从分子结构出发预测气味,要么只学习「分子 - 描述」或「分子 - 受体」的局部对应关系。更根本的问题在于,主流方法将气味预测视为分类问题,即预测分子属于「花香」还是「果香」。这种离散化处理不仅破坏了气味空间的连续性(「薄荷」和「清凉」本应相邻,分类框架下却是两个独立标签),还迫使模型丢弃那些对分类「无用」但对分子表征至关重要的结构信息,导致泛化能力受限。

正交注入与连续语义流形



NOSE 的关键洞察在于,虽然「分子 - 受体 - 描述」三元组数据几乎不存在,但「分子 - 受体」和「分子 - 描述」双模态数据可以分别获取。分子是两类数据的唯一交集,因此可以作为中枢,将受体信息和语义信息桥接到统一的表征空间。

但如果将受体特征和语义特征同时注入分子表征,三种模态会不会相互干扰、彼此覆盖?NOSE 给出的解法是正交注入机制。框架采用「硬正交 + 软正交」双重策略,利用 Gram-Schmidt 正交化,将受体和描述的适配器输出投影到分子表征的正交补空间,在几何层面保证注入的信息与分子结构线性无关;同时引入软正交损失,在梯度层面驱动受体分支和描述分支的特征子空间保持互不相关。这样,受体信息和语义信息以相互独立的增量叠加在分子表征之上,既不丢失分子结构先验,又实现了隐式的三模态对齐。

在编码器选择上,NOSE 采用 Uni-Mol 捕捉分子三维构象、ESM-2 提取受体序列特征、LoRA 微调的 Qwen3 Embedding 处理气味描述文本,三大预训练模型各司其职。

在语义端,NOSE 利用大语言模型 DeepSeek 挖掘 1,086 个气味描述词之间的语义近邻关系(如「柠檬」与「柑橘」、「甜」与「蜂蜜」),将这些语义近邻标记为「弱正样本」并赋予中间权重。这一策略将离散的标签空间转化为连续的语义流形,有效缓解了对比学习中将语义相近的描述错误推远的「假阴性」问题。经过训练后,原本在通用文本模型中高度重叠的气味词在 PCA 可视化中形成了边界清晰的语义簇,证明模型成功构建了结构化的气味语义空间。



全面 SOTA 与零样本泛化

研究团队整合了 6 个公开数据集,构建了覆盖三个认知层次的评估基准,涵盖基础感知(检测阈值、强度、愉悦度)、语义描述(138 类多标签分类和多维度回归)、以及混合物感知(二元混合物的强度与愉悦度预测)。在全部 11 个任务的关键指标上,NOSE 均取得最优表现。







零样本检索

为验证泛化能力,研究团队从 PubChem 构建了专用测试集。与标准零样本设置(分子存在于数据集中但分子 - 描述词配对未见过)不同,严格零样本要求分子完全不存在于训练集中。团队使用分子检索气味描述词,采用百分位排名进行评估(数值越低表示精度越高)。除 PubChem 描述词外,同义术语的排名也被纳入评估。例如对于无味分子,模型将「odorless」排在 Top 1(0.092%),并优先排列 slight、weak、neutral 等术语,表明模型真正理解了分子的感知属性,而非简单地与高频词对齐。



在受体检索方面,团队从文献中选取具有明确「激活」或「非激活」关系报告的分子 - 受体配对作为测试集。模型在已报道的「激活」配对上表现优异,绝大多数排名位于前 2% 以内,涵盖大环麝香(MCM)及其他化学家族,显示出良好的跨家族泛化能力。同时,所有「非激活」样本的排名显著靠后,主要分布在 30% 至 80% 区间。这种激活与非激活样本间的排名分离表明,模型构建的潜在空间有效区分了正负样本对,具备可靠的生物筛选价值。



意义与展望

NOSE 首次为嗅觉通路上的三种模态搭建了统一的表征空间,使分子结构、受体蛋白和人类感知之间的关联能够在一个连续、可检索、可运算的特征流形中被建模。其核心思想,即通过对比学习统一多模态信息以构建连续且结构化的领域分子表征,不局限于气味分子场景,同样有望推广至电解液溶剂、电镀添加剂等电化学领域,为 AI 驱动的分子设计提供新的表征范式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
仰望U9X售价1300万,全球已售罄:金属3D打印,重新定义超跑制造

仰望U9X售价1300万,全球已售罄:金属3D打印,重新定义超跑制造

南极熊3D打印网
2026-04-30 12:22:03
湖人G5输球雷迪克要负全责!摒弃最擅长的打法,保守死板葬送好局

湖人G5输球雷迪克要负全责!摒弃最擅长的打法,保守死板葬送好局

夜白侃球
2026-04-30 16:33:41
“起落架刚离地就传来巨响!”澳航客机突发引擎故障,181人死里逃生全靠机组神操作

“起落架刚离地就传来巨响!”澳航客机突发引擎故障,181人死里逃生全靠机组神操作

澳洲红领巾
2026-04-30 15:31:19
23分钟,28辆坦克:技术代差导致单向猎杀

23分钟,28辆坦克:技术代差导致单向猎杀

今晚听历史
2026-04-28 12:08:30
火箭与湖人G6前瞻 雷迪克如何应对乌度卡调整 乌度卡会有什么奇招

火箭与湖人G6前瞻 雷迪克如何应对乌度卡调整 乌度卡会有什么奇招

大话火箭队
2026-04-30 17:03:40
章泽天北京演讲,无袖套装亮相,气场全开

章泽天北京演讲,无袖套装亮相,气场全开

李东阳朋友圈
2026-04-29 17:59:01
赵心童输球却“因祸得福”,墨菲赛后暖心回应,球迷认清三个事实

赵心童输球却“因祸得福”,墨菲赛后暖心回应,球迷认清三个事实

林轻吟
2026-04-30 16:59:27
最新:乌克兰跨境80公里攻入俄罗斯领土!打掉别尔哥罗德据点

最新:乌克兰跨境80公里攻入俄罗斯领土!打掉别尔哥罗德据点

项鹏飞
2026-04-28 20:07:56
张曼玉飞北京贴地朴实如平民素颜容貌靓得真实自然一部位成焦点

张曼玉飞北京贴地朴实如平民素颜容貌靓得真实自然一部位成焦点

通辽火车站
2026-04-30 14:57:17
尴尬!网传天津无血缘继姐弟互生情愫,重组家庭父母陷入道德焦虑

尴尬!网传天津无血缘继姐弟互生情愫,重组家庭父母陷入道德焦虑

火山詩话
2026-04-28 07:41:36
工龄27年,个人账户460220.94元,广州退休养老金出乎意料!

工龄27年,个人账户460220.94元,广州退休养老金出乎意料!

三农老历
2026-04-30 15:09:36
79年我和姐姐去姑姑家借米,姑姑含泪给我20斤,回家打开全家愣住

79年我和姐姐去姑姑家借米,姑姑含泪给我20斤,回家打开全家愣住

白云故事
2025-04-09 04:20:03
前乌军被俘士兵与俄军并肩作战快两年,为解放乌克兰而战

前乌军被俘士兵与俄军并肩作战快两年,为解放乌克兰而战

残梦重生来
2026-04-30 18:02:02
他是上海原市委书记,执掌上海十余年,96岁捐毕生积蓄,一生清廉

他是上海原市委书记,执掌上海十余年,96岁捐毕生积蓄,一生清廉

阿天爱旅行
2026-04-30 02:34:59
斯诺克世锦赛赛程!希金斯vs墨菲20点开打,吴宜泽vs艾伦2点进行

斯诺克世锦赛赛程!希金斯vs墨菲20点开打,吴宜泽vs艾伦2点进行

林子说事
2026-04-30 16:54:52
“妖股”直击:铜冠铜箔一季度净利大增2138.17%,国产HVLP铜箔卡位AI算力锂电双赛道

“妖股”直击:铜冠铜箔一季度净利大增2138.17%,国产HVLP铜箔卡位AI算力锂电双赛道

金融界
2026-04-30 16:11:22
从战前的两千架到700万架,乌克兰的无人机产量为何能暴增?

从战前的两千架到700万架,乌克兰的无人机产量为何能暴增?

高博新视野
2026-04-29 07:30:22
3+1!中国男篮,爽了!未来第一攻击型后卫

3+1!中国男篮,爽了!未来第一攻击型后卫

篮球实战宝典
2026-04-29 22:27:31
杨洋王楚然分手的真相!

杨洋王楚然分手的真相!

八卦疯叔
2026-04-29 11:27:15
甲午海战百年惨败的真相?课本不会告诉你的深层次的原因?

甲午海战百年惨败的真相?课本不会告诉你的深层次的原因?

星星没有你亮
2026-04-28 16:30:42
2026-04-30 19:24:49
ScienceAI incentive-icons
ScienceAI
关注人工智能与其他前沿技术
1292文章数 227关注度
往期回顾 全部

科技要闻

9000亿美元估值,Anthropic即将反超OpenAI

头条要闻

伊朗最高领袖"最详细伤情":面部烧伤严重 可能要整形

头条要闻

伊朗最高领袖"最详细伤情":面部烧伤严重 可能要整形

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

易会满被“双开”!

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

教育
房产
数码
公开课
军事航空

教育要闻

在你们明天来之前,我又来了

房产要闻

熬了6年,涨了2亿,三亚核心区这块地再次上架

数码要闻

华擎发布首款白色“太极”系列主板X870E Taichi White

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

意大利议会批准:捐赠航母给印度尼西亚

无障碍浏览 进入关怀版