网易首页 > 网易号 > 正文 申请入驻

精准识别界门纲目科属种!北大彭宇新团队用细粒度树先验提升泛化

0
分享至

MIPL团队 投稿
量子位 | 公众号 QbitAI

一张蓝锥嘴雀的图片,你能认出它是“鸟”,但能认出它是“鸟纲-雀形目-唐纳雀科-锥嘴雀属-蓝锥嘴雀”吗?

像大多数人一样,现在的多模态大模型也认不出来。



真实世界中的对象通常包含极其丰富的类别层次,形成类别树结构。比如蓝锥嘴雀是:动物界-脊索动物门-鸟纲-雀形目-唐纳雀科-锥嘴雀属-蓝锥嘴雀(界-门-纲-目-科-属-种)。

区别于传统的细粒度视觉识别,分层视觉识别旨在预测所属的所有类别层次,而不仅仅预测最终的细粒度类别。尽管现有Finedefics、Fine-R1等生成式大模型在细粒度视觉识别任务上表现出色,但由于缺乏类别树知识,无法从粗到细实现每一层的精准识别

同时,采用分层类别标签对比学习得到的判别式大模型(如BioCLIP、BioCLIP2、BioCAP等),其表征空间已能充分编码类别树中的类间关系与类内关系。基于上述发现,本文利用判别式大模型的表征指导生成式大模型的学习,为多模态大模型学习类别树提供了新路径。



本文是北京大学彭宇新教授团队在细粒度多模态大模型领域的最新研究成果,相关论文已被CVPR 2026接收,并已开源

背景

尽管现有多模态大模型在细粒度视觉识别上的准确率取得明显提升,但在依赖类别树知识的分层视觉识别任务上,仍无法从粗到细实现每一层的精准识别。具体地,存在如下3点挑战:

1. 同层判别性差:对于更粗粒度的类别层次,“类内差异大”更加突出,模型倾向于学习类别共性;对于更细粒度的类别层次,“类间差异小”更加突出,模型倾向于学习类别差异。两者的矛盾导致模型难以从粗到细区分每一层的相似类别

2. 跨层一致性差:由于模型缺乏类别树知识,难以保证任意相邻层次的预测类别满足父子节点关系。例如,预测结果为“鹦鹉目-裸鼻雀科”,但两者不满足父子节点关系,“裸鼻雀科”应该属于“雀形目”。

3. 新类泛化性差:现有模型倾向于挖掘不同细粒度子类别的差异,忽略了对其共性的总结(用于识别其父节点的辨识性特征),难以准确识别从未见过的新类别



△图1. 研究背景

针对上述问题,北京大学彭宇新教授团队提出了分类感知表征对齐方法(Taxonomy-Aware Representation Alignment,TARA),用于将类别树结构知识注入多模态大模型。通过将大模型与生物基础模型的视觉表征对齐,促进大模型提取具备完整类别树结构的视觉表征。同时,通过将大模型输出答案的首个词元表征与经生物基础模型编码后的真实类别表征对齐,促进大模型根据指定的层次,将具备完整类别树结构的视觉表征映射为对应层次的类别名称。

实验结果表明,本方法不仅能增强现有大模型的细粒度视觉识别能力,提升最终的细粒度类别的识别准确率,还能增强分层视觉识别能力,从粗到细提升类别树上每一层的识别准确率。

技术方案

为向多模态大模型注入类别树结构知识,本文提出了分类感知表征对齐方法TARA。如图2所示,TARA包含2个主要部分:

1. 分层视觉表征对齐:通过将大模型中间层与生物基础模型最后一层的视觉表征对齐,促进大模型提取具备完整类别树结构的视觉表征。

2. 自由粒度类别表征对齐:通过将大模型输出答案的首个词元表征与经生物基础模型编码后的真实类别表征对齐,促进大模型根据指定的层次,将具备完整类别树结构的视觉表征映射为对应层次的类别名称。

具体如下:



△图2. 分类感知表征对齐方法(TARA)框架图

1. 分层视觉表征对齐。

经分层类别标签训练的生物基础模型(例如, BioCLIP、BioCLIP2、BioCAP等)能提供包含分类学信息的监督信号,促进大模型提取具备完整类别树结构的视觉表征。具体地,给定输入图像I和识别特定层次类别的问题q(例如,“图中动物属于什么门/纲/目/科/属/种?从如下选项中选择:[真实类别,相似类别1,相似类别2,相似类别3]”),生物基础模型的视觉编码器εv(·)输出目标视觉特征img=εv(I)∈RN×d,其中d表示生物基础模型的特征维度。大语言模型第ℓ层的视觉表征表示为ℓimg∈RN×D,采用可学习的映射层PV(·)将其映射到生物基础模型的视觉特征空间,并最小化如下对齐损失:



2. 自由粒度类别表征对齐。

一张图像同时对应不同层次的类别标签,但用户期望识别的类别层次是不同的。例如,专家可能希望在“种”层次上将对象识别为阿卡迪亚霸鹟,而普通用户只需要在“纲”层次上将其识别为鸟。通过在同一层次上对齐生物基础模型和大模型的类别文本表征,促进大模型将具备完整类别树结构的视觉表征映射为对应层次的类别名称。具体地,生物基础模型的文本编码器ET(·)输出目标文本特征ylabel=ET(C)∈Rd,其中C表示在期望层次上的真实类别名称。大语言模型第m层的答案表征序列表示为emanswer∈RN′×D,采用可学习的映射层PT(·)将答案的首个词元表征映射到生物基础模型的文本特征空间,并最小化如下对齐损失:



最终,TARA的对齐损失定义为两者的均值:

3. 模型训练和推理:

在训练阶段,采用无需思考的强化微调(No Thinking RFT)和TARA交替优化大模型、映射层PV(·)与PT(·),促进大模型适配分层视觉识别指令的同时学习类别树知识。在推理阶段,生物基础模型和映射层PV(·)与PT(·)均不参与运算,直接由优化后的大模型进行识别。

实验结果



△表1. iNaturalist-Plant与iNaturalist-Animal分层视觉识别结果

表1展示了在iNaturalist-Plant与iNaturalist-Animal上的分层视觉识别结果。本方法不仅能增强多种大模型的细粒度视觉识别能力,提升最终的细粒度类别的识别准确率,还能增强分层视觉识别能力,从粗到细提升类别树上每一层的识别准确率。



△表2. TerraIncognita的新类别(已有类别树之外的类别)分层视觉识别结果

表2展示了在TerraIncognita的新类别(已有类别树之外的类别)的分层视觉识别结果。这部分新类别不仅是模型强化微调训练集中未见类别,更是稀有或记录极少的物种图像,在公开数据中几乎没有或完全没有可用样本,更不可能出现在模型的预训练数据中

对于其中许多样本,很可能是科学界尚未正式描述的新物种,目前只能可靠地确定其较高层次的分类标签(如“目”和“科”)。本方法通过引入类别树先验,促进模型学习子类别的共性,从而总结出用于识别父类别的判别性特征,提升已知类别树之外的新类别的识别准确率。



△图3. 分类感知表征对齐方法(TARA)案例展示

图3的案例展示表明,相比阿里的Qwen3-VL-2B大模型,本方法能提升同层判别性与跨层一致性,既区分开同一层的相似类别,又确保相邻层次的预测类别满足父子节点关系。

项目价值

针对现有多模态大模型缺乏类别树知识,无法从粗到细实现每一层的精准识别的问题,本文提出了分类感知表征对齐方法TARA,通过对齐大模型与生物基础模型的中间表征,注入类别树结构知识,不仅能提升最终的细粒度类别的识别准确率,还能增强大模型的分层视觉识别能力,从粗到细提升类别树上每一层的识别准确率。

论文标题:
Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models
论文链接:
https://arxiv.org/abs/2603.00431
开源代码:
https://github.com/PKU-ICST-MIPL/TARA_CVPR2026
实验室网址:
https://www.wict.pku.edu.cn/mipl

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
丹麦被曝向格陵兰岛派遣部队:必要时将炸毁机场跑道阻止美军进入

丹麦被曝向格陵兰岛派遣部队:必要时将炸毁机场跑道阻止美军进入

澎湃新闻
2026-03-20 17:58:26
铜价大变局将至!三大信号齐发,历史或将再次上演

铜价大变局将至!三大信号齐发,历史或将再次上演

奇思妙想生活家
2026-03-21 19:11:01
荒唐不可怕,可怕的是荒唐了几十年,没人问一句“凭什么”!

荒唐不可怕,可怕的是荒唐了几十年,没人问一句“凭什么”!

阿离家居
2026-03-20 04:49:00
蔡国庆小儿子参加中国时装周走秀,蔡国庆激动发文,儿子太优秀了

蔡国庆小儿子参加中国时装周走秀,蔡国庆激动发文,儿子太优秀了

章眽八卦
2026-03-21 14:42:08
美媒:中国军舰在仙宾礁用火控雷达照射了菲律宾最新型护卫舰

美媒:中国军舰在仙宾礁用火控雷达照射了菲律宾最新型护卫舰

爱吃醋的猫咪
2026-03-21 22:11:00
以色列致命死穴曝光!一旦这里被摧毁,便可覆灭以色列全境

以色列致命死穴曝光!一旦这里被摧毁,便可覆灭以色列全境

纪中百大事
2026-03-19 09:59:24
韩国加入七国联合声明,谴责伊朗封锁霍尔木兹海峡

韩国加入七国联合声明,谴责伊朗封锁霍尔木兹海峡

界面新闻
2026-03-20 23:21:55
汪宝大名终定,全家三代投票折中,小菲的坚持戳中无数家长

汪宝大名终定,全家三代投票折中,小菲的坚持戳中无数家长

一口娱乐
2026-03-21 13:38:21
老人再婚后第一次圆房有何感想?67岁老人倾诉:她给了我很多惊喜

老人再婚后第一次圆房有何感想?67岁老人倾诉:她给了我很多惊喜

热心柚子姐姐
2026-03-20 19:24:24
射程500误差1500?武契奇:中国导弹太准了,我都有点不习惯

射程500误差1500?武契奇:中国导弹太准了,我都有点不习惯

兴史兴谈
2026-03-20 16:39:11
救命,除了床戏,还是床戏

救命,除了床戏,还是床戏

独立鱼
2026-03-21 21:06:14
悲催!45岁,47岁,42岁,网友哭诉接连倒了3个老师,评论区炸锅

悲催!45岁,47岁,42岁,网友哭诉接连倒了3个老师,评论区炸锅

火山詩话
2026-03-20 06:51:22
俄罗斯价值20亿的A-50预警机被击中,俄“空中大脑”被撕开缺口

俄罗斯价值20亿的A-50预警机被击中,俄“空中大脑”被撕开缺口

桂系007
2026-03-20 23:57:07
829.9公里!新一代小米SU7真实续航成绩出炉 达成率92.2%

829.9公里!新一代小米SU7真实续航成绩出炉 达成率92.2%

快科技
2026-03-21 13:28:06
出场数已达标!不出意外,以杜兰特本赛季的表现保底最佳三阵!

出场数已达标!不出意外,以杜兰特本赛季的表现保底最佳三阵!

田先生篮球
2026-03-21 13:03:30
你干过最舒服的工作是啥?网友:姐,你们公司还招人吗

你干过最舒服的工作是啥?网友:姐,你们公司还招人吗

带你感受人间冷暖
2026-03-19 22:37:39
内塔尼亚胡失算了,击中俄罗斯人后,普京一声令下,以色列恐遭殃

内塔尼亚胡失算了,击中俄罗斯人后,普京一声令下,以色列恐遭殃

触摸史迹
2026-03-21 03:58:23
29岁广东男子南太行失联数天续:救援人员潜入瀑布打捞无果

29岁广东男子南太行失联数天续:救援人员潜入瀑布打捞无果

南方都市报
2026-03-21 21:42:11
陈牧驰成功当爹了!

陈牧驰成功当爹了!

八卦疯叔
2026-03-20 11:20:55
江苏省政府副秘书长邱志强、杨新忠,拟任省级机关正职

江苏省政府副秘书长邱志强、杨新忠,拟任省级机关正职

娱乐圈的笔娱君
2026-03-21 19:22:22
2026-03-21 23:27:00
量子位 incentive-icons
量子位
追踪人工智能动态
12320文章数 176418关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

达利欧:霍尔木兹海峡大决战即将爆发

头条要闻

达利欧:霍尔木兹海峡大决战即将爆发

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

手机
亲子
数码
游戏
家居

手机要闻

90Hz水滴屏归来?曝中低端机测试中

亲子要闻

笑麻了!男子想请亲妈照看孕期媳妇,网友:距离产生美

数码要闻

炸锅!国产存储芯片再突破!手机固态价格大跳水,内存自由要来了

还是太能打了!PS5连续两个月击败NS2拿下销冠

家居要闻

时空交织 空间绮梦

无障碍浏览 进入关怀版