网易首页 > 网易号 > 正文 申请入驻

精准识别界门纲目科属种!北大彭宇新团队用细粒度树先验提升泛化

0
分享至

MIPL团队 投稿
量子位 | 公众号 QbitAI

一张蓝锥嘴雀的图片,你能认出它是“鸟”,但能认出它是“鸟纲-雀形目-唐纳雀科-锥嘴雀属-蓝锥嘴雀”吗?

像大多数人一样,现在的多模态大模型也认不出来。



真实世界中的对象通常包含极其丰富的类别层次,形成类别树结构。比如蓝锥嘴雀是:动物界-脊索动物门-鸟纲-雀形目-唐纳雀科-锥嘴雀属-蓝锥嘴雀(界-门-纲-目-科-属-种)。

区别于传统的细粒度视觉识别,分层视觉识别旨在预测所属的所有类别层次,而不仅仅预测最终的细粒度类别。尽管现有Finedefics、Fine-R1等生成式大模型在细粒度视觉识别任务上表现出色,但由于缺乏类别树知识,无法从粗到细实现每一层的精准识别

同时,采用分层类别标签对比学习得到的判别式大模型(如BioCLIP、BioCLIP2、BioCAP等),其表征空间已能充分编码类别树中的类间关系与类内关系。基于上述发现,本文利用判别式大模型的表征指导生成式大模型的学习,为多模态大模型学习类别树提供了新路径。



本文是北京大学彭宇新教授团队在细粒度多模态大模型领域的最新研究成果,相关论文已被CVPR 2026接收,并已开源

背景

尽管现有多模态大模型在细粒度视觉识别上的准确率取得明显提升,但在依赖类别树知识的分层视觉识别任务上,仍无法从粗到细实现每一层的精准识别。具体地,存在如下3点挑战:

1. 同层判别性差:对于更粗粒度的类别层次,“类内差异大”更加突出,模型倾向于学习类别共性;对于更细粒度的类别层次,“类间差异小”更加突出,模型倾向于学习类别差异。两者的矛盾导致模型难以从粗到细区分每一层的相似类别

2. 跨层一致性差:由于模型缺乏类别树知识,难以保证任意相邻层次的预测类别满足父子节点关系。例如,预测结果为“鹦鹉目-裸鼻雀科”,但两者不满足父子节点关系,“裸鼻雀科”应该属于“雀形目”。

3. 新类泛化性差:现有模型倾向于挖掘不同细粒度子类别的差异,忽略了对其共性的总结(用于识别其父节点的辨识性特征),难以准确识别从未见过的新类别



△图1. 研究背景

针对上述问题,北京大学彭宇新教授团队提出了分类感知表征对齐方法(Taxonomy-Aware Representation Alignment,TARA),用于将类别树结构知识注入多模态大模型。通过将大模型与生物基础模型的视觉表征对齐,促进大模型提取具备完整类别树结构的视觉表征。同时,通过将大模型输出答案的首个词元表征与经生物基础模型编码后的真实类别表征对齐,促进大模型根据指定的层次,将具备完整类别树结构的视觉表征映射为对应层次的类别名称。

实验结果表明,本方法不仅能增强现有大模型的细粒度视觉识别能力,提升最终的细粒度类别的识别准确率,还能增强分层视觉识别能力,从粗到细提升类别树上每一层的识别准确率。

技术方案

为向多模态大模型注入类别树结构知识,本文提出了分类感知表征对齐方法TARA。如图2所示,TARA包含2个主要部分:

1. 分层视觉表征对齐:通过将大模型中间层与生物基础模型最后一层的视觉表征对齐,促进大模型提取具备完整类别树结构的视觉表征。

2. 自由粒度类别表征对齐:通过将大模型输出答案的首个词元表征与经生物基础模型编码后的真实类别表征对齐,促进大模型根据指定的层次,将具备完整类别树结构的视觉表征映射为对应层次的类别名称。

具体如下:



△图2. 分类感知表征对齐方法(TARA)框架图

1. 分层视觉表征对齐。

经分层类别标签训练的生物基础模型(例如, BioCLIP、BioCLIP2、BioCAP等)能提供包含分类学信息的监督信号,促进大模型提取具备完整类别树结构的视觉表征。具体地,给定输入图像I和识别特定层次类别的问题q(例如,“图中动物属于什么门/纲/目/科/属/种?从如下选项中选择:[真实类别,相似类别1,相似类别2,相似类别3]”),生物基础模型的视觉编码器εv(·)输出目标视觉特征img=εv(I)∈RN×d,其中d表示生物基础模型的特征维度。大语言模型第ℓ层的视觉表征表示为ℓimg∈RN×D,采用可学习的映射层PV(·)将其映射到生物基础模型的视觉特征空间,并最小化如下对齐损失:



2. 自由粒度类别表征对齐。

一张图像同时对应不同层次的类别标签,但用户期望识别的类别层次是不同的。例如,专家可能希望在“种”层次上将对象识别为阿卡迪亚霸鹟,而普通用户只需要在“纲”层次上将其识别为鸟。通过在同一层次上对齐生物基础模型和大模型的类别文本表征,促进大模型将具备完整类别树结构的视觉表征映射为对应层次的类别名称。具体地,生物基础模型的文本编码器ET(·)输出目标文本特征ylabel=ET(C)∈Rd,其中C表示在期望层次上的真实类别名称。大语言模型第m层的答案表征序列表示为emanswer∈RN′×D,采用可学习的映射层PT(·)将答案的首个词元表征映射到生物基础模型的文本特征空间,并最小化如下对齐损失:



最终,TARA的对齐损失定义为两者的均值:

3. 模型训练和推理:

在训练阶段,采用无需思考的强化微调(No Thinking RFT)和TARA交替优化大模型、映射层PV(·)与PT(·),促进大模型适配分层视觉识别指令的同时学习类别树知识。在推理阶段,生物基础模型和映射层PV(·)与PT(·)均不参与运算,直接由优化后的大模型进行识别。

实验结果



△表1. iNaturalist-Plant与iNaturalist-Animal分层视觉识别结果

表1展示了在iNaturalist-Plant与iNaturalist-Animal上的分层视觉识别结果。本方法不仅能增强多种大模型的细粒度视觉识别能力,提升最终的细粒度类别的识别准确率,还能增强分层视觉识别能力,从粗到细提升类别树上每一层的识别准确率。



△表2. TerraIncognita的新类别(已有类别树之外的类别)分层视觉识别结果

表2展示了在TerraIncognita的新类别(已有类别树之外的类别)的分层视觉识别结果。这部分新类别不仅是模型强化微调训练集中未见类别,更是稀有或记录极少的物种图像,在公开数据中几乎没有或完全没有可用样本,更不可能出现在模型的预训练数据中

对于其中许多样本,很可能是科学界尚未正式描述的新物种,目前只能可靠地确定其较高层次的分类标签(如“目”和“科”)。本方法通过引入类别树先验,促进模型学习子类别的共性,从而总结出用于识别父类别的判别性特征,提升已知类别树之外的新类别的识别准确率。



△图3. 分类感知表征对齐方法(TARA)案例展示

图3的案例展示表明,相比阿里的Qwen3-VL-2B大模型,本方法能提升同层判别性与跨层一致性,既区分开同一层的相似类别,又确保相邻层次的预测类别满足父子节点关系。

项目价值

针对现有多模态大模型缺乏类别树知识,无法从粗到细实现每一层的精准识别的问题,本文提出了分类感知表征对齐方法TARA,通过对齐大模型与生物基础模型的中间表征,注入类别树结构知识,不仅能提升最终的细粒度类别的识别准确率,还能增强大模型的分层视觉识别能力,从粗到细提升类别树上每一层的识别准确率。

论文标题:
Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models
论文链接:
https://arxiv.org/abs/2603.00431
开源代码:
https://github.com/PKU-ICST-MIPL/TARA_CVPR2026
实验室网址:
https://www.wict.pku.edu.cn/mipl

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Redis创始人开源ds4:几千行C代码让DeepSeek V4跑在MacBook上

Redis创始人开源ds4:几千行C代码让DeepSeek V4跑在MacBook上

小星球探索
2026-05-10 17:11:04
克里米亚大桥传出10起爆炸!乌克兰完全清理库皮扬斯克俄军

克里米亚大桥传出10起爆炸!乌克兰完全清理库皮扬斯克俄军

项鹏飞
2026-05-09 20:56:35
丑鞋出海卖爆了,卖家狂赚400万

丑鞋出海卖爆了,卖家狂赚400万

跨境派Pro
2026-05-09 14:14:21
活活吓死!网传69岁老人查出肺癌晚期,老伴告知真相后三日便离世

活活吓死!网传69岁老人查出肺癌晚期,老伴告知真相后三日便离世

火山詩话
2026-05-09 21:45:51
被王楚钦打哭 小勒布伦仍不服:我们本该取胜 中国队根本没那么强

被王楚钦打哭 小勒布伦仍不服:我们本该取胜 中国队根本没那么强

风过乡
2026-05-10 09:16:18
1984年叶剑英病危,追悼会花圈已备好,35岁才当医生的钟南山凭什么临危受命救回元帅?

1984年叶剑英病危,追悼会花圈已备好,35岁才当医生的钟南山凭什么临危受命救回元帅?

史海孤雁
2026-05-09 19:13:11
海信M2 Pro实测:200英寸激光投影让我想扔掉电视

海信M2 Pro实测:200英寸激光投影让我想扔掉电视

硅屿手记
2026-05-09 17:57:21
近10年学术不端名单:协和“4+4”董袭莹、“首席科学家”郭伟、“不知知网”翟天临

近10年学术不端名单:协和“4+4”董袭莹、“首席科学家”郭伟、“不知知网”翟天临

网易新闻出品
2026-05-09 18:38:13
太彪悍!上海地铁两老人暴打不让座的年轻女孩,网友:列入黑名单

太彪悍!上海地铁两老人暴打不让座的年轻女孩,网友:列入黑名单

火山詩话
2026-05-10 07:59:27
一个人、一台电脑、4个产品,月入170万

一个人、一台电脑、4个产品,月入170万

盛景产业互联网观察
2026-05-09 12:06:44
给患癌病亡父亲写信的保研清华小伙拍高考应援视频:高中时为10万元奖金考清华北大没成功,和偶像庞众望见面时哭了

给患癌病亡父亲写信的保研清华小伙拍高考应援视频:高中时为10万元奖金考清华北大没成功,和偶像庞众望见面时哭了

极目新闻
2026-05-10 08:40:50
徐帆回应离婚9个月,冯小刚携80后女星亮相,养女徐朵开心

徐帆回应离婚9个月,冯小刚携80后女星亮相,养女徐朵开心

老沮系戏精北鼻
2026-05-10 10:33:57
一觉醒来,中国油轮在波斯湾遇袭!这不是误炸,是有人想“破窗”

一觉醒来,中国油轮在波斯湾遇袭!这不是误炸,是有人想“破窗”

闫树军论评
2026-05-08 18:11:21
闹大了!法国队赛前放狠话失败,F·勒布伦当场痛哭,哥哥情绪失控

闹大了!法国队赛前放狠话失败,F·勒布伦当场痛哭,哥哥情绪失控

郝小小看体育
2026-05-10 09:30:13
国乒3-1赢法国却被骂!侯英超怒批:赢球遮羞布

国乒3-1赢法国却被骂!侯英超怒批:赢球遮羞布

youyou喜欢你
2026-05-10 13:20:21
厅级干部已经成为了高危职业

厅级干部已经成为了高危职业

风向观察
2026-05-04 14:17:07
为什么饭后不能立即洗碗?提醒:3个科学道理,避免低级错误

为什么饭后不能立即洗碗?提醒:3个科学道理,避免低级错误

芹姐说生活
2026-05-08 12:32:51
央视:中国在巴基斯坦建立“保障基地”

央视:中国在巴基斯坦建立“保障基地”

烽火观天下
2026-05-10 10:17:59
1-0!恭喜U16国足:绝杀乌兹别克!U17国足1-2日本队当天,争气了

1-0!恭喜U16国足:绝杀乌兹别克!U17国足1-2日本队当天,争气了

大秦壁虎白话体育
2026-05-10 15:59:39
国家免费电视已开通!不用缴费,动手调好就能看

国家免费电视已开通!不用缴费,动手调好就能看

小柱解说游戏
2026-05-08 16:59:21
2026-05-10 19:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12598文章数 176461关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

面对中方强硬态度 世界杯中国转播费从3亿美元腰斩

头条要闻

面对中方强硬态度 世界杯中国转播费从3亿美元腰斩

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

时尚
本地
手机
数码
健康

今年最好看的衬衫竟然是它?太减龄了!

本地新闻

用苏绣的方式,打开江西婺源

手机要闻

W18周:苹果第五,OPPO第二,vivo第三

数码要闻

华为智慧屏S7正式开售,300Hz Super MiniLED超清护眼

干细胞能让人“返老还童”吗

无障碍浏览 进入关怀版