网易首页 > 网易号 > 正文 申请入驻

AAAI 2023 | 语言模型如何增强视觉模型的零样本能力?

0
分享至

该论文设计了一种新的零样本学习范式,通过迁移语言模型中的先验语义知识,与视觉模型的特征感知能力进行对齐,以增强后者对于未见过图像的识别能力。

图1:属性级对比学习

文章链接: https://arxiv.org/abs/2207.01328 项目地址: https://github.com/zjukg/DUET

一、引言

零样本学习(Zero-shot learning, ZSL)旨在预测在训练期间从未出现过样本的未知类别。对于零样本图像分类来说,最有效且广泛使用的语义信息是属性,它们用于描述类别级别视觉特征。然而当前的方法难以区分图像间的微妙视觉差异,这不仅来源于细粒度属性注释的不足,还由于属性间的不平衡和共现现象。

图2-1:属性间的不平衡和共现现象

图2-2:属性间的不平衡和共现现象

在本文中,作者提出了一种基于Transformer的端到端零样本学习方法(DUET),它通过自监督的多模态学习范式将来自预训练语言模型的潜在语义知识进行整合。贡献如下

1.开发了一个跨模态语义基准网络,以研究模型从图像中分离语义属性的能力;

2.应用了基于属性级对比学习的策略,进一步增强模型对细粒度视觉特征的区分能力,克服属性的共现和不平衡问题;

3.提出了多任务学习策略,考虑多模型目标。

该方法可以同时在连续型的属性向量和离散型/结构化属性特征场景下工作,具有比较好的迁移泛化能力。

二、传统的零样本学习范式v.s. DUET学习范式

传统的零样本学习模式主要强调利用更多外部类别知识、进行数据增强,或研究更好的视觉编码器。相比而言,该框架强调跨模态模型的知识迁移(图3所示)。利用预训练语言模型(PLMs)的知识,以自监督的方式将知识转移到视觉转换器编码器中,从而实现对细粒度语义的有效定位。

具体来说,其利用基于提示(prompt)的特征序列转换(FST),将不同类型的属性转换为文本序列。通过跨模态的语义定位网络(Cross-modal Semantic Grounding)和属性级对比学习(attribute-level contrastive learning)机制,利用跨模态的掩码复原(cross-modal mask reconstruction)训练目标从PLM中传递语义知识,同时缓解属性不平衡和共现问题,提高模型对细粒度视觉特征的区分能力。

图3:学习范式对比

三、方法概览

图4:DUET 模型总览

本文引入了一个巧妙的属性级别对比学习的模式,让模型来重点关注那些整体相似的图像中,容易造成困扰的细粒度特征差异

  • 第一步是属性值序列化,文章从nlp社区中广泛运用的prompt中获得启发,借鉴表格预训练中的序列化模式,将图片属性值以key: [value,…]的形式进行文本序列化。这样做的好处是可以兼容多种不同的属性格式,包括知识图谱(KG)形式,向量形式,离散格式。当然,为了增加属性分布的多样性(diversity),作者对属性列表进行了基于概率的剪枝(attributes pruning),目的是为了防止模型因为属性的频繁共现而陷入懒惰学习。

  • 跨模态的掩码复原。想法其实很直接,图像和文本同时输入,文本掩码,让模型强制从图像信息中获得相关属性来恢复掩码。这种方法其实在早期的多模态预训练模型中非常见,目的是让模型对齐视觉/语言的理解。而本文用一种巧妙的方法,让视觉模型的零样本学习能力得到了强化:

  1. 使用预训练的语言模型(Bert)+预训练视觉模型(ViT,Swin,DeiT等),通过添加跨模态注意力层(cross-attention layer)进行桥接,而不是直接用多模态预训练模型。这样的好处是可以最大程度利用语言模型的语义信息和视觉模型的理解能力。

  2. 在视觉模型选择上,规避掉了使用ImageNet-21K进行预训练的模型,避免零样本测试过程中样本泄露。(测试集的图片不应该在预训练过程见过)

  3. 属性级别的对比学习(Attribute-level Contrastive Learning)。本文的核心贡献点,可以用图1表示:对于一个目标样本,选择与其整体特征相似度高的作为负样本,与其整体特性相似度低的作为正样本。对于一个正负样本对,其需要与目标样本有公共的属性key(比如“羽毛图案”),在这种情况下,对负样本的要求是,其他属性尽可能相似,而“羽毛图案”不同;对正样本的要求是,其他属性尽可能不同,而“羽毛图案”相同;最后,在属性的掩码-恢复过程中,模型被迫找到两个差异悬殊图片中细粒度的属性交集,两个非常相似图片中细粒度的属性差异,从而实现属性感知的解耦。

当然,论文在实现上还有许多其他的细节内容,比如多任务学习,以及概率采样,感兴趣的同学可以阅读原文。

四、实验效果

本文作为语言模型在零样本学习上的第一次尝试,在不同数据集上取得了优越甚至sota的效果。其中较为明显地看到,在标准ZSL数据集(AWA2,CUB,SUN)上,相比于传统ResNet-based的方法,视觉预训练模型对于可见类的预测效果有明显提升(Seen class)。而在K-ZSL数据集上,模型也可以达到SOTA效果。此外,模型还获得了细粒度属性预测的附带能力,这是相比传统模型的额外优势。

五、总结

随着最近大语言模型(large language model,LLM),和多模态LLM的发展与兴起,每个领域的众多子任务,就平均水平而言都被提高到了一个新的层次。然而,如何利用一种更有效的方法来开发/唤醒模型对于细节的认知,依然存在着挑战。拥有更好的特征组合能力,对于零样本/长尾对象的识别,是很重要的一个发展方向。虽然大模型的一个特点就是天然的零样本能力,但这是由训练语料的庞大所带来的。而传统方向的研究中,作为长尾现象的衍生,零样本学习依旧是一个重要的问题,在LLM时代重新思考这个方向,是后续研究者需要重点关注的问题。


作者:陈卓 本文来源: 公众号【皮皮嬉】

Illustration by IconScout Store from IconScout

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创投基金将门创新服务以及TechBeat人工智能社区

公司致力干通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京节后气温先升后降,天气趋势→

北京节后气温先升后降,天气趋势→

新浪财经
2026-02-23 11:41:59
秦昊夫妇现身沈阳,伊能静脸垮状态符合年纪,秦昊颈纹多很显憔悴

秦昊夫妇现身沈阳,伊能静脸垮状态符合年纪,秦昊颈纹多很显憔悴

楠楠自语
2026-02-21 19:44:57
郭晶晶没想到,被国家队开除的田亮,如今以这种方式让人刮目相看

郭晶晶没想到,被国家队开除的田亮,如今以这种方式让人刮目相看

无心小姐姐
2026-01-09 17:46:24
谷爱凌戴32万手表领金牌,她戴的施华洛世奇千元耳饰已售罄!

谷爱凌戴32万手表领金牌,她戴的施华洛世奇千元耳饰已售罄!

车窗起雾q
2026-02-23 00:54:25
摊牌了!要求俄罗斯去军事化、战争赔偿、审判战犯、归还领土

摊牌了!要求俄罗斯去军事化、战争赔偿、审判战犯、归还领土

雪中风车
2026-02-22 16:04:34
“第二代赌王”周焯华,被判18年罚款248亿,睡过的女星有多少?

“第二代赌王”周焯华,被判18年罚款248亿,睡过的女星有多少?

小熊侃史
2025-12-26 11:25:18
活了30多年:才知道滚筒洗衣机的6个正确用法,难怪衣服洗不干净

活了30多年:才知道滚筒洗衣机的6个正确用法,难怪衣服洗不干净

装修秀
2026-02-17 10:45:03
这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

这种饮料正在摧毁你的胰岛细胞!很多糖尿病,都和这种饮料有关!

蜉蝣说
2026-01-29 14:46:50
伊朗总统:伊美谈判出现“令人鼓舞”信号

伊朗总统:伊美谈判出现“令人鼓舞”信号

参考消息
2026-02-23 20:30:03
女子申请五笔网贷,400元要分36期,被“迷你贷”压垮,停止还款逾期1000天

女子申请五笔网贷,400元要分36期,被“迷你贷”压垮,停止还款逾期1000天

大风新闻
2026-02-22 16:38:04
我打了老公八巴掌后,他六年不上门,直到我爸病重才知他报复多狠

我打了老公八巴掌后,他六年不上门,直到我爸病重才知他报复多狠

晓艾故事汇
2026-02-05 11:07:02
国防部长的地位高,还是总参谋长的地位高?

国防部长的地位高,还是总参谋长的地位高?

文史茶馆2020
2026-02-06 08:26:37
大到暴雪、降温14℃!大范围降雨持续,返程注意→

大到暴雪、降温14℃!大范围降雨持续,返程注意→

环球网资讯
2026-02-23 14:13:19
美国知名艳星出轨特朗普,身材惹火前凸后翘,曾是成人模特

美国知名艳星出轨特朗普,身材惹火前凸后翘,曾是成人模特

石辰搞笑日常
2026-02-23 19:41:06
马年首个交易日会出现“红包行情”吗?听听AI怎么说

马年首个交易日会出现“红包行情”吗?听听AI怎么说

都市快报橙柿互动
2026-02-23 21:18:48
这个国家一口气花150亿请中国驻军,又花35亿买导弹,付款极爽快

这个国家一口气花150亿请中国驻军,又花35亿买导弹,付款极爽快

寻史微鉴
2026-02-23 20:10:44
回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

回顾“91女神”琪琪:五官出众,却因天真让自己“受伤”

就一点
2025-11-22 10:36:39
韩国学者金在吉:中国文化历史不是上下五千年,韩国古代属于中国

韩国学者金在吉:中国文化历史不是上下五千年,韩国古代属于中国

犟种美食
2026-02-23 17:04:37
女人都喜欢被命令、喜欢被带领,但就是不喜欢被尊重、被给选择

女人都喜欢被命令、喜欢被带领,但就是不喜欢被尊重、被给选择

加油丁小文
2026-02-22 07:00:04
中央定调,延迟退休实施后,1976年5月出生的可以50岁退休吗?

中央定调,延迟退休实施后,1976年5月出生的可以50岁退休吗?

另子维爱读史
2026-02-23 20:32:39
2026-02-23 21:52:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2302文章数 596关注度
往期回顾 全部

科技要闻

智谱、MiniMax合计蒸发近千亿市值,为何?

头条要闻

德国总理默茨周三访华:将访两市 30位企业家或随行

头条要闻

德国总理默茨周三访华:将访两市 30位企业家或随行

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

那艺娜账号被禁止关注,视频已清空!

财经要闻

美国海关将停止征收被裁定违法的关税

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

房产
数码
艺术
公开课
军事航空

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

数码要闻

自带键盘的迷你电脑,众筹价你会买吗?

艺术要闻

十大名家画春,送给春天的你!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军重兵集结蓄力作战之际 新一轮美伊谈判时间“敲定”

无障碍浏览 进入关怀版