网易首页 > 网易号 > 正文 申请入驻

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR

0
分享至



机器之心专栏

机器之心编辑部

虽然我从来没见过你,但是我有可能「认识」你 —— 这是人们希望人工智能在「一眼初见」下达到的状态。

为了达到这个目的,在传统的图像识别任务中,人们在带有不同类别标签的大量图像样本上训练算法模型,让模型获得对这些图像的识别能力。而在零样本学习(ZSL)任务中,人们希望模型能够举一反三,识别在训练阶段没有见过图像样本的类别。

生成式零样本学习(GZSL)是实现零样本学习的一种有效方法。在生成式零样本学习中,首先需要训练一个生成器来合成未见类的视觉特征,这个生成过程是以前面提到的属性标签等语义描述为条件驱动的。有了生成的视觉特征作为样本,就可以像训练传统的分类器一样,训练出可以识别未见类的分类模型。

生成器的训练是生成式零样本学习算法的关键,理想状态下,生成器根据语义描述生成的某个未见类的视觉特征样本,应与此类别真实样本的视觉特征具有相同的分布。

在现有的生成式零样本学习方法中,生成器在被训练和使用时,都是以高斯噪声和类别整体的语义描述为条件的,这限制了生成器只能针对整个类别进行优化,而不是描述每个样本实例,所以难以准确反映真实样本视觉特征的分布,导致模型的泛化性能较差。另外,已见类与未见类所共享的数据集视觉信息,即域知识,也没有在生成器的训练过程中被充分利用,限制了知识从已见类到未见类的迁移。

为了解决这些问题,华中科技大学研究生与阿里巴巴旗下银泰商业集团的技术专家提出了视觉增强的动态语义原型方法(称为 VADS),将已见类的视觉特征更充分地引入到语义条件中,推动生成器学习准确的语义 - 视觉映射,研究论文《Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning》已被计算机视觉顶级国际学术会议 CVPR 2024 接收。

具体而言,上述研究呈现了三个创新点:

第一,研究使用视觉特征对生成器进行增强,来为零样本学习中的未见类生成可靠的视觉特征,在零样本学习领域中是具有创新性的方法。

第二,研究提出了 VDKL 和 VOSU 两个组件,有效地获取数据集的视觉先验并用图像的视觉特征动态更新预定义好的类别语义描述,从而有效地实现了对视觉特征的利用。

第三,从试验结果上看,本研究使用视觉特征对生成器进行增强的效果显著,而且作为一个即插即用的方法,具有较强的通用性。

研究细节

VADS 由两个模块组成:(1)视觉感知域知识学习模块(VDKL)学习视觉特征的局部偏差和全局先验,即域视觉知识,这些知识取代了纯高斯噪声,提供了更丰富的先验噪声信息;(2)面向视觉的语义更新模块(VOSU)学习如何根据样本的视觉表示更新其语义原型,更新的后语义原型中也包含了域视觉知识。

最终,研究团队将两个模块的输出连接为一个动态语义原型向量,作为生成器的条件。大量实验表明,VADS 方法在常用的零样本学习数据集上实现了显著超出已有方法的性能,并可以与其他生成式零样本学习方法结合,获得精度的普遍提升。



在视觉感知域知识学习模块(VDKL)中,研究团队设计了一个视觉编码器(VE)和一个域知识学习网络(DKL)。其中,VE 将视觉特征编码为隐特征和隐编码。通过使用对比损失在生成器训练阶段利用已见类图像样本训练 VE,VE 可以增强视觉特征的类别可分性。

在训练 ZSL 分类器时,生成器生成的未见类视觉特征也被输入 VE,得到的隐特征与生成的视觉特征连接,作为最终的视觉特征样本。VE 的另一个输出,即隐编码,经过 DKL 变换后形成局部偏差 b,与可学习的全局先验 p,以及随机高斯噪声一起,组合成域相关的视觉先验噪声,代替其他生成式零样本学习中常用的纯高斯噪声,作为生成器生成条件的一部分。

在面向视觉的语义更新模块(VOSU)中,研究团队设计了一个视觉语义预测器 VSP 和一个语义更新映射网络 SUM。在 VOSU 的训练阶段,VSP 以图像视觉特征为输入,生成一个能够捕获目标图像视觉模式的预测语义向量,同时,SUM 以类别语义原型为输入,对其进行更新,得到更新后的语义原型,然后通过最小化预测语义向量与更新后语义原型之间的交叉熵损失对 VSP 和 SUM 进行训练。VOSU 模块可以基于视觉特征对语义原型进行动态调整,使得生成器在合成新类别特征时能够依据更精确的实例级语义信息。

在试验部分,上述研究使用了学术界常用的三个 ZSL 数据集:Animals with Attributes 2(AWA2),SUN Attribute(SUN)和 Caltech-USCD Birds-200-2011(CUB),对传统零样本学习和广义零样本学习的主要指标,与近期有代表性的其他方法进行了全面对比。



在传统零样本学习的 Acc 指标方面,该研究的方法与已有方法相比,取得了明显的精度提升,在三个数据集上分别领先 8.4%,10.3% 和 8.4%。在广义零样本学习场景,上述研究方法在未见类和已见类精度的调和平均值指标 H 上也处于领先地位。

VADS 方法还可以与其他生成式零样本学习方法结合。例如,与 CLSWGAN,TF-VAEGAN 和 FREE 这三种方法结合后,在三个数据集上的 Acc 和 H 指标均有明显提升,三个数据集的平均提升幅度为 7.4%/5.9%, 5.6%/6.4% 和 3.3%/4.2%。



通过对生成器生成的视觉特征进行可视化可以看出,原本混淆在一起的部分类别的特征,例如下图 (b) 中显示的已见类「Yellow breasted Chat」和未见类「Yellowthroat」两类特征,在使用 VADS 方法后,在图(c)中能够被明显地分离为两个类簇,从而避免了分类器训练时的混淆。



可延展到智能安防和大模型领域

机器之心了解到,上述研究研究团队关注的零样本学习旨在使模型能够识别在训练阶段没有图像样本的新类别,在智能安防领域具有潜在的价值。

第一,处理安防场景中新出现的风险,由于安防场景下,会不断出现新的威胁类型或不寻常的行为模式,它们可能在之前的训练数据中未曾出现。零样本学习使安防系统能快速识别和响应新风险类型,从而提高安全性。

第二,减少对样本数据的依赖:获取足够的标注数据来训练有效的安防系统是昂贵和耗时的,零样本学习减少了系统对大量图像样本的依赖,从而节约了研发成本。

第三,提升动态环境下的稳定性:零样本学习使用语义描述实现对未见类模式的识别,与完全依赖图像特征的传统方法相比,对于视觉环境的变化天然具有更强的稳定性。

该技术作为解决图像分类问题的底层技术,还可以在依赖视觉分类技术的场景落地,例如人、货、车、物的属性识别,行为识别等。尤其在需要快速增加新的待识别类别,来不及收集训练样本,或者难以收集大量样本的场景(如风险识别),零样本学习技术相对于传统方法具有较大优势。

该研究技术对于当前大模型的发展有无借鉴之处?

研究者认为,生成式零样本学习的核心思想是对齐语义空间和视觉特征空间,这与当前多模态大模型中的视觉语言模型(如 CLIP)的研究目标是一致的。

它们最大的不同点是,生成式零样本学习是在预先定义好的有限类别的数据集上训练和使用,而视觉语言大模型则是通过对大数据的学习获得具有通用性的语义和视觉表征能力,不局限在有限的类别,作为基础模型,具有更宽广的应用范围。

如果技术的应用场景是特定领域,可以选择将大模型针对此领域进行适配微调,在此过程中,与本文相同或相似研究方向的工作,理论上可以带来一些有益的启发。

作者介绍

侯文金,华中科技大学硕士研究生,感兴趣的研究方向包括计算机视觉,生成建模,少样本学习等,他在阿里巴巴 - 银泰商业实习期间完成了本论文工作。

王炎,阿里巴巴 - 银泰商业技术总监,深象智能团队算法负责人。

冯雪涛,阿里巴巴 - 银泰商业资深算法专家,主要关注视觉和多模态算法在线下零售等行业的应用落地。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
季后赛生涯首次!威少拉倒东契奇+拳击华盛顿吃两T 携悍将被驱逐

季后赛生涯首次!威少拉倒东契奇+拳击华盛顿吃两T 携悍将被驱逐

醉卧浮生
2024-04-27 10:39:40
曝黎婉华香港豪宅准备出售,70万买升值到30亿,何超贤让外人看房

曝黎婉华香港豪宅准备出售,70万买升值到30亿,何超贤让外人看房

欢乐大意
2024-04-26 23:17:35
没人敢动的军中巨贪,背后有两大保护伞,刘源:丢乌纱帽也拿下他

没人敢动的军中巨贪,背后有两大保护伞,刘源:丢乌纱帽也拿下他

旧时楼台月
2024-04-22 14:42:41
英首相对华发表不当言论,中方回应时,对他改了称呼,事态严重

英首相对华发表不当言论,中方回应时,对他改了称呼,事态严重

易同学爱谈娱乐
2024-04-26 13:01:08
村支书向麦田排污后续!多部门介入,村支书秒怂:上级让我干的

村支书向麦田排污后续!多部门介入,村支书秒怂:上级让我干的

洛洛女巫
2024-04-26 16:26:03
惠州房价腰斩?有网友爆料某房源从挂牌105.5万,到现在的53万…

惠州房价腰斩?有网友爆料某房源从挂牌105.5万,到现在的53万…

火山诗话
2024-04-26 08:00:03
天哪罗志祥的脸太吓人了,满脸的科技感,好像哪里都动过了

天哪罗志祥的脸太吓人了,满脸的科技感,好像哪里都动过了

娱乐八卦木木子
2024-04-26 03:08:07
北京市委书记、市长调研走进车展,与雷军现场交流

北京市委书记、市长调研走进车展,与雷军现场交流

澎湃新闻
2024-04-27 13:46:29
铁血,归来!曝穆里尼奥“三进宫”切尔西!“顶薪先生”将遭驱逐

铁血,归来!曝穆里尼奥“三进宫”切尔西!“顶薪先生”将遭驱逐

头狼追球
2024-04-27 17:28:04
俄罗斯开始恐惧了,在电视台讨论ATACMS将打击哪些俄罗斯城市

俄罗斯开始恐惧了,在电视台讨论ATACMS将打击哪些俄罗斯城市

火星宏观
2024-04-26 15:49:38
穆迪再次下调评级,万科回应:坚决反对,希望准确评估和反映公司情况

穆迪再次下调评级,万科回应:坚决反对,希望准确评估和反映公司情况

澎湃新闻
2024-04-27 15:58:40
笑麻了!南昌连续三次向游客喊话来旅游,网友:不会日语怎么办?

笑麻了!南昌连续三次向游客喊话来旅游,网友:不会日语怎么办?

小白探影8
2024-04-27 15:32:03
一个国家被踢出SWIFT系统的后果非常的严重!

一个国家被踢出SWIFT系统的后果非常的严重!

华夏司马北
2024-04-24 22:01:49
俄罗斯族乌军总司令上任近三个月 作战风格曝光:强调耐心和纪律性,重视无人机使用

俄罗斯族乌军总司令上任近三个月 作战风格曝光:强调耐心和纪律性,重视无人机使用

红星新闻
2024-04-26 18:04:11
降价出售?买华为Pura70的黄牛该哭了

降价出售?买华为Pura70的黄牛该哭了

闲醉山人
2024-04-26 22:47:19
汪峰现身蔚来展台,李斌亲自接待展现高情商,学习雷军营销手段。

汪峰现身蔚来展台,李斌亲自接待展现高情商,学习雷军营销手段。

娱乐圈酸柠檬
2024-04-27 11:26:33
为抗议美国对加沙政策,美国务院发言人辞职

为抗议美国对加沙政策,美国务院发言人辞职

环球时报国际
2024-04-26 14:19:54
侃爷让她穿啥就穿啥,网友:她也愿意的,痛苦并快乐着

侃爷让她穿啥就穿啥,网友:她也愿意的,痛苦并快乐着

三月柳
2024-04-13 15:27:23
60岁女人再过夫妻生活,3位女人说出了真心话

60岁女人再过夫妻生活,3位女人说出了真心话

胥洋洋爱唱歌
2024-04-07 04:14:14
2000亿,北京首富宣告破产

2000亿,北京首富宣告破产

融资中国
2024-04-27 10:55:09
2024-04-27 19:14:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
8934文章数 141895关注度
往期回顾 全部

科技要闻

特斯拉这款车型刚上市几天,就上调价格

头条要闻

去世半年前 90岁老太被摄影师外孙女爆改成"19岁少女"

头条要闻

去世半年前 90岁老太被摄影师外孙女爆改成"19岁少女"

体育要闻

时代要落幕了?詹姆斯杜兰特陷0-3绝境

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

北京房价回到2016年

汽车要闻

5月上市/智能化丰富 海狮 07EV正式到店

态度原创

游戏
本地
时尚
公开课
军事航空

微软CEO称致力于迎合玩家 因为Xbox在PS上表现很好

本地新闻

蛋友碰碰会空降西安!5.1山海境等你!

七八十岁男人,尽量别穿“背心+大裤衩”出门,显老油腻、很邋遢

公开课

睡前进食会让你发胖吗?

军事要闻

佩洛西称俄在支持"挺巴"的美国反战学生 扎哈罗娃回应

无障碍浏览 进入关怀版