网易首页 > 网易号 > 正文 申请入驻

大幅提升零样本学习方法效果,南京理工&牛津即插即用分类器模块

0
分享至

机器之心专栏

作者:陈督兵

来自南京理工大学和牛津大学的研究者提出了一个即插即用的分类器模块,只需修改一行代码就能大幅提升生成型零样本学习方法的效果,减少了分类器对于生成伪样本质量的依赖。

零样本学习(Zero-Shot Learning)聚焦于对训练过程中没有出现过的类别进行分类,基于语义描述的零样本学习通过预先定义的每个类别的高阶语义信息来实现从可见类(seen class)到未见类(unseen class)的知识迁移。传统零样本学习在测试阶段仅需要对未见类进行识别,而广义零样本学习(GZSL)需要同时识别可见类和未见类,其评测指标是可见类类平均准确率与未见类类平均准确率的调和平均。

一种通用的零样本学习策略是使用可见类样本和语义训练从语义空间到视觉样本空间的条件生成模型,再借助未见类语义生成未见类的伪样本,最后使用可见类样本和未见类伪样本训练分类网络。

然而,要学习两个模态(语义模态与视觉模态)间的良好映射关系通常需要大量样本(参照 CLIP),这在传统零样本学习环境下无法实现。因此,使用未见类语义生成的视觉样本分布通常和真实样本分布存在偏差(bias),这意味着以下两点:1. 这种方法获得的未见类准确率有限。2. 在未见类平均每类生成伪样本数量与可见类平均每类样本数量相当的情况下,未见类准确率与可见类准确率存在较大差值,如下表 1 所示。

我们发现就算只学习语义到类别中心点的映射,并将未见类语义映射为的单一样本点复制多次再参加分类器训练也能得到接近使用生成模型的效果。这意味着生成模型生成的未见类伪样本特征对分类器来说是较为同质(homogeneity)的。

先前的方法通常通过生成大量未见类伪样本来迎合 GZSL 评测指标(尽管大的采样数量对未见类类间判别没有帮助)。然而这种重采样(re-sampling)的策略在长尾学习(Long-tail Learning)领域被证明会导致分类器在部分特征上过拟合,在这里即是与真实样本偏移的伪未见类特征。这种情况不利于可见类和未见类真实样本的识别。那么,能否舍弃这种重采样策略,转而将生成未见类伪样本的偏移性和同质性(或者可见类与未见类的类别不平衡)作为归纳偏置(inductive bias)植入分类器学习呢?

基于此,我们提出了一个即插即用的分类器模块,只需修改一行代码就能提升生成型零样本学习方法的效果。每个不可见类只需生成 10 个伪样本,就能达到 SOTA 水平。与其他生成型零样本方法相比,新方法在计算复杂度上具有巨大优势。研究成员来自南京理工大学和牛津大学。

  • 论文: https://arxiv.org/abs/2204.11822
  • 代码: https://github.com/cdb342/IJCAI-2022-ZLA

本文以一致化训练与测试目标为指引,推导出广义零样本学习评测指标的变分下界。以此建模的分类器能够避免使用重采用策略,防止分类器在生成的伪样本上过拟合对真实样本的识别造成不利影响。所提方法能够使基于嵌入的分类器在生成型方法框架上有效,减少了分类器对于生成伪样本质量的依赖。

方法

1. 引入参数化先验

我们决定从分类器的损失函数上着手。假设类别空间已经被生成的未见类伪样本所完善,先前的分类器以最大化全局准确率为优化目标:

其中

为全局准确率,

表示分类器输出,

表示样本分布,

为样本 X 对应标签。而 GZSL 的评测指标为:

其中

分别代表可见类和未见类集合。训练目标和测试目标的不一致意味着先前的分类器训练策略没有考虑可见类和未见类的差异。自然而然地,我们试图通过对

进行推导来实现训练与测试目标一致的结果。经过推导,我们得到了其下界:

其中

代表可见类 - 未见类先验,其与数据无关,在实验中作为超参数进行调整,

代表可见类或未见类内部先验,在实现过程中用可见类样本频率或均匀分布代替。通过最大化

的下界,我们得到了最终的优化目标:

由此,我们的分类建模目标相较先前发生了以下改变:

通过使用交叉熵(cross-entropy)拟合后验概率

,我们得到分类器损失为:

这与长尾学习中的逻辑调整(Logit Adjustment)类似,因此我们称之为零样本逻辑调整(ZLA)。至此,我们实现了通过引入参数化先验将可见类与未见类的类别不平衡作为归纳偏置植入到分类器训练中,并且在代码实现中只需对原始 logits 加上额外偏置项就能达到以上效果。

2. 引入语义先验

到目前为止,零样本迁移的核心,即语义先验(semantic prior)仅在训练生成器与生成伪样本阶段发挥作用,对未见类的识别完全取决于生成的未见类伪样本的质量。

显然,如果能够在分类器训练阶段引入语义先验,将会有助于未见类的识别。在零样本学习领域有一类基于嵌入(embedding-based)的方法能够实现这一功能。

然而,这一类方法与生成模型学习到的知识是相似的,即语义与视觉间的联系(semantic-visual link),这导致在先前的生成型框架中(参照论文 f-CLSWGAN)直接引入基于嵌入的分类器无法取得比原先更好的效果(除非这种分类器本身就有更好的零样本性能)。通过本文提出的 ZLA 策略,我们能够改变生成的未见类伪样本在分类器训练中扮演的角色。从原先的提供不可见类信息到现在的调整不可见类与可见类间的决策界限(decision boundary),我们得以在分类器训练阶段引入语义先验。

具体地,我们采用了原型学习的方法将每个类别的语义映射为视觉原型(即分类器权值),再将调整的后验概率(adjusted posterior)建模为样本与视觉原型间的余弦相似度(cosine similarity),即

其中

为温度系数。在测试阶段,样本被预测为与其余弦相似度最大的视觉原型对应类别。

实验

我们将所提出的分类器与基础 WGAN 结合,在每个未见类生成 10 个样本的情况下达到了媲美 SoTAs 的效果。另外我们将其插入到更加先进的 CE-GZSL 方法中,在不改变其他参数(包括生成样本数量)的情况下提升了初始效果。

在消融实验中,我们将基于生成的原型学习器(prototype learner)与纯原型学习器进行了比较。我们发现,最后一个 ReLU 层对于纯原型学习器的成功至关重要,因为将负数置零可以增大类别原型与未见类特征的相似度(未见类特征同样经过 ReLU 激活)。然而将部分数值置零也限制了原型的表达,不利于更进一步的识别性能。借助伪未见类样本来弥补未见类信息不仅能在使用 RuLU 时达到更高性能,更能在没有 ReLU 层的情况下实现进一步的性能超越。

在另一项消融研究中,我们将原型学习器与初始分类器进行比较。结果显示当生成大量未见类样本时,原型学习器与初始分类器相比没有优势。而在使用本文提出的 ZLA 技术时,原型学习器显示出其优越性。正如前文所说,这是因为原型学习器和生成模型都在学习语义 - 视觉联系,所以语义信息很难被充分利用。ZLA 使生成的未见类样本能够调整决策边界,而不是仅仅提供未见类信息,从而对原型学习器起到激活作用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方突然宣布出手,当场“击伤”菲擅闯船只,美称中方已越过红线

中方突然宣布出手,当场“击伤”菲擅闯船只,美称中方已越过红线

博文聊世界
2024-05-14 08:22:51
林俊杰演唱会观众大喊退票,大麦网回应

林俊杰演唱会观众大喊退票,大麦网回应

鲁中晨报
2024-05-12 14:04:04
日常摸不到球!曼晚:许多曼联球员不信任霍伊伦,不愿意传球给他

日常摸不到球!曼晚:许多曼联球员不信任霍伊伦,不愿意传球给他

直播吧
2024-05-13 20:18:10
“做梦都笑醒!”十三万员工无需考试,摇身一变成为人民公务员!

“做梦都笑醒!”十三万员工无需考试,摇身一变成为人民公务员!

亿通电子游戏
2024-05-13 20:25:46
广州一老太手持铁锤怒砸十几辆汽车?街道办回应

广州一老太手持铁锤怒砸十几辆汽车?街道办回应

鲁中晨报
2024-05-13 22:31:09
出租房里你遇到过哪些奇葩事?网友:碰见了,单身狗真的很尴尬

出租房里你遇到过哪些奇葩事?网友:碰见了,单身狗真的很尴尬

刺头体育
2024-05-13 23:48:34
杨幂父母苏州看房,5万一平一套过千万,母亲一身名牌却遭吐槽

杨幂父母苏州看房,5万一平一套过千万,母亲一身名牌却遭吐槽

七星娱乐圈
2024-05-13 04:38:13
8岁那年我赤脚走10里到外公家借牛,被外公大吼,他转身找来大舅

8岁那年我赤脚走10里到外公家借牛,被外公大吼,他转身找来大舅

微微的风
2024-05-11 20:06:17
美国海军领先中国150年,055大驱造一万艘也没用,我们是在吹牛?

美国海军领先中国150年,055大驱造一万艘也没用,我们是在吹牛?

星辰故事屋
2024-04-14 15:56:15
东莞这家五星级国际大酒店再拍卖,2人竞拍,却以底价1.76亿成交

东莞这家五星级国际大酒店再拍卖,2人竞拍,却以底价1.76亿成交

天天话事
2024-05-13 22:03:51
凭啥优待大连英博?足协如重罚青岛海牛空场,将引发新的不公

凭啥优待大连英博?足协如重罚青岛海牛空场,将引发新的不公

足球大腕
2024-05-14 09:58:30
变态、偷拍、性侵,一部大尺度竟弄哭无数人

变态、偷拍、性侵,一部大尺度竟弄哭无数人

有部电影
2024-05-13 10:27:20
江青和王洪文合影照,两人在一起笑容满面,关系紧密

江青和王洪文合影照,两人在一起笑容满面,关系紧密

历史控
2024-05-04 23:54:43
曝华为Mate70系列性能将重回第一梯队 直面iPhone16

曝华为Mate70系列性能将重回第一梯队 直面iPhone16

手机中国
2024-05-13 06:58:06
安徽画家关玉梅被执行死刑前,拒绝吃断头饭,行刑时已四肢瘫软

安徽画家关玉梅被执行死刑前,拒绝吃断头饭,行刑时已四肢瘫软

一个人讲故事
2024-05-05 21:46:11
汪小菲马筱梅新加坡被偶遇,两人走路带风显霸气!大S夫妇无法比

汪小菲马筱梅新加坡被偶遇,两人走路带风显霸气!大S夫妇无法比

琪琪侃娱
2024-05-13 14:58:43
恭喜张庆鹏!天津或3换1顶薪报价,国手级别后卫,冲击季后赛

恭喜张庆鹏!天津或3换1顶薪报价,国手级别后卫,冲击季后赛

条条爱侃球
2024-05-13 23:48:11
预警!后日16号新一轮寒潮来袭!大雨暴雨分布如下!冷夏确定?

预警!后日16号新一轮寒潮来袭!大雨暴雨分布如下!冷夏确定?

小毅讲历史
2024-05-14 09:57:25
私人影院暗藏服务,大尺度被曝光,老板:亲嘴、摸胸都是学生妹

私人影院暗藏服务,大尺度被曝光,老板:亲嘴、摸胸都是学生妹

看晓天下事
2024-04-11 15:31:33
马斯克:低生育率是文明衰落重要原因,对中国人不生孩子深表关切

马斯克:低生育率是文明衰落重要原因,对中国人不生孩子深表关切

大风文字
2024-05-10 12:05:45
2024-05-14 11:46:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
8985文章数 141903关注度
往期回顾 全部

科技要闻

OpenAI再压谷歌,最强模型GPT-4o免费发布

头条要闻

知情人:美政府已发出信号 对华加征关税不带光伏设备

头条要闻

知情人:美政府已发出信号 对华加征关税不带光伏设备

体育要闻

戈登,这次我能拿10分了吗?

娱乐要闻

《歌手》引爆全网,众多歌手请战!

财经要闻

日元狂贬!日本央行终于出手

汽车要闻

不到十万纯电SUV 比亚迪元UP主打一个卷

态度原创

房产
亲子
时尚
公开课
军事航空

房产要闻

最新,海口丁村城市更新又有大动作!

亲子要闻

近视青控片,明月轻松控Pro成唯一多次上榜央视品牌

年过四十岁的女人,别只会穿牛仔裤,换成这4种“裙子”更美

公开课

父亲年龄越大孩子越不聪明?

军事要闻

普京提名原副总理别洛乌索夫担任俄国防部长

无障碍浏览 进入关怀版