网易首页 > 网易号 > 正文 申请入驻

你算个什么鸟?AI十级“找茬”选手诞生

0
分享至

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
杨净 丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI

你算个什么鸟?

面对上面这两张图,一个AI发出了灵魂拷问。

左边桃面牡丹鹦鹉,右边费氏牡丹鹦鹉

一眼识破的它早就看到左边的鸟的喙部和眼圈与右边的不一样。

不行,再来!再来看这组。(文末揭晓答案)

好,我放弃了。

这个来自浙大计算机学院和阿里安全的“找茬”选手,识别准确率达到了91.3%,已经是业内最优水平。研究成果已被多媒体国际顶会ACM MM 2021收录。

不光鸟,阿猫阿狗也能行,甚至花草植物也能行。

看看这连两张照片,吉娃娃还是英国玩具梗?

再来看这一波,羊驼还是美洲驼?驴还是骡?玫瑰还是羽衣甘蓝?

AI好眼力!那到底是如何练成的?

AI如何练就的一副好眼力?

实际上,这涉及到计算机视觉领域一个经典问题——细粒度图像识别,让AI一眼锁定类别之间的细微差异。

看起来简单,实际不简单,就比如下面左边这俩。

对于AI来说,区域注意力的定位和放大是保证识别准确率一个重要因素,此前大量基于CNN的探索发现,CNN的感受野有限,且缺乏全局依赖关系的建模能力

感受野:网络内部的不同位置的神经元对原图像的感受范围

研究人员认为,与CNN相比,图像序列化是一种全新的方式。

他们把目光转向了最近在CV领域取得了非常多研究进展的视觉Transformer(ViT)。

一开始,研究人员引入了ViT中的自注意力机制,提取图像中的长距离依赖关系。

不过ViT的感受野大小相对固定,对图像中的每个patch的关注程度没有产生区分,也就给细粒度图像识别带来了性能局限。

既然如此,那该如何让AI找准“重点”呢?

研究人员决定使用注意力权重的强度来衡量对应于原始图像的patch重要性,提出了多尺度循环注意力的Transformer(RAMS-Trans)。

它利用Transformer的自注意力机制,以多尺度的方式循环地学习判别性区域注意力。

团队成员之一,阿里安全图灵实验室算法专家炫谦介绍道:

我们方法的核心是动态patch建议模块 (DPPM)引导区域放大,以完成多尺度图像patch模块的集成。
DPPM从全局图像开始,迭代放大区域注意力,以每个尺度上产生的注意力权重的强度为指标,从全局到局部生成新的patch块。

具体来说,首先提取ViT每层的自注意力机制,并进行归一化,然后采取累乘的方式对自注意力整合。

然后,得到了整合后的自注意力均值分布矩阵,由于细粒度图像识别任务的关键因素在于局部注意力,其往往存在于图像的局部区域,如鸟的尾部、喙和蛙类的头部等。

因此研究者需要通过设定阈值的方式来“过滤”不需要的部位,增强对局部判别性区域的识别能力。

最后,研究者通过插值算法将选定的patch块放大到原图像的尺寸,通过共享参数的模型,重新进行训练,整体结构对应于文章所提的多尺度循环机制。

下图为RAMS-Trans在识别鸟类时根据注意力权重生成的注意图(attention map)。

△第二、三行分别为从原始和重新训练过的注意权重生成

扩展到更多动物身上的效果:

战绩如何?

RAMS-Trans只需要ViT本身附带的注意力权重,就可以很容易地进行端到端的训练。

实验表明,除了高效的CNN模型外,RAMS-Trans的表现比同期进行的工作更好,分别在CUB-200-2011(鸟类识别)、Stanford Dogs(狗类识别)、iNaturalist2017(动植物识别)获得SOTA。

分别达到91.3%、68.5%、92.4%的识别准确率。

在不同种类动植物的细粒度判别时,RAMS-Trans可以聚焦到类别的独特特征区域。

△第二、四、六行分别为放大到原图像尺寸的的patch块

针对不同类别识别准确率不同,甚至还有较大的区别,一作浙大博士胡云青解释道,主要有两方面的因素。

一是因为Stanford Dogs本身的类别数比其他两个数据集都要小。只有120分类(CUB是200,而iNaturaList更是达到了5089)。

类别数越多,通常意味着该数据集的细粒度问题越严重,因此RAMS-Trans在更细粒度的数据集上取得的提升相对明显。

二则因为在某个类别上大部分样本具有相似的特征,而不同种类间的狗也具有明显的判别性特征。

比如大部分博美都有相似的毛色和头型;德牧和金毛之间,人眼就可以做到明显区分。

通过消融实验发现,当分辨率为320、阈值为1.3、patch方案为DPPM、patch块大小为16x16时,模型效果最好。

接下来,团队还将在两个方面进行优化:

  • 提高定位能力。

目前,RAMS-Trans在原图上以patch为最小单位进行判别性区域定位和放大的过程,对于细粒度图像识别来说,这个较为“精细”的任务来说还是相当粗犷。

  • 动态网络的引入,包括动态训练和动态推理等。

另外,已经有了可预见的应用场景,比如野生动物保护治理、山寨商标的识别。

浙大&阿里安全

这项研究主要由浙江大学计算机学院、阿里安全图灵实验室共同完成。

其中第一作者胡云青,目前浙江大学计算机学院DMAC实验室博士在读,师从张寅教授。此外还是阿里安全图灵实验室实习生。

论文链接:
https://arxiv.org/abs/2107.08192

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海公务员录用名单火了!他们的孩子回来“为人民服务”了…

上海公务员录用名单火了!他们的孩子回来“为人民服务”了…

非虚构故事
2024-04-23 21:38:35
克里斯坦特:比赛只有18分钟很奇怪,但我们赢了

克里斯坦特:比赛只有18分钟很奇怪,但我们赢了

懂球帝
2024-04-26 06:40:12
“保密真要命”!安省夫妇喜中7000万巨奖,永远不搬家,装修厨房

“保密真要命”!安省夫妇喜中7000万巨奖,永远不搬家,装修厨房

宝哥精彩赛事
2024-04-26 11:58:11
1987年12月,英国王室晚宴上,陈冲和戴安娜王妃的罕见合影

1987年12月,英国王室晚宴上,陈冲和戴安娜王妃的罕见合影

视点历史
2024-04-25 20:36:32
富人,被割了

富人,被割了

子木聊房啊
2024-04-25 18:24:25
四川女区长被男友抽打致死,生前哀求:别打了,我再也不敢了

四川女区长被男友抽打致死,生前哀求:别打了,我再也不敢了

安妮Emotiong
2024-04-11 20:29:27
阿富汗出土的佛像

阿富汗出土的佛像

书画艺术收藏
2024-04-24 17:15:09
比恒大还大的雷区出现了,价值高达10万亿,这回许家印可不孤单了

比恒大还大的雷区出现了,价值高达10万亿,这回许家印可不孤单了

简读视觉
2024-04-13 08:40:03
美国心态炸裂!中国突然发布世界首份月球地图,这让他情何以堪!

美国心态炸裂!中国突然发布世界首份月球地图,这让他情何以堪!

户外小阿隋
2024-04-23 20:27:19
江西“准00后”任副镇长,上月刚履新!同事称她工作量很大

江西“准00后”任副镇长,上月刚履新!同事称她工作量很大

南方都市报
2024-04-26 12:12:16
《浪姐5》出事了!29岁女星「高空惨摔骨裂」 首发声逼哭粉丝

《浪姐5》出事了!29岁女星「高空惨摔骨裂」 首发声逼哭粉丝

娱乐圈酸柠檬
2024-04-26 11:23:21
韩国选举全剧终,72岁朴槿惠出山,中方收到特殊邀请,尹锡悦自救

韩国选举全剧终,72岁朴槿惠出山,中方收到特殊邀请,尹锡悦自救

朝子亥
2024-04-25 07:15:02
汉密尔顿不愿接受现实,把责任归咎于车队

汉密尔顿不愿接受现实,把责任归咎于车队

独自等待Te6O
2024-04-26 15:06:39
俄国防部副部长被抓,他是绍伊古的“老搭档”

俄国防部副部长被抓,他是绍伊古的“老搭档”

中国新闻周刊
2024-04-25 18:19:22
云南鸵鸟肉案张永明被执行死刑,临刑前拒见亲人孤身赴死

云南鸵鸟肉案张永明被执行死刑,临刑前拒见亲人孤身赴死

青丝人生
2024-04-22 20:55:08
中国之所以要跟俄罗斯走得近,有两大深层战略,事关中国全面崛起

中国之所以要跟俄罗斯走得近,有两大深层战略,事关中国全面崛起

阿胡
2024-04-25 17:04:20
2017年他花3万英镑买下1辆旧坦克,结果居然在油箱找到25公斤黄金

2017年他花3万英镑买下1辆旧坦克,结果居然在油箱找到25公斤黄金

梦里大唐
2024-04-25 17:52:24
“可惜了这么高的颜值”,女网红考北电作弊被抓,考场成破防现场

“可惜了这么高的颜值”,女网红考北电作弊被抓,考场成破防现场

妍妍教育日记
2024-04-24 13:56:38
嘉兴炒房客肠子都悔青了,嘉兴南湖区房价从19000元降至14000元

嘉兴炒房客肠子都悔青了,嘉兴南湖区房价从19000元降至14000元

有事问彭叔
2024-04-24 15:53:23
小米米家夜灯 3 上架:光敏 + 人体双传感器,售 59 元

小米米家夜灯 3 上架:光敏 + 人体双传感器,售 59 元

IT之家
2024-04-26 11:07:45
2024-04-26 17:28:49
量子位
量子位
追踪人工智能动态
9321文章数 175242关注度
往期回顾 全部

游戏要闻

魂Like不存在了?宫崎英高采访爆典:我们没定义过魂系游戏

头条要闻

财政局副局长向县委书记行贿10万美元 3月后升任局长

头条要闻

财政局副局长向县委书记行贿10万美元 3月后升任局长

体育要闻

库里当选最佳关键球员 10项数据联盟第一

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

24年后再产纯净水 农夫山泉为何要打自己脸

科技要闻

中国车企“五常”激战北京车展

汽车要闻

2024北京车展 比亚迪的自驱力让对手紧追猛赶

态度原创

房产
家居
旅游
健康
教育

房产要闻

涉及黄埔、番禺、增城!广州新一轮大规模征地启动

家居要闻

光影之间 空间暖意打造生活律动

旅游要闻

白俄,中国人的快乐福地?

这2种水果可降低高血压死亡风险

教育要闻

高考重大改革!“985”、“211”时代终结,“101计划”时代全面到来!

无障碍浏览 进入关怀版