网易首页 > 网易号 > 正文 申请入驻

图像识别领域四大天王谁最强?谷歌实力碾压微软IBM亚马逊

0
分享至

新智元报道 来源:perficientdigital 编辑:大明、张佳 【新智元导读 】作为机器学习最热门的领域之一,图像识别是判断AI聪明与否的一个重要标准。作为主要的参与者,微软、IBM、谷歌和亚马逊在这项技术上投入巨资,那么,到底哪一家做得更好呢?研究发现,谷歌在图像识别方面取得了81.7%的准确率,仅次于人类,四家中排名第一。 机器学习最热门的领域之一是图像识别。有许多主要参与者在这项技术上投入巨资,包括微软,IBM,谷歌和亚马逊。但哪一个做得最好?
Perficient Digital的研究团队发布了一份对这四家科技巨头图像识别的研究报告。报告显示, 谷歌在图像识别方面取得了81.7%的准确率,在四家中最高; IBM在图像识别方面取得了55.6%的准确率,在四家中最低 。 本次研究涉及的图像识别引擎包括:

  • 亚马逊AWS Rekognition
  • 谷歌Vision
  • IBM Watson
  • 微软Azure Computer Vision
本次研究使用了2000张图像,分为四类:
  • 图表
  • 风景
  • 人物
  • 产品
每个图像识别引擎返回的标签总数如下:

研究团队使用两种不同的方法来评估每个引擎:
  • 来自每个图像识别引擎的标签的准确度(500个图像),称之为“准确度评估”。
  • 来自图像识别引擎的标签是否是描述每个图像的最佳匹配(2000个图像),这被称为“匹配人类描述评估”。
一、图像识别引擎标签准确度

IBM Watson:
微软Azure Computer Vision: 在所有的引擎中,我们都可以看到,它们在分配给更高置信度分数的标签上做得更好。 二、图像识别引擎与人类的想法相匹配的程度如何?
匹配人类描述评估的不同之处在于,研究人员向用户呈现了每个引擎为每个图像提供的前五个最高置信度标签,而没有告诉他们来自哪个图像识别引擎。 然后,在2000张图像中,研究人员要求用户选择并排列他们认为最能描述图像的前五个标签。与之前的数据集不同,这里的重点是最佳匹配人类的想法。这次评估的目的是看看哪个引擎最接近这一点。 对于数据,让我们从平台的平均得分开始,总计:

如图所见,“手动标记”图像的得分远高于任何引擎。这是可以预料到的,因为手动标记的标签的图像描述是准确的。 四个图像识别引擎和人类水平之间的差距非常大。值得注意的是,四个引擎中Google Vision明显性能更高,但手动标记结果的选择频率仍远高于任何引擎给出的结果。 总之,人类仍然可以比机器API更好地识别图像,并对其他人解释自己的看法。这是因为几个因素的作用,其中包括语言的特异性、具备广阔背景知识基础的引擎常常会关注对人类没有重大意义的属性,因此虽然这些属性是准确的,但人类更有可能描述他们的感受,更准确地识别图像。 下图为按图像类型分类的分数视图: 按图像类别划分很有意思。人类手动标记的标签仍是每个类别中目标最多的标签。Google Vision在四个类别中的三类中获胜,亚马逊AWS几乎没有在任何类别中占据优势。 当引擎标签的置信度为90%以上时,四个引擎中的三个得分高于人工标注标签。

三、图像识别引擎的词汇表

本研究最有趣的发现之一就是不同平台上词汇引擎的变化情况。以下是参与比较的四个平台的原始数据,以及我们的“手动标记”结果。

当然,根据图像类型不同,词汇发生变化是自然而然的事情(详细数据以下给出)。

下图为 AWS Rekognition 的结果:

Google Vision:
IBM Watson:

微软 Azure Computer Vision: 如上所见,你可能已经注意到了,我们将数据分成了一个个单词,但不少数据标签长度都不止一个单词,而且标签的平均长度会随着不同引擎发生一定程度的变化,下图所示为每个标签下的平均单词数量。

总体看来,所有的引擎距离人类描述图像的方式还有很大的距离。

其他特征:IBM Watson是“艺术家”,AWS是“时尚达人”

IBM Watson最爱五颜六色: 其API具有最独特的颜色变化组合和最多的颜色种类。 Google Vision和微软Azure Computer Vision也经常提到“黄色”,但都比不上IBM Watson的“艺术家”气息。 Microsoft Azure Computer Vision可以描述图像质量: 引擎会返回“模糊”以及“像素级”的结果。 进行时词汇: IBM Watson有112个回复以进行时“ing”结束,Amazon AWS Rekognition这样的回复结尾有62个,Microsoft Azure Computer Vision有87个,Google Vision有103个。 IBM Watson喜欢高度描述性的词语 , 并为这些词汇添加语境:pinetum(松树),牛轭(河),LED显示屏(计算机/电视),rediffusion(分布),'蔓藤花纹(装饰),'dado(骰子),'登山杖(攀登装备)。 实际上,IBM Watson在很多方面都过于极端地描述了图像。这可能导致IBM Watson面临的一些准确性上的问题。从积极方面来说,这种对高度描述性词语的关注应该使用户更容易找到与其查询请求相关的图像。 AWS Rekognition是一个“时尚达人”: 亚马逊AWS Rekognition喜欢服装。它比其他API更能识别出短裤、裤子和衬衫。 Google喜欢猫,IBM Watson喜欢狗: 谷歌更善于识别出猫的品种,IBM Watson更善于识别出狗的品种,并对它们有更具体的了解,甚至可以具体到“德国短毛指针犬”。Microsoft Azure在猫的识别上仅次于Google Vision,位居第二。

总结

很明显,Google Vision是这场比拼中的赢家,在原始精度和与人类描述图像的一致性上处于领先。

IBM Watson在测试中排名最后,但应该注意到IBM Watson在自然语言处理方面表现优异,而NLP这不是本研究的重点。它是迄今为止唯一一家为自定义NLP模型创建构建完整GUI的主要AI供应商,Watson平台不仅允许分类,还允许通过该GUI提取自定义实体。

同样令人兴奋的是,当置信度大于90%时,四个引擎中的三个引擎的原始精度得分要高于人类手动标记。 这是图像识别引擎性能和发展潜力的强有力的证明。不过,从图像识别引擎以类似人类的方式描述图像,并以此进行图像标记的表现来看,未来还有很长的路要走。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
飞机推杆都上车了,银河战舰700这内饰有点意思

飞机推杆都上车了,银河战舰700这内饰有点意思

小南看车
2026-07-03 22:25:06
夫妻一旦分房睡,结局早已注定:慢慢的,就不是一家人了

夫妻一旦分房睡,结局早已注定:慢慢的,就不是一家人了

阿凯销售场
2026-07-05 12:50:56
这5部女神为艺术献身的佳作,部部值得反复刷,错过真的要可惜

这5部女神为艺术献身的佳作,部部值得反复刷,错过真的要可惜

小微看电影
2026-07-05 12:20:18
同是穆斯林都信真主,爱吃烤肉,土耳其和阿拉伯为何相互看不顺眼

同是穆斯林都信真主,爱吃烤肉,土耳其和阿拉伯为何相互看不顺眼

孤痞野猫
2026-06-27 17:08:05
把瑜伽裤穿成日常的松弛感美女

把瑜伽裤穿成日常的松弛感美女

只要高兴就好
2026-04-13 14:30:30
女上司点名让我加班,说干不完滚蛋,我默默干完,她却从身后抱我

女上司点名让我加班,说干不完滚蛋,我默默干完,她却从身后抱我

千秋文化
2026-06-28 19:44:44
少林寺新方丈释印乐,上任才10个月,少林寺被曝一下少了800多万

少林寺新方丈释印乐,上任才10个月,少林寺被曝一下少了800多万

许三岁
2026-06-14 09:57:24
莎头败球不到24小时,恶心事频发,不止一件

莎头败球不到24小时,恶心事频发,不止一件

仙味少女心
2026-07-05 06:10:51
联合国前主席称:中国人的风俗,世界上没有一个国家能够学得来

联合国前主席称:中国人的风俗,世界上没有一个国家能够学得来

流史岁月
2026-07-03 15:00:09
总理盛赞印度移民高质量,多伦多却接连出现公共场合随地便溺

总理盛赞印度移民高质量,多伦多却接连出现公共场合随地便溺

行者聊官
2026-07-05 11:25:25
伊朗为哈梅内伊举行盛大葬礼,中俄代表站第一排,沙特不请自来

伊朗为哈梅内伊举行盛大葬礼,中俄代表站第一排,沙特不请自来

雪儿爱追剧
2026-07-05 10:14:25
多给家人吃“7月第一鲜”,一解暑热、二养肝、三祛湿,正当季

多给家人吃“7月第一鲜”,一解暑热、二养肝、三祛湿,正当季

阿龙美食记
2026-07-03 13:43:19
历史第1人!姆巴佩甩开梅西,轰世界杯淘汰赛第11球,狂刷5大纪录

历史第1人!姆巴佩甩开梅西,轰世界杯淘汰赛第11球,狂刷5大纪录

侃球熊弟
2026-07-05 07:06:30
利马:几乎所有球员都抽筋了,但没人放弃也没人主动要求下场

利马:几乎所有球员都抽筋了,但没人放弃也没人主动要求下场

懂球帝
2026-07-04 18:28:46
“摸奶子”再惹争议,OPPO的流量反噬开始了

“摸奶子”再惹争议,OPPO的流量反噬开始了

品牌头版
2026-05-13 10:18:15
WTT美国大满贯:松岛辉空4-0横扫丹麦悍将,强势晋级4强

WTT美国大满贯:松岛辉空4-0横扫丹麦悍将,强势晋级4强

俯身冲顶
2026-07-05 06:16:54
新一轮事业单位改革后,基层事业编专业技术岗不要轻易转为管理岗

新一轮事业单位改革后,基层事业编专业技术岗不要轻易转为管理岗

细说职场
2026-07-05 12:03:36
重磅!6月29日国务院发文,中小学教育迎来全面大调整

重磅!6月29日国务院发文,中小学教育迎来全面大调整

手工制作阿爱
2026-07-05 11:49:08
12306惊现“负耗时”高铁!到站比发车还早5分钟!

12306惊现“负耗时”高铁!到站比发车还早5分钟!

听心堂
2026-07-05 09:45:31
上周面试过了一个候选人,薪资也谈到58k*16了。结果背调的时候,前公司给了句:不建议录用。offer悬了,前司的离职评价真那么重要么

上周面试过了一个候选人,薪资也谈到58k*16了。结果背调的时候,前公司给了句:不建议录用。offer悬了,前司的离职评价真那么重要么

励职派
2026-07-01 22:50:59
2026-07-05 13:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15610文章数 66948关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

中国为何援助"中高收入国家"佛得角 媒体披露原因

头条要闻

中国为何援助"中高收入国家"佛得角 媒体披露原因

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

王力宏成都舞台受伤 仍然坚持三小时

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

本地
时尚
教育
健康
公开课

本地新闻

国内足球之旅?这座小城给你高分答案

伊姐周六热推:电视剧《画梦录》;电视剧《灿如繁星》......

教育要闻

义务教育年限要延长了吗?

听说少吃点能抗衰老?专家讲解!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版