网易首页 > 网易号 > 正文 申请入驻

史上最佳成绩,腾讯微视BLENDer模型登顶权威榜单VCR

0
分享至

机器之心原创

作者:蛋酱

一举刷新单、多模型史上最佳成绩,BLENDer 是怎么做到的?

2020 年 11 月 19 日,腾讯微视「BLENDer」模型凭借「81.6,86.4,70.8」的成绩,登上了多模态领域权威榜单 VCR 的榜首。

这项最新成果来自腾讯微视视频理解团队。在这个之前,榜单的纪录保持者是百度、微软、Facebook 等知名机构。

BLENDer(BimodaL ENcoDer)创造了 VCR 排行榜的单 / 多模型最佳成绩,而提交模型的出发点仅是验证团队的多模态算法。

什么是 VCR ?

当人们谈到「腾讯微视」,或许想到的是一款「短视频 App」,它经常出现在微信朋友圈里,同时也是很多人的装机必备软件……

既然是视频业务,就肯定会涉及到内容审核、内容创作等,视觉常识推理(Visual Commonsense Reasoning,VCR)解决的就是让机器「秒懂内涵」的问题。所以,在走近腾讯微视技术团队之前,更应该深入了解一下 VCR 这个任务。

2018 年,来自华盛顿大学和艾伦人工智能研究所的 Rowan Zellers、Yonatan Bisk、Ali Farhadi、Yejin Choi 四位学者联合发起了一项 VCR 任务,该数据集包括 11 万个电影场景中的 29 万个多项式选择题,是当前图像理解和多模态领域层次最深、门槛最高的任务之一。

VCR 任务包括问答 (question answering) 和解释 (rationale) 两个子任务。在问答子任务上,计算机需要结合问题(如图中人物动作、意图等)和与问题相关的图片进行理解,通过四选一进行回答;在解释子任务上,计算机需要在此基础上通过四选一给出第一部分答案的解释。

以下图为例,模型需要回答两轮问题。两道题都答对,才能获得最终得分。

第一个问题:为什么 person 4 要指向 person 1?

正确答案是,person 4 在告诉 person 3,person 1 点了薄饼。(这对于人类来说是很容易解读的)

给出答案后,计算机还需要回答:「为什么这样判断?」比如该示例的第二道问题,正确答案是:

person 3 正在上菜,但他不知道这些食物都是谁点的。

对于人类来说,只需要看一眼图片,就能比较容易地理解出图片的内涵,比如行为、目标、精神状态,甚至人物之间的关系。但这种任务对于机器视觉系统来说是比较困难的,需要更高层次的认知和常识推理能力。

这项高难度任务已经吸引了微软、谷歌、Facebook、百度等多个科技公司的团队参与。此前,这一任务的众多纪录保持者包括 ERNIE-ViL-large(15 模型集合)、UNITER-large(10 模型集合)等。

但现在最强的是 BLENDer,凭借单模型同时刷新了此前榜单上的单、多模型效果。

单模型 BLENDer 如何打榜 VCR?

BLENDer 是怎么做到的?

BLENDer 第一阶段算法模型

BLENDer 基于当前主流的 one stream 的视觉语言 BERT 模型,该模型的学习过程分为三个阶段:

第一阶段在大约 150w 对图片及其描述的样本上进行预训练,采纳了 Masked Language Modeling (MLM), Masked Region Modeling (MRM)和 Image-Text Matching (ITM)三组预训练任务,如图所示。

第二阶段在 VCR 的训练集上进行进一步的预训练,继续采用第一阶段的 MLM 和 MRM 任务。

第三阶段进行最后的 finetune,输入 VCR 提供的 question, answer 和 rationale 以及 box feature,在[CLS] token 的输出进行 Q->A 和 QA->R 的二分类。以上所有阶段的 box feature 都采用的 BUTD 算法提取的 res-101 feature,除了 flip 没有采用其他增强手段。

相比以往的参赛模型,BLENDer 加入了人物物体关系推理、噪声对抗训练以及针对性更强的 MLM,最终,BLENDer 将三项问答准确率提高到了 81.6, 86.4, 70.8 的水平,单模型表现即超越此前单、多模型效果。具体技术方案细节,团队会在近期开源相关代码、模型和文章。

腾讯微视将人工智能技术赋能短视频

一直以来,腾讯微视高度关注技术研发,腾讯微视产品也为人工智能技术落地提供了广泛的应用场景。

视频理解团队更是长期深耕多模态语义理解领域,持续进行技术突破和落地,将相关技术应用在海量图像、视频、文本等跨媒体信息的认知推理中。

同时,团队也从业务出发不断探索前沿领域,并将人工智能技术应用到短视频生态中,贯穿内容创作、内容审核以及内容分发的各个环节。

在内容创作环节,腾讯微视将 3D 人脸、人体、GAN 等 AI 技术结合 AR 技术辅助用户进行内容创作,让创作过程更加便捷、有趣和普惠;在视频审核环节,腾讯微视借助图像检测、分类、多模态理解等 AI 技术精准识别视频内容,提升审核效率,使得用户生产的内容最快时间触达消费者,目前腾讯微视内容处理效率已经持平业界领先水平;而在视频分发环节,腾讯微视借助 AI 技术从非结构化的图像、音频、文本数据中提取结构化信息输出,如标签、特征等,支撑分发精准匹配用户。

未来,人工智能将具备更加多元、深度的交流学习能力,而技术的创新和精进将进一步推动 AI 技术在短视频业务中智能交互场景的落地。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《哈利波特》主演现状:男主被遗忘,赫敏仍貌美如花,他成了赢家

《哈利波特》主演现状:男主被遗忘,赫敏仍貌美如花,他成了赢家

冷紫葉
2026-03-09 13:17:52
中国为何突然掌握航发密码?一片叶片落地,全球格局开始改写

中国为何突然掌握航发密码?一片叶片落地,全球格局开始改写

铜臭的历史味
2026-03-10 23:51:50
2022年启用的亚洲最大丰台站,为何4年过去仍有大片区域未启用?

2022年启用的亚洲最大丰台站,为何4年过去仍有大片区域未启用?

趣味萌宠的日常
2026-03-11 00:09:06
人社部28号文第五条:视同缴费年限兜底,工龄不认也得认

人社部28号文第五条:视同缴费年限兜底,工龄不认也得认

芭比衣橱
2026-03-06 20:24:52
中方最担心的事情发生了,伊朗越过红线,秘密武器直逼以方心脏?

中方最担心的事情发生了,伊朗越过红线,秘密武器直逼以方心脏?

小兰聊历史
2026-03-10 17:09:37
1947年他带着华东野战军4个师投蒋,一生7次叛变,最后结局如何?

1947年他带着华东野战军4个师投蒋,一生7次叛变,最后结局如何?

掠影后有感
2026-03-08 10:16:51
《逐玉》注水风波升级!315评论区沦陷,网友呼吁彻查造假乱象

《逐玉》注水风波升级!315评论区沦陷,网友呼吁彻查造假乱象

萌神木木
2026-03-10 17:48:02
美国参谋长联席会议主席:美军打击伊朗地下武器库

美国参谋长联席会议主席:美军打击伊朗地下武器库

界面新闻
2026-03-10 22:11:09
利物浦耻辱夜!天价巨星全场梦游,球迷怒喷:最烂引援没有之一

利物浦耻辱夜!天价巨星全场梦游,球迷怒喷:最烂引援没有之一

澜归序
2026-03-11 05:05:19
韩媒解读平壤马拉松取消原因:担心大量外国人入境,禁用GPS功能

韩媒解读平壤马拉松取消原因:担心大量外国人入境,禁用GPS功能

杨华评论
2026-03-10 16:45:29
林徽因落选的国徽方案,网友看后感叹:审美确实一绝,但真不合适

林徽因落选的国徽方案,网友看后感叹:审美确实一绝,但真不合适

兴趣知识
2026-03-08 19:32:42
破案了!朝鲜女足罢赛真因找到,国际足联给解释,法新社仗义发声

破案了!朝鲜女足罢赛真因找到,国际足联给解释,法新社仗义发声

詹妹侃体育
2026-03-10 11:49:09
恐怖的87-2!CCTV5直播,中国女足vs中国台北冲4强,赛程有变!

恐怖的87-2!CCTV5直播,中国女足vs中国台北冲4强,赛程有变!

大秦壁虎白话体育
2026-03-11 00:33:42
连续两月暴跌,车圈恒大恐怕真要现形了,汽车行业容不得吹牛

连续两月暴跌,车圈恒大恐怕真要现形了,汽车行业容不得吹牛

柏铭锐谈
2026-03-08 23:49:55
1-1!欧冠神剧情:86分钟丢球 11.1亿豪门96分钟读秒绝平拒绝爆冷

1-1!欧冠神剧情:86分钟丢球 11.1亿豪门96分钟读秒绝平拒绝爆冷

狍子歪解体坛
2026-03-11 05:56:40
妇女节女孩买花送妈妈,父亲嫌贵大闹花店,价格公布,评论区炸锅

妇女节女孩买花送妈妈,父亲嫌贵大闹花店,价格公布,评论区炸锅

以茶带书
2026-03-09 19:10:12
工业富联2025年财报:拟分红派现194亿元 连续4年推出“百亿分红”

工业富联2025年财报:拟分红派现194亿元 连续4年推出“百亿分红”

证券时报
2026-03-10 21:55:02
伊朗德黑兰突降“黑雨”!有民众呼吸困难 喉咙刺痛

伊朗德黑兰突降“黑雨”!有民众呼吸困难 喉咙刺痛

闪电新闻
2026-03-10 19:30:10
曝俄军半道遇袭造成五百人伤亡!瑟尔斯基透露春季反攻信号

曝俄军半道遇袭造成五百人伤亡!瑟尔斯基透露春季反攻信号

项鹏飞
2026-03-10 17:25:55
娶个外国媳妇是种什么样的体验?网友:谁不喜欢美好的东西

娶个外国媳妇是种什么样的体验?网友:谁不喜欢美好的东西

另子维爱读史
2026-03-07 19:15:01
2026-03-11 07:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12467文章数 142581关注度
往期回顾 全部

科技要闻

蔚来今年要少亏150亿,冲击年度盈利

头条要闻

"一对老夫妻双双129岁相恋100年"视频引热议 当地回应

头条要闻

"一对老夫妻双双129岁相恋100年"视频引热议 当地回应

体育要闻

加兰没那么差,但鲈鱼会用吗?

娱乐要闻

《逐玉》注水风波升级!315评论区沦陷

财经要闻

“龙虾补贴”密集出炉 最高1000万!

汽车要闻

MG4有SUV衍生 上汽乘用车多款新车规划曝光

态度原创

教育
房产
本地
公开课
军事航空

教育要闻

初中竞赛题,化简,说难的建议多学学

房产要闻

信号!千亿巨头入局,三亚开启新一轮大征拆!

本地新闻

云游中国|候鸟高颜值亮相!沉浸式打卡青海湿地

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

刚说完战争很快结束 特朗普改口

无障碍浏览 进入关怀版