网易首页 > 网易号 > 正文 申请入驻

斯坦福大学李飞飞团队新作:孪生掩码自编码器SiamMAE,刷榜视觉自监督方法

0
分享至

新智元报道

编辑:LRS

【新智元导读】只需一个简单操作扩展MAE,即可实现自监督学习新sota!

在计算机视觉领域,想要建立图像和场景(scene)之间之间的对应关系是一项比较困难的任务,尤其是在存在遮挡、视角改变或是物体外观发生变化的情况下。

最近,斯坦福大学李飞飞团队对MAE进行扩展,提出了孪生掩码自编码器SiamMAE(Siamese Masked Autoencoders)以学习视频中的视觉对应关系。

论文链接:https://siam-mae-video.github.io/resources/paper.pdf

先随机采样两个视频帧,并进行非对称掩码操作;然后SiamMAE编码器网络对两个帧进行独立处理,最后使用交叉注意层组成的解码器来预测未来帧(future frame)中丢失的图像块。

通过对未来帧中的大部分(95%)图像块进行掩码,同时保持过去帧(past frame)图像不变,SiamMAE促使网络专注于物体运动,并学习以物体为中心的表征。

尽管整个网络的设计概念比较简单,但通过SiamMAE学习到的特征在视频物体分割、姿势关键点传播和语义部分传播任务上都优于最先进的自监督方法。

SiamMAE在不依赖于数据增强、基于手工跟踪的前置任务或其他技术来防止表征崩溃的情况下,实现了非常有竞争力的性能。

孪生掩码自编码器

研究人员的目标是开发一种自监督的方法来学习对应关系,主要是将掩码自编码器(MAE)模型扩展到视频数据中。

Patchify

给定具有L帧的视频剪辑,首先随机采样两个视频帧,两帧之间的距离通过从预定的potential frame gaps范围中选择一个随机值来确定。

与原始ViT模型类似,通过将每个帧转换为一系列不重叠的N×N个patch来拼接视频帧。

最后,把位置嵌入加到线性投影上,并附加一个[CLS]标记,需要注意的是没有使用时序位置嵌入。

Masking

像图像和视频这样的自然信号是高度冗余的,分别表现为空间和时空上的冗余。

为了创造一个具有挑战性的预测性自监督学习任务,MAEs随机掩码了75%的图像patch,视频数据的掩码率提升到90%,并且对每帧都使用相同的掩码率。

这种设计可以使网络无法利用和学习到时间上的对应关系,避免在对应关系学习基准上达到次优性能。

研究人员认为,不对称的掩码可以创造一个更有挑战性的自监督学习任务,并且可以鼓励网络学习时间上的相关性。

所以对于采样的两个视频帧,对第一帧选择不掩码,对第二帧选择掩码95%,这样就可以将整个过去帧(entire past frame)作为输入,网络只需要将其扩散到未来中的适当位置即可,可以促进网络对物体运动进行建模并关注物体的边界。

为了进一步增加任务的难度,两个视频帧之间具有更大的时间间隔,尽管可能会导致对未来的预测变得模糊,并可能产生多种合理的结果,但为第二帧提供少量的patch作为输入,可以让网络的自监督学习变得更困难。

编码器

研究人员探索了两种不同的编码器配置来处理输入帧。

联合编码器(joint encoder)是图像MAEs在一对视频帧上的扩展,把两帧未掩码的图像patch串联起来,然后输入到标准的ViT编码器中进行处理。

孪生编码器(siamese encoder)是用于比较实体的权重共享神经网络,是对比表征学习方法的一个重要组件,用于对应学习(corresponding learning)时通常需要一些信息瓶颈来防止网络学习的解决方案,如使用颜色通道dropout来迫使网络避免依赖颜色来匹配对应关系。

在这篇论文中,研究人员使用孪生编码器来独立处理两幅图像,使用非对称掩码作为信息瓶颈。

解码器

编码器的输出通过线性层进行投影,并加入带有位置嵌入的[MASK] token,以生成对应于输入帧的所有token

研究人员探索了三种不同的解码器配置:

联合解码器(joint decoder)在两帧的token串联上使用原版Transformer模块,其主要缺点是对GPU内存的需求大幅增加,特别是在使用较小的patch尺寸时。

交叉自解码器(cross-self decoder)与原版Transformer模型的编码-解码器设计类似,每个解码器块由一个交叉注意力层和一个自注意力层组成,来自第二帧的token通过交叉注意力层与第一帧的token进行注意力操作,然后通过自注意力层进行相互融合。

可以注意到,交叉注意力层在功能上类似于自监督对应学习方法中经常使用的affinity矩阵。

交叉解码器(cross decoder)由交叉注意力层的解码器块组成,其中来自第二帧的token与来自第一帧的token进行注意力操作。

最后,解码器的输出序列被用来预测掩码图像块中的归一化像素值,在解码器的预测和真实值之间使用L2损失。

实验结果

视频物体分割

在多物体分割基准数据集DAVIS 2017上,使用480p分辨率的图像对模型进行评估。

实验结果可以发现SiamMAE明显优于VideoMAE(从39.3%提升到62.0%),研究人员将其归因于VideoMAE中使用了tube掩码方案,使得模型无法学习时间上的对应关系。

与DINO类似,研究人员也发现降低patch的尺寸会带来明显的性能提升。

并且文中使用的ViT-S/8(+9.4%)模型优于之前所有的对比学习和自监督的对应学习方法。

还可以注意到尽管较大的MAE-ST模型(ViT-L/16,304M参数)在随机掩码的情况下比VideoMAE表现更好,但其性能仍然落后于SiamMAE相当多。

而且在视频上训练的MAE与图像MAE的表现相似,视频与图像的不同之处在于,图像是(近似)各向同性的,时间维度是特殊的,并不是所有的时空方向都是同等可能的。

因此,对称地处理空间和时间信息可能是次优的。

视频部分分割(Video Part Segmentation)

在视频实例解析(Video Instance Parsing, VIP)基准上对SiamMAE进行评估,该基准包括为20个不同的人体部位传播语义掩码。

与评估的其他数据集相比,VIP特别具有挑战性,因为包括更长的视频(最长120秒)。

与先前工作类似,使用560×560的图像和单一背景帧进行评估后,可以发现ViT-S/8模型性能大大超越了DINO (从39.5提升到45.9)。

SiamMAE从更小的patch尺寸中,比DINO受益更多,实现了+8.6的mIoU评分,比DINO的+3.3 mIoU有所提高。

SiamMAE也优于之前所有的对比学习和自监督的对应关系学习方法。

姿势追踪(pose tracking)

在关键点传播的任务上对SiamMAE进行了评估,需要传播15个关键点,并且要求空间上的精确对应关系,使用320×320的图像和一个单一的背景帧,SiamMAE的性能优于所有其他模型,并且比DINO更受益于较小的patch尺寸(+14.9到+10.9 PCK@0.1)

参考资料:

https://siam-mae-video.github.io/resources/paper.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
股价大涨6%,A股“新股王”续创新高

股价大涨6%,A股“新股王”续创新高

21世纪经济报道
2026-04-29 12:07:04
巩俐巴黎街头与丈夫争执摔花,77岁老公一个摸头杀,全网破防

巩俐巴黎街头与丈夫争执摔花,77岁老公一个摸头杀,全网破防

茶余饭好
2026-04-27 20:20:50
“穷人炫富,难掩心酸!”男大学生炫耀坐高铁一等座,因长相被嘲

“穷人炫富,难掩心酸!”男大学生炫耀坐高铁一等座,因长相被嘲

妍妍教育日记
2026-04-24 09:05:03
Manus,彻底凉凉了

Manus,彻底凉凉了

技术领导力
2026-04-27 20:37:27
破案了!杜锋为何赛后赶紧跑回更衣室原因找到,球迷点评一针见血

破案了!杜锋为何赛后赶紧跑回更衣室原因找到,球迷点评一针见血

南海浪花
2026-04-29 10:52:42
单依纯演唱会氛围诡异,穿的像马桶刷,歌曲独白疑暗怼硬刚李荣浩

单依纯演唱会氛围诡异,穿的像马桶刷,歌曲独白疑暗怼硬刚李荣浩

一娱三分地
2026-04-28 19:26:23
鄭欣宜激瘦正式復工,《歌手2026》首張名單出爐莫文蔚有名

鄭欣宜激瘦正式復工,《歌手2026》首張名單出爐莫文蔚有名

粤睇先生
2026-04-28 20:50:27
尼日尔撕毁4亿美元合同,并驱逐中方高管,我方暗藏后手漂亮反击

尼日尔撕毁4亿美元合同,并驱逐中方高管,我方暗藏后手漂亮反击

诡谲怪谈
2025-04-30 22:17:42
张雪:中国摩托未来必将取代日本品牌

张雪:中国摩托未来必将取代日本品牌

第一财经资讯
2026-04-28 00:20:45
5月1日起北京禁飞禁售无人机,大疆在京门店今日将下架相关产品

5月1日起北京禁飞禁售无人机,大疆在京门店今日将下架相关产品

界面新闻
2026-04-29 13:43:41
上海地铁不挤了,人都走了?最新数据揭示人口结构大调整!

上海地铁不挤了,人都走了?最新数据揭示人口结构大调整!

观察眼看世界
2026-04-29 11:02:35
国家动真格!283个县先行先试,农村即将迎来翻天覆地大变化

国家动真格!283个县先行先试,农村即将迎来翻天覆地大变化

混沌录
2026-04-28 22:08:07
今天是上海40年来四月下旬最冷的一天,“五一”天气会好吗?

今天是上海40年来四月下旬最冷的一天,“五一”天气会好吗?

澎湃新闻
2026-04-29 18:56:29
教育迎来大洗牌!9月全国统一执行,中小学彻底变天

教育迎来大洗牌!9月全国统一执行,中小学彻底变天

户外阿毽
2026-04-26 18:19:14
英姿飒爽!刘诗雯出发伦敦世乒赛,朱雨玲官宣竞选国际乒联新职位

英姿飒爽!刘诗雯出发伦敦世乒赛,朱雨玲官宣竞选国际乒联新职位

老王大话体育
2026-04-29 16:34:02
鲁尼:恩里克是顶级教头,5-2领先还在大举压上争取更多进球

鲁尼:恩里克是顶级教头,5-2领先还在大举压上争取更多进球

懂球帝
2026-04-29 10:22:08
普京想不到!就连马克龙也想不到!特朗普居然承认:放弃全球霸权

普京想不到!就连马克龙也想不到!特朗普居然承认:放弃全球霸权

安安说
2026-04-28 10:57:18
29日斯诺克世锦赛赛程表出炉!赵心童冲击4强,吴宜泽冲赛点!

29日斯诺克世锦赛赛程表出炉!赵心童冲击4强,吴宜泽冲赛点!

墨史轩
2026-04-29 10:40:02
中央5台直播乒乓时间表:4月29日CCTV5+转播国乒!王楚钦莎莎备战

中央5台直播乒乓时间表:4月29日CCTV5+转播国乒!王楚钦莎莎备战

阿晞体育
2026-04-29 08:27:56
格力集团原董事长周乐伟主动投案,涉嫌严重违纪违法被查

格力集团原董事长周乐伟主动投案,涉嫌严重违纪违法被查

界面新闻
2026-04-29 12:55:05
2026-04-29 20:31:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15092文章数 66818关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

中国被指要暂停硫酸出口 海外慌了:没有可替代来源

头条要闻

中国被指要暂停硫酸出口 海外慌了:没有可替代来源

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

房产
教育
旅游
时尚
数码

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

教育要闻

付出一点就指望孩子感恩,别把亲子关系处成一场交易!

旅游要闻

郑州二七纪念馆:五一假期对外开放

除了“薄底鞋”,今年最流行这5双鞋,怎么搭都好看!

数码要闻

三星Galaxy Book 6 Edge笔记本发布:16英寸屏幕、厚12.3毫米

无障碍浏览 进入关怀版