网易首页 > 网易号 > 正文 申请入驻

MASA:彻底改变玩法,计算机视觉要洗牌了

0
分享至

导语:

1.介绍MASA的各种特点

2.通过论文,以技术的角度解释MASA的实现原理

3.对比其他方法和MASA的区别

4.MASA目前的问题所在

在计算机视觉领域,想要识别和追踪某一个物体,就必须要对其进行标注。而在2024年6月,一项名为MASA的技术点燃了整个计算机视觉圈子,它无需依赖特定领域的标注数据,能够在多样化的领域中实现对任何物体的匹配。

MASA的全称叫做Matching Anything by Segmenting Anything,翻译过来是通过切割万物来追踪万物。在多个具有挑战性的多目标跟踪(MOT)和视频目标分割(MOTS)基准测试的广泛测试表明,MASA仅使用未标记的静态图像,其性能就可以超越使用完全注释的领域内视频序列训练的最先进方法,实现了零样本关联。在这个基础上,MASA还能通过联合训练策略,不仅学习了对象的先验知识,还提高了跟踪特征的泛化能力。

MASA在视频中追踪多个目标

MASA在视频中追踪多个目通俗来说,MASA就好像是班里的天才学生,它学习的时间比其他同学要少,也不需要任何课外补习班,考试成绩却永远是第一名,哪怕是没有见过的题目,依然能够给出正确的答案。

MASA是怎么来的?

在理解MASA之前,需要先理解什么是“切割万物”。这是一个用来进行图像分割的模型,叫做SAM(Segment Anything Model,切割万物模型)。它能够对图像中的各种物体进行精细的检测和分割。这个模型由三个主要模块组成:首先是图像编码器,它使用基于ViT(Vision Transformer)的重型骨干网络来提取图像特征;其次是提示编码器,用于处理来自交互式点、框或掩码提示的位置信息;最后是掩码解码器,这是一个基于Transformer的解码器,它接收图像嵌入和提示令牌,以生成最终的掩码预测。

MASA的整体运行流程

SAM采用密集采样的规则网格作为点锚,并为每个点提示生成掩码预测。整个流程包括使用贪婪的基于框的非极大值抑制(NMS)、三步过滤和对掩码的重度后处理。整个过程在论文中被称作是“SAM的万物模式”(SAM's everything mode)。这种模式使得SAM能够对输入图像中的所有潜在对象进行详尽的探索和分割,从而输出大量的掩码提案。

将SAM的输出视为密集的对象区域提案,并学习从庞大的图像集合中匹配这些区域。接着,对这些对象区域提案应用不同的几何变换,如旋转、缩放、翻转等,以模拟视频中对象的外观变化。这样做可以自动获得像素级别的对应关系,为后续的实例级对应关系学习提供数据支持。通过对比学习公式,学习区分相同实例和不同实例的判别性嵌入空间。这一步骤是通过最大化正样本的相似度和最小化负样本的相似度来实现的。

接下来轮到MASA适配器(MASA Adapter)登场了,在计算机视觉和深度学习领域,适配器可能被用来将一个预训练的模型适配到特定的任务或数据集上。而MASA适配器,它被设计为一种通用组件,可以与现有的开放世界分割和检测基础模型(如SAM、Detic、Grounding-DINO等)结合使用。MASA适配器的作用是提升这些模型的跟踪能力,使它们能够跟踪检测到的任何对象。它通过转换这些模型冻结的特征来实现这一点,以便学习更具判别性的实例外观表示。

在训练过程中,MASA方法还包括一个多任务训练管道,该管道同时执行SAM检测知识的蒸馏和实例相似性学习,以提高跟踪特征的泛化能力,进而显著提升SAM的“万物模式”的效率。在推理阶段,MASA适配器与对象检测器结合使用,检测器负责预测边界框,而MASA适配器则利用这些边界框作为提示,提取相应的跟踪特征,以实现实例匹配。

MASA完整的训练过程

综上,MASA的原理是就像是一位经验丰富的侦探,它利用SAM这副“放大镜”来仔细查看图像中的每一个角落,找出所有的线索(即对象区域)。然后,这位侦探通过不断学习和比较这些线索的特点,锻炼出了敏锐的洞察力,即使在没有任何预先标记的案件档案(视频数据)的情况下,也能够追踪到罪犯(跟踪物体)。这样,无论是在熟悉的街道还是陌生的城市,MASA都能够凭借它的这项技能,成功地追踪到目标。

MASA到底好在哪了?

如果MASA能被应用到当下视频软件中,那么很有可能改写如今的局面。目前来看,企业做目标检测、追踪,主要是利用深度神经网络对图像进行编码和分析,以实现目标的检测和跟踪。常见的深度学习方法包括卷积神经网络(CNN)和生成对抗网络(GAN)。这些方法具有强大的特征学习和分类能力,但需要大量的标注数据进行训练,并且计算复杂度高。

除此之外,还有OpenTrack和Unicorn这两个方法。OpenTrack则以其在开放词汇MOT任务上的适应性而闻名,它能够使用来自LVIS的频繁和常见类别注释进行训练,并将罕见类别视为新类。Unicorn的方法在处理遮挡问题时表现出色,它通过图层次结构统一短期和长期跟踪,这在有遮挡的场景中尤其有用。

但是从推理、训练和性能上来看,MASA甩开其他方法一大截。而且MASA还有一个非常重要的特点,便于部署。

首先,作为一个不依赖于特定领域标注数据的解决方案,MASA可以在没有详尽标注的情况下跨不同领域进行对象跟踪,这大大减少了部署前所需的准备工作。其次,MASA适配器的设计允许它与现有的检测或分割模型结合使用,这意味着可以轻松地将MASA集成到现有的系统中。

可想而知,MASA不像其他的技术那样,只能活在实验室或者论文里,它从出生开始就是为了商业落地而准备的。

其实MASA还存在一些问题

MASA很好,不过它还可以更好。任何技术在落地的时候都需要考虑其商业价值,因此改进模型的鲁棒性和准确性,特别是在处理复杂场景和动态环境中的跟踪问题时,就是MASA在商业应用阶段最需要考虑的问题。多目标检测在实战中总能碰到诸如阴阳脸、遮挡、低分辨率、数据不平衡等等问题,MASA需要做出一些改进,以应对这些可能发生的问题。

同时,因为MASA是一个大模型,如果打算将MASA与一些实时应用进行结合,那就需要进一步优化计算效率,减少资源消耗。再加上模型端侧化的趋势,MASA可能需要考虑怎样部署在资源受限的环境中。在论文中,MASA仅支持一些生活中常见的事物。然而考虑到实际使用场景,比如生物识别、机器人导航、自动驾驶等,那还需要扩展模型的能力,以处理更多类型的对象。

还有一点,MASA应该加强与其他计算机视觉任务的融合,如目标检测、分割、姿态估计等,提供更全面的视觉理解和分析。以姿态估计为例,这是指识别图像中人体的各个部位及其位置,MASA目前并不具备这个能力。但是MASA可以通过提供有关物体形状和位置的详细信息,辅助姿态估计任务。

此外,如果想把MASA应用在医学、金融、法律、安全这些领域,那么还得探索模型的可解释性和透明度,增强客户对模型决策过程的信任。不过这点对于大模型来说,反而是最难的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
明朝“最懒”的对联:上联和下联一字不差,却成千古绝对流传至今

明朝“最懒”的对联:上联和下联一字不差,却成千古绝对流传至今

铭记历史呀
2026-02-03 16:11:20
特朗普强调自己清白,马斯克暗示克林顿等人“有罪”,全球多名权势人物被曝与爱泼斯坦关系密切

特朗普强调自己清白,马斯克暗示克林顿等人“有罪”,全球多名权势人物被曝与爱泼斯坦关系密切

新民周刊
2026-02-02 16:14:18
贵阳男子花40多万买理想SUV,开了没多久三个车门饰板全变色!4S店回应

贵阳男子花40多万买理想SUV,开了没多久三个车门饰板全变色!4S店回应

潇湘晨报
2026-02-03 18:01:28
重返广东队?CBA全明星内线打服胡金秋,曾是杜锋的冠军拼图!

重返广东队?CBA全明星内线打服胡金秋,曾是杜锋的冠军拼图!

绯雨儿
2026-02-03 11:28:14
1962 年朱德视察井冈山,见女团长被安排挑粪,怒责当地地委书记

1962 年朱德视察井冈山,见女团长被安排挑粪,怒责当地地委书记

磊子讲史
2026-02-03 15:52:57
湖北一老阿姨2.9元抄底*ST奥维,3.54元没卖,最终血本无归

湖北一老阿姨2.9元抄底*ST奥维,3.54元没卖,最终血本无归

财经智多星
2026-02-03 10:59:06
A股:重磅来了!十部门联合发文,AI大战一触即发,今天开始抄底?

A股:重磅来了!十部门联合发文,AI大战一触即发,今天开始抄底?

甜柠聊史
2026-02-03 09:44:58
突发!金银携手反弹,白银现货涨超10%!机构:贵金属或转入宽幅震荡,铜逻辑更优

突发!金银携手反弹,白银现货涨超10%!机构:贵金属或转入宽幅震荡,铜逻辑更优

和讯网
2026-02-03 19:34:10
具俊晔穿27年前大S送的旧物露面!悲痛吐现况「想你想到快死了」逼哭万人

具俊晔穿27年前大S送的旧物露面!悲痛吐现况「想你想到快死了」逼哭万人

ETtoday星光云
2026-02-02 22:22:03
大连交警通报:小型客车与货车相撞,造成小型客车内5名乘客当场死亡,双方驾驶员受伤

大连交警通报:小型客车与货车相撞,造成小型客车内5名乘客当场死亡,双方驾驶员受伤

环球网资讯
2026-02-03 19:13:08
人不会无故大脑萎缩!医生提醒:大脑萎缩的人,多半有这些习惯

人不会无故大脑萎缩!医生提醒:大脑萎缩的人,多半有这些习惯

蜉蝣说
2026-01-29 15:15:16
杜兰特加盟火箭最大受害者!KD缺阵时场均24+9+5,带队3战全胜!

杜兰特加盟火箭最大受害者!KD缺阵时场均24+9+5,带队3战全胜!

你的篮球频道
2026-02-03 12:00:03
中日交恶80天后,高市痛哭流涕,中方停止仁慈,董军已通知俄罗斯

中日交恶80天后,高市痛哭流涕,中方停止仁慈,董军已通知俄罗斯

boss外传
2026-02-02 12:00:05
中方发声强烈谴责瓜达尔港袭击事件:对遇难者表示深切哀悼,中方将一如既往坚定支持巴方打击恐怖主义

中方发声强烈谴责瓜达尔港袭击事件:对遇难者表示深切哀悼,中方将一如既往坚定支持巴方打击恐怖主义

扬子晚报
2026-02-03 17:14:22
仗打了一千多天后,美国才后知后觉发现不对劲:中国三年前的抉择竟早已是正确答案!

仗打了一千多天后,美国才后知后觉发现不对劲:中国三年前的抉择竟早已是正确答案!

源溯历史
2026-01-13 23:29:12
调研| 中国变压器出口激增36%受益核心股梳理!

调研| 中国变压器出口激增36%受益核心股梳理!

新浪财经
2026-02-02 22:43:19
中央军委全力反腐败,说明中国人民解放军将要担大任,干大事!

中央军委全力反腐败,说明中国人民解放军将要担大任,干大事!

安安说
2026-01-29 09:33:17
大胜53分!登顶联盟第一!历史级烂队正式崛起

大胜53分!登顶联盟第一!历史级烂队正式崛起

篮球教学论坛
2026-02-03 10:52:52
机构:变压器出口有望量价齐升

机构:变压器出口有望量价齐升

证券时报
2026-02-03 09:03:16
又一“俄罗斯英雄”毙命沙场,俄退役军人沦为社会安全重大隐患

又一“俄罗斯英雄”毙命沙场,俄退役军人沦为社会安全重大隐患

史政先锋
2026-02-03 20:00:14
2026-02-03 22:51:00
数据猿DataYuan incentive-icons
数据猿DataYuan
数据智能产业创新服务媒体
2630文章数 602关注度
往期回顾 全部

科技要闻

1.25万亿美元!xAI员工赢麻了

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

头条要闻

挪威王储妃给爱泼斯坦发暧昧邮件:你让我兴奋

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

大S逝世一周年 S家没通知大S子女惹争议

财经要闻

中央一号文件:扎实推进乡村全面振兴

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

艺术
家居
游戏
健康
公开课

艺术要闻

2026年,中国最值得期待的20个新建筑

家居要闻

极简木艺术 典雅自在

LPL第一赛段:晚节不保,让一追二,JDG三局战胜IG

耳石症分类型,症状大不同

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版