网易首页 > 网易号 > 正文 申请入驻

ECCV 2024 | 让AI更懂物理世界!人大、北邮等联合提出多模态分割新方法

0
分享至

来源:人工智能前沿讲习

编辑:硕博生活圈

论文标题:Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

论文链接:

https://arxiv.org/abs/2407.10957

代码链接:

https://gewu-lab.github.io/Ref-AVS/

举个例子,在下面这张图中,机器如何准确定位真正在演奏乐器的人?

搞单打独斗肯定不行,但这正是已有研究正在做的(各自从视觉、文本和音频线索的角度出发):

  • 视频对象分割(VOS,Video Object Segmentation):通常以第一帧中的对象掩码作为参考,指导后续帧中特定对象的分割(严重依赖于第一帧的精确标注);

  • 视频对象参考分割(Ref-VOS,Referring Video Object Segmentation):基于自然语言描述分割视频中的物体,取代了 VOS 中的掩码标注(虽然更易于访问,但能力有限);

  • 视听分割(AVS,Audio-Visual Segmentation):以音频为指导来分割视频中发声的物体(无法应对不发声的物体);

而新方法 Ref-AVS,整合了多个模态(文本,音频和视觉)之间的关系来适应更真实的动态视听场景。这下,同时在唱歌和弹吉他的人也能被轻松找到了。

且同一段素材还能拿来反复用,找出正在发声的吉他也不在话下。

与此同时,研究人员构建了一个名为 Ref-AVS Bench 的数据集,并设计了一个端到端框架来高效处理多模态线索。具体详见下文。

构建了数据集Ref-AVS Bench

概括而言,数据集 Ref-AVS Bench 共有 40020 个视频帧,包含 6888 个物体和 20261 个指代表达式(Reference Expression)。每个数据都包含与视频帧对应的音频,并提供逐帧的像素级标注。为了确保所指代对象(Object)的多样性,团队选择了包含背景的 52 个类别, 其中 48 个类别的可发声物体,以及 3 个类别的静态、不可发声物体。

在视频收集过程中,所有视频均来自油管并截取 10 秒。在整个手动收集过程中,团队刻意避免以下情况的视频:a) 包含大量相同语义实例的视频;b) 有大量编辑和相机视角切换的视频;c) 包含合成创作的非现实视频。同时,为了提高与真实世界分布的一致性,团队挑选了有助于数据集内场景多样化的视频。 比如涉及多个对象(如乐器、人、车辆等)之间交互的视频。

另外,表达式(Expression)的多样性是 Ref-AVS 数据集构建的核心要素之一。除去本身固有的文本语义信息,表达式还由听觉、视觉和时间三个维度的信息组成。听觉维度包含音量、节奏等特征,而视觉维度则包含物体的外观和空间等属性。

团队还利用时间线索来生成具有时序提示的引用,例如“先发出声音的(物体)”或“后出现的(物体)”。通过整合听觉、视觉和时间信息,研究设计出丰富的表达式,不仅可以准确反映多模态场景,还可以满足用户对精确引用的特定需求。

而且,表达式的准确性也是一个核心关注点。研究遵循三个规则来生成高质量的表达式:

1)唯一性:一个表达式所指代的对象必须是唯一的,不能同时指代多个对象。

2)必要性:可以使用复杂的表达式来指代对象,但句子中的每个形容词都应该缩小目标对象的范围,避免对所要指代的对象进行不必要和冗余的描述。

3)清晰度:某些表达模板涉及主观因素,例如“声音更大的__”。只有在情况足够清晰时才应使用此类表达,以避免产生歧义。

团队将每段 10 秒的视频分成十个相等的 1 秒片段,利用 Grounding SAM 来分割和标记关键帧,随后要求标注员手动检查和更正这些关键帧。此过程使团队能够在关键帧内为多个目标对象生成掩码和标签。一旦确定了关键帧的掩码,研究就会应用跟踪算法来跟踪目标对象,并在 10s 的跨度内获得目标对象的最终掩码标签 (Ground Truth Mask)。

到了数据分割与统计,测试集中的视频及其对应的注释会经过训练过的标注人员的细致审查和校正。为了全面评估模型在 Ref-AVS 任务中的表现,测试集进一步被划分为三个不同的子集。

具体而言,三个测试子集包括:

  • 已见子集 (Seen):包括那些在训练集中出现过的物体类别,建立该子集的目的是评估模型的基本性能。

  • 未见子集 (Unseen):专门用于评估模型在未见音视频场景中的泛化能力。

  • 空指代子集 (Null):测试模型对空引用的鲁棒性,即表达式与视频中的任何对象都不相关。

具体咋实现的?

完成了数据集准备后,团队利用多模态线索来增强表达式指代能力(Expression Enhancing with Multimodal Cues, EEMC),以实现更好的视听指代分割。

具体而言,在时序双模态融合(Temporal Bi-Modal Transformer)模块中,团队将包含时序信息的视听模态信息(FV, FA)分别与文本信息 FT 进行融合。

注意, 为了让模型更好的感知时序信息,研究提出了一种直观的 Cached memory 机制(CV,CA )。

Cached memory 需要存储从开始到当前时刻的时序平均模态特征,以捕捉时序变化中多模态信息的变化幅度。多模态特征(QV, QA)计算方式如下:

其中, 表示时序中的特定时间步, 则是一个可调节的超参数用于控制时序过程中模型对特征时序变化的敏感度。当此刻的音频或视觉特征与过去特征的均值相比变化不大时,输出的特征保持几乎不变。

然而,当变化较为明显时,cached memory 可以放大当前特征的差异,从而产生具有显著特征的输出。此后,拼接的多模态特征被送入 Multimodal Integration Transformer 模块中进行多模态融合,产生包含多模态信息的指代表达式的最终特征(QM)作为掩码解码器的输入。

掩码解码器是一个 Transformer 架构的分割基础模型如 MaskFormer,Mask2Former 或者 SAM。团队选择 Mask2Former 作为分割基础模型,将其预训练的 mask queries 作为 ,将多模态指代表达式特征作为 和 。经过一个 cross-attention transformer(CATF)将多模态指代表达式特征迁移到 mask queries 中,从而实现让分割基础模型根据多模态特征进行分割。

实验结果

在定量实验中,团队将研究提出的基线方法与其它方法进行对比,且为了公平补充了其他方法缺失的模态信息。在 Seen 子集上的测试结果显示,新方法 Ref-AVS 超越了其它方法的性能。同时在 Unseen 子集和 Null 子集上,Ref-AVS 展示了可泛化性,并且可以准确地跟随指代表达。

在定性实验中, 团队在 Ref-AVS Bench 测试集上对分割掩码进行可视化,并与 AVSegFormer 和 ReferFormer 进行比较。

结果显示,ReferFormer 在 Ref-VOS 任务中的表现以及 AVSegFormer 在 AVS 任务中的表现都未能准确分割出表达中描述的对象。

具体来说,AVSegFormer 在理解表达时遇到困难,往往直接生成声音源。例如,在左下角的样本中,AVSegFormer 错误地将吸尘器分割为目标,而不是男孩。另一方面,Ref-VOS 可能无法充分理解音频-视觉场景,因此误将幼童识别为钢琴演奏者,如右上角的样本所示。 相比之下,Ref-AVS 方法展现了更出色的能力,能够同时处理多模态表达和场景,从而准确地理解用户指令并分割出目标对象。

未来,可以考虑更优质的多模态融合技术、模型应用的实时性以及数据集的扩展与多样化,以将多模态指代分割应用到视频分析、医疗图像处理、自动驾驶和机器人导航等挑战中。 更多详情欢迎查阅原论文。

【研路指北】交流群(知识星球)来了! 考研/保研选导策略,读研发SCI论文技巧,实习/校招就业内推码,C++高频面试题,简历指导,offer选择,优秀开源项目 ,欢迎扫描下方二维码,研路指北交流群!

第一时间获取干货资讯

本硕博学习工作生活群

【谷歌Hub】:www.google-hub.com

版权声明

本文来源:除特别注明原创授权转载文章外,其他文章均为转载,版权归原作者或平台所有,仅用于学术分享。如有侵权请联系小编删除,谢谢。编辑:公众号硕博生活圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
县道桥梁4根桥墩3根开裂?福建福鼎市交通局:2009年建成,初查主体结构正常,将养护加固

县道桥梁4根桥墩3根开裂?福建福鼎市交通局:2009年建成,初查主体结构正常,将养护加固

大风新闻
2026-01-26 12:06:03
美ICE又打死一人!医生讲述:受害者倒地无人救,特工忙着数他身上的弹孔

美ICE又打死一人!医生讲述:受害者倒地无人救,特工忙着数他身上的弹孔

红星新闻
2026-01-26 14:17:20
一家三口被撞身亡案家属称抗诉申请未通过!被告人被判死缓

一家三口被撞身亡案家属称抗诉申请未通过!被告人被判死缓

南方都市报
2026-01-26 18:18:06
全网围观,两个00后“刮腻子”一年营收100多万!没上过大学,他们的梦想是“画遍全球”

全网围观,两个00后“刮腻子”一年营收100多万!没上过大学,他们的梦想是“画遍全球”

都市快报橙柿互动
2026-01-25 19:58:42
网购百草味958克坚果礼盒只有33克坚果,大部分是饮料!律师解读

网购百草味958克坚果礼盒只有33克坚果,大部分是饮料!律师解读

中国基金报
2026-01-26 00:10:18
友尽赛!海港0-6俄超豪门 派3外援先发仍遭打爆 4天2次交手丢10球

友尽赛!海港0-6俄超豪门 派3外援先发仍遭打爆 4天2次交手丢10球

我爱英超
2026-01-26 18:13:04
房价全线下跌,这回是统计局数据

房价全线下跌,这回是统计局数据

曹多鱼的财经世界
2026-01-26 14:18:12
女明星被实名举报“插足婚姻”!

女明星被实名举报“插足婚姻”!

新动察
2026-01-26 10:45:00
暴跌14℃!雨夹雪、雪!新一轮冷空气今起影响浙江

暴跌14℃!雨夹雪、雪!新一轮冷空气今起影响浙江

鲁中晨报
2026-01-26 16:31:04
再现巨额压单!A股跳水,官媒给“题材炒作”降温,商业航天跌停潮

再现巨额压单!A股跳水,官媒给“题材炒作”降温,商业航天跌停潮

看财经show
2026-01-26 17:06:02
14岁陈佳铭已昏迷超30天,上海专家会诊后,确认无生还希望

14岁陈佳铭已昏迷超30天,上海专家会诊后,确认无生还希望

不写散文诗
2026-01-26 15:21:35
华为分走750亿!赛力斯吓了市场一跳

华为分走750亿!赛力斯吓了市场一跳

李东阳朋友圈
2026-01-26 14:05:53
账户里突然多了20万!女子10年前买的10万元白银被彻底遗忘 现在市值接近32万元

账户里突然多了20万!女子10年前买的10万元白银被彻底遗忘 现在市值接近32万元

闪电新闻
2026-01-26 12:02:06
李嫣18岁生日发了几张自拍,大大方方把唇腭裂修复后的样子亮出来

李嫣18岁生日发了几张自拍,大大方方把唇腭裂修复后的样子亮出来

小椰的奶奶
2026-01-26 16:02:19
当年举报毕福剑的张清,落得何种结局?

当年举报毕福剑的张清,落得何种结局?

深度报
2026-01-22 23:29:58
A股:人民日报罕见点名股市!证监会史上最严监管,A股迎史诗大变盘

A股:人民日报罕见点名股市!证监会史上最严监管,A股迎史诗大变盘

股市皆大事
2026-01-26 08:24:31
女子哭诉:“北大硕士”男友让我帮他贷款,3年背贷超200万;男友否认,律师分析法律责任

女子哭诉:“北大硕士”男友让我帮他贷款,3年背贷超200万;男友否认,律师分析法律责任

大风新闻
2026-01-26 15:25:05
辽篮官宣:杨鸣身体原因辞职 充分沟通尊重个人意愿 乌戈接任

辽篮官宣:杨鸣身体原因辞职 充分沟通尊重个人意愿 乌戈接任

醉卧浮生
2026-01-26 16:29:44
罕见一幕:英法政府喊话中国,美国发现情况不妙,对中国直接摊牌

罕见一幕:英法政府喊话中国,美国发现情况不妙,对中国直接摊牌

议纪史
2026-01-25 17:20:03
美军突袭马杜罗的秘密武器,遭特朗普曝光!

美军突袭马杜罗的秘密武器,遭特朗普曝光!

环球时报国际
2026-01-26 17:55:29
2026-01-26 19:20:49
硕博生活圈
硕博生活圈
本科硕士博士俱乐部
1597文章数 8064关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

女子哭诉3年帮"北大硕士"男友背贷超200万:对方已婚

头条要闻

女子哭诉3年帮"北大硕士"男友背贷超200万:对方已婚

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被实名举报代孕、插足婚姻

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

家居
时尚
艺术
数码
手机

家居要闻

流韵雅居,让复杂变纯粹

伊姐周日热推:电视剧《太平年》;电视剧《暗恋者的救赎》......

艺术要闻

溥心畬的花鸟,淡雅清新

数码要闻

高盛最新行业报告显示,DDR4现货价较合约价暴涨172%

手机要闻

6.3寸小屏塞进双2亿像素?OPPO新机定位超Pro

无障碍浏览 进入关怀版