网易首页 > 网易号 > 正文 申请入驻

让AI更懂物理世界!人大北邮上海AI Lab等提出多模态分割新方法

0
分享至

让AI像人类一样借助多模态线索定位感兴趣的物体,有新招了!

来自人大高瓴GeWu-Lab、北邮、上海AI Lab等机构的研究人员提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,视听场景下的指代分割),让AI能看、会听,更懂真实物理世界。

相关论文已入选顶会ECCV2024。

举个例子,在下面这张图中,机器如何准确定位真正在演奏乐器的人

搞单打独斗肯定不行,但这正是已有研究正在做的。(各自从视觉、文本和音频线索的角度出发)

  • 视频对象分割(VOS,Video Object Segmentation):通常以第一帧中的对象掩码作为参考,指导后续帧中特定对象的分割。(严重依赖于第一帧的精确标注)
  • 视频对象参考分割(Ref-VOS,Referring Video Object Segmentation):基于自然语言描述分割视频中的物体,取代了VOS中的掩码标注。(虽然更易于访问,但能力有限)
  • 视听分割(AVS,Audio-Visual Segmentation):以音频为指导来分割视频中发声的物体。(无法应对不发声的物体)

而新方法Ref-AVS,整合了多个模态(文本,音频和视觉)之间的关系来适应更真实的动态视听场景

这下,同时在唱歌和弹吉他的人也能被轻松找到了。

且同一段素材还能拿来反复用,找出正在发声的吉他也不在话下。

与此同时,研究人员构建了一个名为Ref-AVS Bench的数据集,并设计了一个端到端框架来高效处理多模态线索。

具体如下。

构建了数据集Ref-AVS Bench

概括而言,数据集Ref-AVS Bench共有40020个视频帧,包含6888个物体和20261个指代表达式(Reference Expression)。

每个数据都包含与视频帧对应的音频,并提供逐帧的像素级标注

为了确保所指代对象(Object)的多样性,团队选择了包含背景的52个类别, 其中48个类别的可发声物体,以及3个类别的静态、不可发声物体。

在视频收集过程中,所有视频均来自油管并截取10秒

在整个手动收集过程中,团队刻意避免以下情况的视频:

a) 包含大量相同语义实例的视频;
b) 有大量编辑和相机视角切换的视频;
c) 包含合成创作的非现实视频。

同时,为了提高与真实世界分布的一致性,团队挑选了有助于数据集内场景多样化的视频。

比如涉及多个对象(如乐器、人、车辆等)之间交互的视频。

另外,表达式(Expression)的多样性是Ref-AVS数据集构建的核心要素之一。

除去本身固有的文本语义信息,表达式还由听觉、视觉和时间三个维度的信息组成。

听觉维度包含音量、节奏等特征,而视觉维度则包含物体的外观和空间等属性。

团队还利用时间线索来生成具有时序提示的引用,例如“先发出声音的(物体)”或“后出现的(物体)”。

通过整合听觉、视觉和时间信息,研究设计出丰富的表达式,不仅可以准确反映多模态场景,还可以满足用户对精确引用的特定需求。

而且,表达式的准确性也是一个核心关注点。

研究遵循三个规则来生成高质量的表达式:

1)唯一性:一个表达式所指代的对象必须是唯一的,不能同时指代多个对象。
2)必要性:可以使用复杂的表达式来指代对象,但句子中的每个形容词都应该缩小目标对象的范围,避免对所要指代的对象进行不必要和冗余的描述。
3)清晰度:某些表达模板涉及主观因素,例如“声音更大的__”。只有在情况足够清晰时才应使用此类表达,以避免产生歧义。

团队将每段10秒的视频分成十个相等的1秒片段,利用Grounding SAM来分割和标记关键帧,随后要求标注员手动检查和更正这些关键帧。

此过程使团队能够在关键帧内为多个目标对象生成掩码和标签。

一旦确定了关键帧的掩码,研究就会应用跟踪算法来跟踪目标对象,并在10s的跨度内获得目标对象的最终掩码标签(Ground Truth Mask)。

到了数据分割与统计,测试集中的视频及其对应的注释会经过训练过的标注人员的细致审查和校正。

为了全面评估模型在Ref-AVS任务中的表现,测试集进一步被划分为三个不同的子集

具体而言,三个测试子集包括:

  • 已见子集 (Seen):包括那些在训练集中出现过的物体类别,建立该子集的目的是评估模型的基本性能。
  • 未见子集 (Unseen):专门用于评估模型在未见音视频场景中的泛化能力。
  • 空指代子集 (Null):测试模型对空引用的鲁棒性,即表达式与视频中的任何对象都不相关。

具体咋实现的?

完成了数据集准备后,团队利用多模态线索来增强表达式指代能力(Expression Enhancing with Multimodal Cues, EEMC),以实现更好的视听指代分割。

具体而言,在时序双模态融合(Temporal Bi-Modal Transformer)模块中,团队将包含时序信息的视听模态信息(FV, FA)分别与文本信息FT进行融合。

注意, 为了让模型更好的感知时序信息,研究提出了一种直观的Cached memory机制(CV,CA )。

Cached memory需要存储从开始到当前时刻的时序平均模态特征,以捕捉时序变化中多模态信息的变化幅度。多模态特征(QV, QA)计算方式如下:

其中,表示时序中的特定时间步, 则是一个可调节的超参数用于控制时序过程中模型对特征时序变化的敏感度。

当此刻的音频或视觉特征与过去特征的均值相比变化不大时, 输出的特征保持几乎不变。

然而,当变化较为明显时,cached memory可以放大当前特征的差异,从而产生具有显著特征的输出。

此后,拼接的多模态特征被送入Multimodal Integration Transformer模块中进行多模态融合, 产生包含多模态信息的指代表达式的最终特征(QM)作为掩码解码器的输入。

掩码解码器是一个Transformer架构的分割基础模型如MaskFormer,Mask2Former或者SAM。

团队选择Mask2Former作为分割基础模型,将其预训练的mask queries作为,将多模态指代表达式特征作为 和 。

经过一个cross-attention transformer(CATF)将多模态指代表达式特征迁移到mask queries中,从而实现让分割基础模型根据多模态特征进行分割。

实验结果

定量实验中,团队将研究提出的基线方法与其它方法进行对比,且为了公平补充了其他方法缺失的模态信息。

在Seen子集上的测试结果显示,新方法Ref-AVS超越了其它方法的性能。

同时在Unseen子集和Null子集上,Ref-AVS展示了可泛化性,并且可以准确地跟随指代表达

定性实验中, 团队在Ref-AVS Bench测试集上对分割掩码进行可视化,并与AVSegFormer和ReferFormer进行比较。

结果显示,ReferFormer在Ref-VOS任务中的表现以及AVSegFormer在AVS任务中的表现都未能准确分割出表达中描述的对象。

具体来说,AVSegFormer在理解表达时遇到困难,往往直接生成声音源。

例如,在左下角的样本中,AVSegFormer错误地将吸尘器分割为目标,而不是男孩。

另一方面,Ref-VOS可能无法充分理解音频-视觉场景,因此误将幼童识别为钢琴演奏者,如右上角的样本所示。

相比之下,Ref-AVS方法展现了更出色的能力,能够同时处理多模态表达和场景,从而准确地理解用户指令并分割出目标对象。

未来,可以考虑更优质的多模态融合技术、模型应用的实时性以及数据集的扩展与多样化, 以将多模态指代分割应用到视频分析、医疗图像处理、自动驾驶和机器人导航等挑战中。

更多详情欢迎查阅原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
腾讯宣布:春节发10亿元现金!单个红包最高达1万元,可直接提现到微信

腾讯宣布:春节发10亿元现金!单个红包最高达1万元,可直接提现到微信

每日经济新闻
2026-01-25 19:55:05
俄乌打了三年,打穷了三个国家,富了三个国家,中国也在其中

俄乌打了三年,打穷了三个国家,富了三个国家,中国也在其中

林子说事
2026-01-26 12:49:07
最高160万!上海一法院发布悬赏公告

最高160万!上海一法院发布悬赏公告

上观新闻
2026-01-25 22:07:10
《白鹿原》里的两家大户,日常只吃油泼面,首富就这种水准?

《白鹿原》里的两家大户,日常只吃油泼面,首富就这种水准?

收藏大视界
2026-01-25 17:56:42
重磅!4冠主帅官宣辞职不愁下家,助教硬接烂摊子 球迷:走为上计

重磅!4冠主帅官宣辞职不愁下家,助教硬接烂摊子 球迷:走为上计

篮球看比赛
2026-01-26 12:35:29
张兰带孙子孙女溜冰!小玥儿想妈妈心事重重,小箖箖摔跤逗笑姐姐

张兰带孙子孙女溜冰!小玥儿想妈妈心事重重,小箖箖摔跤逗笑姐姐

离离言几许
2026-01-25 18:27:11
霍诺德:我爬台北101报酬不多 外媒估算50万美元 如出意外或无赔偿

霍诺德:我爬台北101报酬不多 外媒估算50万美元 如出意外或无赔偿

劲爆体坛
2026-01-26 18:18:04
杨紫新剧邀林志玲演上海名媛,两人11年前亲吻画面曝光,泄好交情

杨紫新剧邀林志玲演上海名媛,两人11年前亲吻画面曝光,泄好交情

小邵说剧
2026-01-26 21:01:10
东京股市大跌

东京股市大跌

新华社
2026-01-26 16:03:04
退脏衣女记者全网社死!坏到骨子里知情人曝更多,果然不是第一次

退脏衣女记者全网社死!坏到骨子里知情人曝更多,果然不是第一次

阿纂看事
2026-01-26 10:20:53
霸气!申花队拒绝为天价国脚买单,有能力就去留洋

霸气!申花队拒绝为天价国脚买单,有能力就去留洋

何老师呀
2026-01-26 12:28:18
集体倒戈!特朗普,彻底演砸了!

集体倒戈!特朗普,彻底演砸了!

大嘴说天下
2026-01-25 20:34:37
这条无耻新闻,引起公愤了!

这条无耻新闻,引起公愤了!

胖胖说他不胖
2026-01-26 10:00:16
笑不活了!全网最崩溃的婆婆诞生,得知儿媳怀上三胎,她就地打滚

笑不活了!全网最崩溃的婆婆诞生,得知儿媳怀上三胎,她就地打滚

火山诗话
2026-01-25 08:28:32
对峙升级!州长叫板川普:立即撤人。司法部长开出“三大条件”,枪击案惊现“走火疑云”

对峙升级!州长叫板川普:立即撤人。司法部长开出“三大条件”,枪击案惊现“走火疑云”

大洛杉矶LA
2026-01-26 07:53:46
大反转!暴雪!河南全省将再迎雨雪:多地中到大雪,高温跌到0℃

大反转!暴雪!河南全省将再迎雨雪:多地中到大雪,高温跌到0℃

鲁中晨报
2026-01-26 14:03:51
上海地铁海报现“六指美女”,被质疑用AI生成,广告方回应:如果确认存在问题,会第一时间修改替换

上海地铁海报现“六指美女”,被质疑用AI生成,广告方回应:如果确认存在问题,会第一时间修改替换

环球网资讯
2026-01-24 18:11:11
词穷了,已经没有适合她的词来形容她的美了

词穷了,已经没有适合她的词来形容她的美了

动物奇奇怪怪
2026-01-26 13:01:49
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
李湘被英国相关部门调查,涉嫌用艺术品国际洗钱,王诗龄已经休学

李湘被英国相关部门调查,涉嫌用艺术品国际洗钱,王诗龄已经休学

花哥扒娱乐
2026-01-25 17:10:22
2026-01-27 01:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
12065文章数 176362关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

女子被丈夫和闺蜜背叛一夜白头:听到儿子叫第三者妈妈

头条要闻

女子被丈夫和闺蜜背叛一夜白头:听到儿子叫第三者妈妈

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被抵制成功!辽视春晚已将她除名

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

亲子
健康
数码
手机
军事航空

亲子要闻

儿童洞洞鞋测评:朴西、森马、起步的样品化学成分超标

耳石脱落为何让人天旋地转+恶心?

数码要闻

苹果发布新一代AirTag与新款Black Unity编织表带

手机要闻

华为神秘新机曝光:白绿橘蓝黑五色可选,或为全球首款折叠平板!

军事要闻

委代总统称遭美威胁:马杜罗已死

无障碍浏览 进入关怀版