网易首页 > 网易号 > 正文 申请入驻

动态场景,开放文本查询!清华哈佛联合建模4D语言场 | CVPR 2025

0
分享至

新智元报道

编辑:LRST

【新智元导读】4D LangSplat通过结合多模态大语言模型和动态三维高斯泼溅技术,成功构建了动态语义场,能够高效且精准地完成动态场景下的开放文本查询任务。该方法利用多模态大模型生成物体级的语言描述,并通过状态变化网络实现语义特征的平滑建模,显著提升了动态语义场的建模能力。

构建支持开放词汇查询的语言场在机器人导航、3D场景编辑和交互式虚拟环境等众多应用领域展现出巨大的潜力。

尽管现有方法在静态语义场重建方面已取得显著成果,但如何建模4D语言场(4D language fields)以实现动态场景中时间敏感且开放式的语言查询,仍面临诸多挑战,动态世界的语义建模对于推动许多实际应用的落地至关重要。

近日,来自清华大学、哈佛大学等机构的研究团队提出了一种创新方法4D LangSplat,基于动态三维高斯泼溅技术,成功重建了动态语义场,能够高效且精准地完成动态场景下的开放文本查询任务。这一突破为相关领域的研究与应用提供了新的可能性, 该工作目前已经被CVPR2025接收。

Project Page:https://4d-langsplat.github.io/

Paper:https://arxiv.org/pdf/2503.10437

Video:https://www.youtube.com/watch?v=L2OzQ91eRG4

Code: https://github.com/zrporz/4DLangSplat

Data:https://drive.google.com/drive/folders/1C-ciHn38vVd47TMkx2-93EUpI0z4ZdZW?usp=sharing

将现有静态语义场重建方法直接迁移到动态场景中,一种直观的思路是沿用CLIP提取静态的、物体级语义特征,并借鉴4D-GS等工作的思路,通过训练变形高斯场来建模随时间变化的语义。

然而,这种简单的迁移存在两个关键问题:首先,CLIP最初是为图-文对齐任务设计的,其在动态语义场中的感知和理解能力存在局限性;其次,基于输入时间信息预测特征变化量的方法缺乏对特征变化的有效约束,导致动态语义场建模的学习成本显著增加。

针对上述问题,4D LangSplat框架核心创新在于:利用视频分割模型和多模态大模型生成物体级的语言描述,并通过大语言模型提取高质量的句子特征(sentence feature),以替代传统静态语义场重建方法(如LERF、LangSplat)中直接使用CLIP提取的语义特征。在动态语义特征建模方面,4D LangSplat引入了状态变化网络(Status Deformable Network),通过先验压缩语义特征的学习空间,实现了更加稳定和准确的语义特征建模,同时确保了特征随时间的平滑变化。

4D LangSplat的提出显著拓展了语义高斯场建模的应用场景,为动态语义场的实际落地提供了一种极具前景的解决方案。目前,该工作已在X(Twitter)平台上引发广泛关注,并得到AK、MrNeRF等大V转载,论文的代码和数据已全面开源。

方法论


多模态对象级视频提示技术(流程图中上半部分的红色区域)

研究人员结合了SAM(Segment Anything Model)和DEVA tracking技术,对物体进行分割,并在时间维度上保持物体身份的一致性。

为了使多模态大模型能够更专注于已有物体的描述,首先为目标物体生成视觉提示。具体而言,视觉提示包括轮廓线(Contour)、背景虚化(Blur)和单色调整(Gray)。这一过程可以形式化地定义为:

在加入视觉提示后,首先利用多模态大模型(Qwen-Instrution-7B)生成视频级的语言描述,随后逐帧将图片和视频描述再次输入到大模型中,提示其生成特定时间步骤下的物体状态变化的自然语言描述。生成视频-物体级语言描述和图片-物体级语言描述的过程可以形式化地定义为:

对于每一条生成的图片-物体级描述,使用在sentence-embedding任务上经过微调的LLM模型(e5-mistral-7b)将其转化为语义特征,并通过分割掩码生成最终的语义特征图。

此外,参考LangSplat的做法,研究人员训练了一个自动编码器,将高维特征压缩到低维空间,从而降低高斯场训练的复杂度和计算成本。


状态变化场(流程图中下半部分的绿区域)

通过对语义特征的观察,可以发现现实中的大部分变形和运动都可以分解为一系列状态及其之间的过渡。

例如,人的运动可以分解为站立、行走、跑步等状态的组合。在特定时间点,物体要么处于某种状态,要么处于从一个状态到另一个状态的过渡中。

基于这一观察,研究人员提出了状态变化网络(Status Deformable Network),将特定时间步下的变化状态分解为若干状态的线性组合,网络以Hexplane提取的时空特征作为输入,专注于预测指定时间步下的线性组合系数。数学上,其建模方式如下:

其中,w代表模型预测的系数,S代表状态特征。在训练过程中,状态特征和预测系数的状态变化网络联合优化,以确保对变化语义特征的准确和平滑建模。


4D开放词汇查询

研究人员将4D开放词汇查询任务定义为两个子任务:时间无关的查询和时间敏感的查询。时间无关的查询主要考验语义场的静态语义建模能力,目标是根据指定的查询词,给出物体在每一帧的查询结果掩码,类似于物体追踪检测任务。

而时间敏感查询则更注重动态语义建模能力,不仅需要给出查询物体的掩码,还需要精确到具体的时间步(例如动作发生的帧范围)。

为了完成这两个子任务,研究人员同时渲染了时间无关的语义场和时间敏感的语义场,前者基于CLIP提取语义特征,且不对语义特征的变化进行建模;后者则采用该方法提取时间敏感语义,并利用状态变化网络对语义特征进行建模。

在进行时间敏感查询时,首先通过时间无关场生成对应物体的查询掩码,然后计算掩码内时间敏感场的平均相关系数,并给出预测帧的结果。

通过结合这两个场,该方法能够同时胜任时间敏感查询和时间无关查询任务。

实验

实验设置

由于目前缺乏针对4D语义查询的标注数据,研究人员在HyperNeRF和Neu3D这两个数据集上进行了手工标注,构建了一个专门用于4D语义查询的数据集。

在评估指标方面,针对不同的查询任务设计了相应的衡量标准:

  • 时间无关查询:使用平均准确率(mACC)和平均交并比(mIoU)作为查询结果的评估指标。

  • 时间敏感查询:使用帧级别的预测准确率(ACC)和像素级别的平均交并比(vIoU)作为评估指标

结果:该方法在时间敏感和时间无关查询两个子任务上都显著优于最先进的方法。在时间敏感查询上,与基于CLIP特征的方法相比,该方法在帧级别准确率(ACC)和像素级别平均交并比(vIoU)上分别提升了29.03%和27.54%。

时间无关查询方面,在HyperNeRF和Neu3D两个场景中,该方法在平均交并比(mIoU)上分别比基线方法提升了7.56%和23.62%


消融实验

为了验证该方法中各个组件的有效性,研究人员在论文中进行了详细的消融实验。实验结果表明,每个组件都对最终性能的提升起到了重要作用。

贡献

  1. 使用MLLM生成的对象文本描述构建4D语言特征。

  2. 为了对4D场景中对象的状态间平滑过渡进行建模,进一步提出了一个状态可变形网络来捕捉连续的时间变化。

  3. 实验结果表明,该方法在时间无关和时间敏感的开放词汇查询中都达到了最先进的性能。

  4. 通过人工标注,研究人员构建了一个用于4D开放词汇查询的数据集,为未来相关方向的研究提供了定量化的指标。

参考资料:

https://4d-langsplat.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比胡歌帅,比靳东火,42岁未婚未育的他,现在如何了?

比胡歌帅,比靳东火,42岁未婚未育的他,现在如何了?

以茶带书
2026-02-20 23:06:28
孩子越大,越要告诉他这五句人生真相:比成绩更重要的,是活好这一生

孩子越大,越要告诉他这五句人生真相:比成绩更重要的,是活好这一生

青苹果sht
2026-02-20 05:52:21
马瑟林38分快船险胜掘金,约基奇22分17板6助穆雷失扳平罚球

马瑟林38分快船险胜掘金,约基奇22分17板6助穆雷失扳平罚球

湖人崛起
2026-02-20 14:13:46
王菲春晚后台,眼神犀利面相狠,保镖呵斥人,紧身裙子疑真空上阵

王菲春晚后台,眼神犀利面相狠,保镖呵斥人,紧身裙子疑真空上阵

一娱三分地
2026-02-19 17:00:34
港媒台媒报道大盘点,标题犀利配图劲爆,文字一针见血想象力丰富

港媒台媒报道大盘点,标题犀利配图劲爆,文字一针见血想象力丰富

花哥扒娱乐
2026-02-20 19:25:54
尼泊尔“一妻多夫”该如何生活?妻子苦不堪言:一点都不幸福。

尼泊尔“一妻多夫”该如何生活?妻子苦不堪言:一点都不幸福。

百态人间
2025-11-06 05:45:02
54岁男演员被催婚!回应“无戏可拍,被迫回老家卖饺子”:不能忍

54岁男演员被催婚!回应“无戏可拍,被迫回老家卖饺子”:不能忍

都市快报橙柿互动
2026-02-20 14:08:41
再赢坂本花织,刘美贤完美表现逆转,赛后爆粗真情流露引热议

再赢坂本花织,刘美贤完美表现逆转,赛后爆粗真情流露引热议

体育妞世界
2026-02-20 12:40:08
苏翊鸣夺金后火速官宣恋情,赛后甜蜜回复花滑运动员朱易:爱你宝贝;此前教练曾说,苏翊鸣米兰拿坡面障碍金牌前不能谈恋爱

苏翊鸣夺金后火速官宣恋情,赛后甜蜜回复花滑运动员朱易:爱你宝贝;此前教练曾说,苏翊鸣米兰拿坡面障碍金牌前不能谈恋爱

极目新闻
2026-02-19 08:40:34
广东一家族连续四年拍春节全家福引网友羡慕:五代同堂60多人,最大年龄差超90岁

广东一家族连续四年拍春节全家福引网友羡慕:五代同堂60多人,最大年龄差超90岁

环球网资讯
2026-02-20 20:53:07
美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

青烟小先生
2026-01-31 19:10:22
阿尔茨海默病者逐渐增多,医生提醒:55岁后,尽量改掉6个坏习惯

阿尔茨海默病者逐渐增多,医生提醒:55岁后,尽量改掉6个坏习惯

39健康网
2026-02-17 18:31:37
古巴高调反美!美国为啥不打古巴?因为古巴是最“先进”的国家

古巴高调反美!美国为啥不打古巴?因为古巴是最“先进”的国家

南宫一二
2026-01-10 17:41:19
TVB花旦晒近况疑似真空上阵!遭网民催婚,已两年无新作品

TVB花旦晒近况疑似真空上阵!遭网民催婚,已两年无新作品

阿嬍体育评论
2026-02-20 10:15:37
英媒:英国政府考虑立法取消安德鲁王位继承权

英媒:英国政府考虑立法取消安德鲁王位继承权

环球网资讯
2026-02-21 07:10:25
CBA超级外援自己宣布加盟辽宁队!球迷:季后赛门票稳了

CBA超级外援自己宣布加盟辽宁队!球迷:季后赛门票稳了

体育哲人
2026-02-20 21:45:07
南都记者俄罗斯直击:有同胞称不敢冒险,拟取消贝加尔湖行程

南都记者俄罗斯直击:有同胞称不敢冒险,拟取消贝加尔湖行程

南方都市报
2026-02-20 21:00:44
清纯天后“万人唾”,为爱吸毒拍片无下限,彻底沦为“国际乞巧

清纯天后“万人唾”,为爱吸毒拍片无下限,彻底沦为“国际乞巧

谈史论天地
2026-02-20 06:53:23
势如破竹!文班又又破纪录,5年3.03亿顶薪,稳了

势如破竹!文班又又破纪录,5年3.03亿顶薪,稳了

球童无忌
2026-02-20 23:20:07
赔了1个亿到67亿“卖”了公司,小杨哥还能打赢这场翻身仗吗?

赔了1个亿到67亿“卖”了公司,小杨哥还能打赢这场翻身仗吗?

毒sir财经
2026-02-20 19:37:39
2026-02-21 08:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14560文章数 66632关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

7名中国游客贝加尔湖遇难 目击者:车两三分钟就沉了

头条要闻

7名中国游客贝加尔湖遇难 目击者:车两三分钟就沉了

体育要闻

金牌夫妻!王心迪徐梦桃赛后拥抱太甜了

娱乐要闻

《将门独后》开拍,王鹤棣孟子义主演

财经要闻

特朗普全球关税被推翻!有何影响?

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

时尚
艺术
教育
公开课
军事航空

冬季羽绒服是最“受捧”的单品,这样选款和搭配,舒适耐看

艺术要闻

你绝对不想错过的石涛五十幅国画作品!

教育要闻

从570分考到645分,这个寒假如何冲刺?北京焦老师有话说

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

消息人士透露:美军赴黄海活动 解放军有效应对处置

无障碍浏览 进入关怀版