网易首页 > 网易号 > 正文 申请入驻

动态场景,开放文本查询!清华哈佛联合建模4D语言场 | CVPR 2025

0
分享至

新智元报道

编辑:LRST

【新智元导读】4D LangSplat通过结合多模态大语言模型和动态三维高斯泼溅技术,成功构建了动态语义场,能够高效且精准地完成动态场景下的开放文本查询任务。该方法利用多模态大模型生成物体级的语言描述,并通过状态变化网络实现语义特征的平滑建模,显著提升了动态语义场的建模能力。

构建支持开放词汇查询的语言场在机器人导航、3D场景编辑和交互式虚拟环境等众多应用领域展现出巨大的潜力。

尽管现有方法在静态语义场重建方面已取得显著成果,但如何建模4D语言场(4D language fields)以实现动态场景中时间敏感且开放式的语言查询,仍面临诸多挑战,动态世界的语义建模对于推动许多实际应用的落地至关重要。

近日,来自清华大学、哈佛大学等机构的研究团队提出了一种创新方法4D LangSplat,基于动态三维高斯泼溅技术,成功重建了动态语义场,能够高效且精准地完成动态场景下的开放文本查询任务。这一突破为相关领域的研究与应用提供了新的可能性, 该工作目前已经被CVPR2025接收。

Project Page:https://4d-langsplat.github.io/

Paper:https://arxiv.org/pdf/2503.10437

Video:https://www.youtube.com/watch?v=L2OzQ91eRG4

Code: https://github.com/zrporz/4DLangSplat

Data:https://drive.google.com/drive/folders/1C-ciHn38vVd47TMkx2-93EUpI0z4ZdZW?usp=sharing

将现有静态语义场重建方法直接迁移到动态场景中,一种直观的思路是沿用CLIP提取静态的、物体级语义特征,并借鉴4D-GS等工作的思路,通过训练变形高斯场来建模随时间变化的语义。

然而,这种简单的迁移存在两个关键问题:首先,CLIP最初是为图-文对齐任务设计的,其在动态语义场中的感知和理解能力存在局限性;其次,基于输入时间信息预测特征变化量的方法缺乏对特征变化的有效约束,导致动态语义场建模的学习成本显著增加。

针对上述问题,4D LangSplat框架核心创新在于:利用视频分割模型和多模态大模型生成物体级的语言描述,并通过大语言模型提取高质量的句子特征(sentence feature),以替代传统静态语义场重建方法(如LERF、LangSplat)中直接使用CLIP提取的语义特征。在动态语义特征建模方面,4D LangSplat引入了状态变化网络(Status Deformable Network),通过先验压缩语义特征的学习空间,实现了更加稳定和准确的语义特征建模,同时确保了特征随时间的平滑变化。

4D LangSplat的提出显著拓展了语义高斯场建模的应用场景,为动态语义场的实际落地提供了一种极具前景的解决方案。目前,该工作已在X(Twitter)平台上引发广泛关注,并得到AK、MrNeRF等大V转载,论文的代码和数据已全面开源。

方法论


多模态对象级视频提示技术(流程图中上半部分的红色区域)

研究人员结合了SAM(Segment Anything Model)和DEVA tracking技术,对物体进行分割,并在时间维度上保持物体身份的一致性。

为了使多模态大模型能够更专注于已有物体的描述,首先为目标物体生成视觉提示。具体而言,视觉提示包括轮廓线(Contour)、背景虚化(Blur)和单色调整(Gray)。这一过程可以形式化地定义为:

在加入视觉提示后,首先利用多模态大模型(Qwen-Instrution-7B)生成视频级的语言描述,随后逐帧将图片和视频描述再次输入到大模型中,提示其生成特定时间步骤下的物体状态变化的自然语言描述。生成视频-物体级语言描述和图片-物体级语言描述的过程可以形式化地定义为:

对于每一条生成的图片-物体级描述,使用在sentence-embedding任务上经过微调的LLM模型(e5-mistral-7b)将其转化为语义特征,并通过分割掩码生成最终的语义特征图。

此外,参考LangSplat的做法,研究人员训练了一个自动编码器,将高维特征压缩到低维空间,从而降低高斯场训练的复杂度和计算成本。


状态变化场(流程图中下半部分的绿区域)

通过对语义特征的观察,可以发现现实中的大部分变形和运动都可以分解为一系列状态及其之间的过渡。

例如,人的运动可以分解为站立、行走、跑步等状态的组合。在特定时间点,物体要么处于某种状态,要么处于从一个状态到另一个状态的过渡中。

基于这一观察,研究人员提出了状态变化网络(Status Deformable Network),将特定时间步下的变化状态分解为若干状态的线性组合,网络以Hexplane提取的时空特征作为输入,专注于预测指定时间步下的线性组合系数。数学上,其建模方式如下:

其中,w代表模型预测的系数,S代表状态特征。在训练过程中,状态特征和预测系数的状态变化网络联合优化,以确保对变化语义特征的准确和平滑建模。


4D开放词汇查询

研究人员将4D开放词汇查询任务定义为两个子任务:时间无关的查询和时间敏感的查询。时间无关的查询主要考验语义场的静态语义建模能力,目标是根据指定的查询词,给出物体在每一帧的查询结果掩码,类似于物体追踪检测任务。

而时间敏感查询则更注重动态语义建模能力,不仅需要给出查询物体的掩码,还需要精确到具体的时间步(例如动作发生的帧范围)。

为了完成这两个子任务,研究人员同时渲染了时间无关的语义场和时间敏感的语义场,前者基于CLIP提取语义特征,且不对语义特征的变化进行建模;后者则采用该方法提取时间敏感语义,并利用状态变化网络对语义特征进行建模。

在进行时间敏感查询时,首先通过时间无关场生成对应物体的查询掩码,然后计算掩码内时间敏感场的平均相关系数,并给出预测帧的结果。

通过结合这两个场,该方法能够同时胜任时间敏感查询和时间无关查询任务。

实验

实验设置

由于目前缺乏针对4D语义查询的标注数据,研究人员在HyperNeRF和Neu3D这两个数据集上进行了手工标注,构建了一个专门用于4D语义查询的数据集。

在评估指标方面,针对不同的查询任务设计了相应的衡量标准:

  • 时间无关查询:使用平均准确率(mACC)和平均交并比(mIoU)作为查询结果的评估指标。

  • 时间敏感查询:使用帧级别的预测准确率(ACC)和像素级别的平均交并比(vIoU)作为评估指标

结果:该方法在时间敏感和时间无关查询两个子任务上都显著优于最先进的方法。在时间敏感查询上,与基于CLIP特征的方法相比,该方法在帧级别准确率(ACC)和像素级别平均交并比(vIoU)上分别提升了29.03%和27.54%。

时间无关查询方面,在HyperNeRF和Neu3D两个场景中,该方法在平均交并比(mIoU)上分别比基线方法提升了7.56%和23.62%


消融实验

为了验证该方法中各个组件的有效性,研究人员在论文中进行了详细的消融实验。实验结果表明,每个组件都对最终性能的提升起到了重要作用。

贡献

  1. 使用MLLM生成的对象文本描述构建4D语言特征。

  2. 为了对4D场景中对象的状态间平滑过渡进行建模,进一步提出了一个状态可变形网络来捕捉连续的时间变化。

  3. 实验结果表明,该方法在时间无关和时间敏感的开放词汇查询中都达到了最先进的性能。

  4. 通过人工标注,研究人员构建了一个用于4D开放词汇查询的数据集,为未来相关方向的研究提供了定量化的指标。

参考资料:

https://4d-langsplat.github.io/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方买下1200万吨大豆,美财长公开摊牌:中国再也买不到委石油了

中方买下1200万吨大豆,美财长公开摊牌:中国再也买不到委石油了

铁锤简科
2026-01-21 19:36:13
损失18万亿美元,户均6万!《华尔街日报》如此评价中国房地产…

损失18万亿美元,户均6万!《华尔街日报》如此评价中国房地产…

慧翔百科
2026-01-20 08:47:19
外交部副部长孙卫东:中方绝不允许家门口生战、生乱

外交部副部长孙卫东:中方绝不允许家门口生战、生乱

极目新闻
2026-01-20 21:55:13
钱再多有什么用?87岁李双江一家4口的现状,给所有男人提了个醒

钱再多有什么用?87岁李双江一家4口的现状,给所有男人提了个醒

近史谈
2026-01-21 12:03:54
“计划有变,准备争冠!”曾经连续5届小组淘汰,这回“第四档”冲进决赛

“计划有变,准备争冠!”曾经连续5届小组淘汰,这回“第四档”冲进决赛

环球网资讯
2026-01-21 07:29:08
中国递交申请,不到48小时,普京被邀进新联合国,特朗普要当主席

中国递交申请,不到48小时,普京被邀进新联合国,特朗普要当主席

井普椿的独白
2026-01-21 13:49:48
清华大学最新民调显示:中国人对俄罗斯最有好感

清华大学最新民调显示:中国人对俄罗斯最有好感

山河路口
2026-01-20 11:47:18
拳王邹市明自爆破产,不止赔光2亿,其妻子参加婚礼耍酒疯

拳王邹市明自爆破产,不止赔光2亿,其妻子参加婚礼耍酒疯

科学发掘
2026-01-21 13:42:08
贝克汉姆和贝嫂没向儿媳道歉,儿子表示:你们以后别跟我联系了

贝克汉姆和贝嫂没向儿媳道歉,儿子表示:你们以后别跟我联系了

小书生吃瓜
2026-01-15 17:46:37
黄磊女儿黄多多有意进圈,脸是真的小,身材也是真的好,应该会爆

黄磊女儿黄多多有意进圈,脸是真的小,身材也是真的好,应该会爆

民间平哥
2026-01-18 21:36:22
刘汉想要承包绵阳机场,地头蛇王永成从中捣乱,第二天就被团灭

刘汉想要承包绵阳机场,地头蛇王永成从中捣乱,第二天就被团灭

呆呆文化
2024-10-28 16:09:45
雷佳音没撒谎!退出春晚,解散公司,性格大变的贾玲,证实他的话

雷佳音没撒谎!退出春晚,解散公司,性格大变的贾玲,证实他的话

说历史的老牢
2026-01-20 13:43:24
1977年,万里从湖北书记降为副手,准备上任时,邓小平说了一句话

1977年,万里从湖北书记降为副手,准备上任时,邓小平说了一句话

万年历史老号
2026-01-20 05:40:03
器官捐献纳入见义勇为评定范围,从而挽救更多患者的生命

器官捐献纳入见义勇为评定范围,从而挽救更多患者的生命

映射生活的身影
2026-01-21 11:37:12
让人扎心!巴萨输球定律:只要拉菲尼亚缺席,大概率翻车!

让人扎心!巴萨输球定律:只要拉菲尼亚缺席,大概率翻车!

田先生篮球
2026-01-20 20:12:35
东体:邵佳一让国脚们尝试踢多个位置;本期不会再招U23国脚

东体:邵佳一让国脚们尝试踢多个位置;本期不会再招U23国脚

懂球帝
2026-01-21 15:25:16
中国股市:但凡主力吸筹完毕,股价在拉升前,都会出现这三个信号

中国股市:但凡主力吸筹完毕,股价在拉升前,都会出现这三个信号

股经纵横谈
2026-01-21 15:48:27
于幼军老省长最新动态

于幼军老省长最新动态

社评
2026-01-21 10:41:55
英超是欧冠第1战力 阿森纳是唯一晋级淘汰赛 西甲1队+新军已出局

英超是欧冠第1战力 阿森纳是唯一晋级淘汰赛 西甲1队+新军已出局

智道足球
2026-01-21 18:05:52
男子与女友发生性关系后不适,女友取消120自行送回家,男子4天后被发现死亡!家人起诉索赔

男子与女友发生性关系后不适,女友取消120自行送回家,男子4天后被发现死亡!家人起诉索赔

南国今报
2026-01-20 17:43:05
2026-01-21 20:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14380文章数 66521关注度
往期回顾 全部

科技要闻

给机器人做仿真训练 这家创企年营收破亿

头条要闻

32岁程序员周末晕倒后猝死 抢救期间还被拉入工作群

头条要闻

32岁程序员周末晕倒后猝死 抢救期间还被拉入工作群

体育要闻

只会防守反击?不好意思,我们要踢决赛了

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

丹麦打响第一枪 欧洲用资本保卫格陵兰岛

汽车要闻

2026款上汽大众朗逸正式上市 售价12.09万起

态度原创

游戏
教育
艺术
亲子
公开课

粉丝:比GTA6更好?《剑星2》最新概念图汇总

教育要闻

聚焦“26届广州高考复读学校哪家好”:这三所学校值得考虑

艺术要闻

一百多年前的中国,太雄伟震撼了!

亲子要闻

智商如奶油一般化开了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版