网易首页 > 网易号 > 正文 申请入驻

颠覆NeRF!仅需2张图,LangScene-X让AI像人一样看懂3D场景

0
分享至


始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。A800/H20等算力6.25元/卡时,支持在线微调训练,及线部署和。

最少只用2张图,AI就能像人类一样理解3D空间了。ICCV 2025最新中稿的LangScene-X:以全新的生成式框架,仅用稀疏视图(最少只用2张图像)就能构建可泛化的3D语言嵌入场景,对比传统方法如NeRF,通常需要20个视角。

研究团队一举攻克传统方法依赖密集视图的痛点,更将多模态信息统一在单一模型中,为空间智能领域打开了新大门。

这意味着,生成式模型能像人类一样,仅凭稀疏视觉输入构建融合语言理解的3D空间认知系统。LangScene-X已上线始智AI-wisemodel开源社区,欢迎大家前去体验。


模型地址

https://wisemodel.cn/models/chijw/LangScene-X

01.

3D语言场景生成的困境

随着人工智能技术的飞速发展,3D语言场景生成作为连接自然语言与三维视觉世界的关键桥梁,正受到越来越广泛的关注。它旨在通过文本描述精准构建出符合语义的三维场景,在虚拟现实、机器人导航、影视创作等众多领域展现出巨大的应用潜力。

然而,在这一技术蓬勃发展的背后,一系列核心困境仍未得到有效解决,严重制约着其向更高精度、更强泛化性和更实用化方向迈进。当前3D语言场景生成有以下3个核心困境


密集视图依赖与稀疏输入缺失的矛盾

传统方法(如NeRF、Gaussian Splatting)高度依赖校准后的密集视图(通常超过20个视角),当输入视图稀疏(如仅2-3张图像)时,会出现严重的3D结构伪影和语义合成失真。例如,LangSplat和LangSurf在厨房场景中使用稀疏视图时,物体边界模糊率超过40%,而真实场景中获取密集视图往往成本高昂。

跨模态信息割裂与3D一致性缺失

外观、几何、语义三类信息通常由独立模块处理,导致模态间语义错位。现有视频扩散模型仅能生成单一模态,当需要同步生成法线和语义时,会出现物体表面法线与颜色不匹配等问题,在ScanNet测试中,传统方法的法线与RGB一致性误差平均达27.3°。

语言特征高维压缩与泛化能力的瓶颈

CLIP生成的512维语言特征直接嵌入3D场景时内存占用极高,且现有压缩方法需逐场景训练,无法跨场景泛化。例如,OpenGaussian在切换场景时文本查询准确率下降58%,严重限制实际应用。

02.

LangScene-X如何破局


TriMap视频扩散模型:稀疏输入下的多模态统一生成

四阶段渐进训练先通过大规模网络数据训练关键帧插值能力,再用10K级3D一致视频数据学习几何一致性,接着注入法线和语义监督,最终实现RGB、法线、语义图的协同生成。该策略使模型在仅2张输入图像时,生成的法线与RGB一致性误差降至8.1°,语义掩码边界准确率提升63%。

层级化语义生成利用视频扩散泛化能力,生成小(s)、中(m)、大(l)三种粒度语义掩码,例如在Teatime场景中可精准定位“红色马克杯”并区分细节。


语言量化压缩器(LQC):高维特征压缩的泛化革命

向量量化+梯度桥接通过可学习的嵌入表,将高维CLIP特征映射为3维离散索引,压缩后特征L2重建误差仅0.0001,较传统自编码器降低90%。

跨场景语义锚定在COCO数据集预训练的LQC无需微调即可跨场景迁移,文本激活图边界锐利度比LangSplat提升2.3倍。



语言嵌入表面场:3D空间的语义-几何联合优化

渐进法线正则化先通过DUSt3R初始化点云,再用生成的法线图分阶段优化几何表示,自动过滤不可靠区域,使3D表面重建误差大幅降低。

2D/3D聚类监督通过语义损失和特征分布对齐,强制语言高斯紧密附着在物体表面。例如,“冰箱”查询中激活区域与真实表面重合度达91.7%,远超LangSurf的65.3%。


03.

统一模型与空间智能的融合


统一模型:单模型统合多模态,告别“模块化”低效

传统3D重建往往需要分别处理外观、几何和语义信息,不仅流程繁琐,还难以保证跨模态一致性。LangScene-X创新性地提出TriMap视频扩散模型,通过渐进式多任务训练策略,一次性生成RGB图像、法线图和语义分割图,将三大模态信息无缝整合。

这种“大一统”架构不仅省去多模型协同的复杂流程,更通过视频扩散的强生成先验,确保了生成内容在3D空间中的一致性,精准补全重建中看不见的视角。

搭配语言量化压缩器(LQC),LangScene-X还解决了高维语言特征压缩的难题。无需针对每个场景单独训练,就能将512维的CLIP特征高效编码为低维离散索引,在减少内存开销的同时,保持语言特征的本质属性,真正实现跨场景的泛化能力。


空间智能:让机器像人类一样“理解”3D世界

LangScene-X还通过语言嵌入表面场技术,将文本prompt与3D场景表面精准对齐。比如在“Teatime”场景中输入“stuffed bear”,模型会生成聚焦相关区域的关联图,真正实现用自然语言直接查询3D场景中的物体。

这种能力源于对空间智能的独特设计:模型从稀疏视图中提取多模态知识,再通过语义引导的法线优化和2D/3D聚类损失,将语言信息牢固锚定在3D空间中。

实验显示,在LERF-OVS和ScanNet数据集上,LangScene-X的开放词汇定位准确率和语义分割IoU均大幅超越现有方法,拥有接近人类水平的空间理解能力。

04.

实证结果

在LERF-OVS数据集上,LangScene-X的整体mAcc达80.85%,mIoU达50.52%,较最优基线分别提升31.18%和10.58%;在ScanNet上,整体mIoU更是达到66.54%,超越现有方法14.92%。可视化结果显示,其分割掩码边界更锐利,连“Cabinet”等复杂物体的预测都能超越真实标注。



无论是VR场景构建还是人机交互,LangScene-X有潜力成为核心驱动力,并为自动驾驶、具身智能等场景提供底层技术范式。

----- END -----


wisemodel相关:

系统升级:

系列活动:

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
48岁男子血压143/90,满不在乎,结果脑出血!医生:俩错误不该有

48岁男子血压143/90,满不在乎,结果脑出血!医生:俩错误不该有

健康之光
2026-01-18 06:05:03
5连胜遮羞布下的快船:哈登小卡被榨干,4位新人爆发难掩阵容硬伤

5连胜遮羞布下的快船:哈登小卡被榨干,4位新人爆发难掩阵容硬伤

一登侃球
2026-01-17 23:33:16
开始清算?闫学晶再迎3大噩耗,这一次,谁也救不了自掘坟墓的她

开始清算?闫学晶再迎3大噩耗,这一次,谁也救不了自掘坟墓的她

观察鉴娱
2026-01-12 09:41:23
分手8年,自曝私密事的Coco,没给谢贤留体面,原来谢霆锋没说谎

分手8年,自曝私密事的Coco,没给谢贤留体面,原来谢霆锋没说谎

娱说瑜悦
2026-01-06 17:28:42
破案!徐杰防不住廖三宁,杜锋为什么不肯上陈家政?萨林杰要背锅

破案!徐杰防不住廖三宁,杜锋为什么不肯上陈家政?萨林杰要背锅

后仰大风车
2026-01-18 08:35:07
韩媒:曹薰铉将参加聂卫平葬礼 首届应氏杯成中韩围棋发展分水岭

韩媒:曹薰铉将参加聂卫平葬礼 首届应氏杯成中韩围棋发展分水岭

劲爆体坛
2026-01-17 09:42:44
谁摧毁了美国国力?现实比想象残酷:美国正亲手废掉下一代

谁摧毁了美国国力?现实比想象残酷:美国正亲手废掉下一代

远方风林
2026-01-16 19:52:45
中雪、大雪、暴雪,“湖北雨雪图要下黑了”

中雪、大雪、暴雪,“湖北雨雪图要下黑了”

极目新闻
2026-01-17 14:06:55
高雄市长之战支持谁?7万人网络投票结果一面倒

高雄市长之战支持谁?7万人网络投票结果一面倒

新时光点滴
2026-01-18 04:53:12
比芯片还稀缺?埋了20年的垃圾被挖出来“返工”,中国垃圾不够用

比芯片还稀缺?埋了20年的垃圾被挖出来“返工”,中国垃圾不够用

毒sir财经
2025-07-31 23:14:44
我爸寄来8箱车厘子,回家发现,全被岳母分给亲戚,我直接订票!

我爸寄来8箱车厘子,回家发现,全被岳母分给亲戚,我直接订票!

户外阿崭
2026-01-18 00:40:04
2026新能源汽车开年不利:销量暴跌2/3 渗透率跌至35%

2026新能源汽车开年不利:销量暴跌2/3 渗透率跌至35%

快科技
2026-01-15 16:19:13
详解推背图2026年预象:红马摔倒引发惊天巨变,乾坤彻底反转

详解推背图2026年预象:红马摔倒引发惊天巨变,乾坤彻底反转

卡西莫多的故事
2026-01-16 10:49:33
经省委省政府批准,安徽两地行政区划调整

经省委省政府批准,安徽两地行政区划调整

黄河新闻网吕梁频道
2026-01-17 11:04:44
郭德纲正式升级做公公!“儿子”陶阳下个月大婚,儿媳模样俊俏

郭德纲正式升级做公公!“儿子”陶阳下个月大婚,儿媳模样俊俏

裕丰娱间说
2026-01-18 08:47:53
21岁胡桑诺夫未出战U23亚洲杯,乌兹比赛下半场时他将首发出战曼市德比

21岁胡桑诺夫未出战U23亚洲杯,乌兹比赛下半场时他将首发出战曼市德比

懂球帝
2026-01-17 19:40:01
余则成赴台前,在翠平衣服袖口内缝一铜扣,19年后翠平拆开看崩溃

余则成赴台前,在翠平衣服袖口内缝一铜扣,19年后翠平拆开看崩溃

星宇共鸣
2026-01-12 10:41:58
建议中年男人:冲锋衣尽量别穿“始祖鸟、骆驼”,3种国货更高级

建议中年男人:冲锋衣尽量别穿“始祖鸟、骆驼”,3种国货更高级

时尚搭配师Nicole
2025-10-27 00:01:58
范巴斯滕:接下来几个月我将放下工作,全身心去陪护重病妻子

范巴斯滕:接下来几个月我将放下工作,全身心去陪护重病妻子

懂球帝
2026-01-17 08:03:11
一百多年前,康有为花费 150 万在欧洲购得一座岛,时至今日,这座岛的产权到底归谁所有?

一百多年前,康有为花费 150 万在欧洲购得一座岛,时至今日,这座岛的产权到底归谁所有?

源溯历史
2026-01-02 18:50:36
2026-01-18 09:39:00
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
441文章数 14关注度
往期回顾 全部

科技要闻

两枚火箭发射失利,具体原因正排查

头条要闻

牛弹琴:美欧直接开干 全世界看得目瞪口呆

头条要闻

牛弹琴:美欧直接开干 全世界看得目瞪口呆

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

马年春晚首次联排场外细节!

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

本地
手机
亲子
时尚
旅游

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

手机要闻

红魔11 Air:AI游戏圈搜,哪里不会圈哪里?

亲子要闻

我要让快乐永远把你包围!

翻拍一部剧,有这么难吗?

旅游要闻

江苏南京:梅花绽放迎客来

无障碍浏览 进入关怀版