网易首页 > 网易号 > 正文 申请入驻

视频生成告别“瞬移变形”,群核科技Hugging Face登顶背后:空间语言改写AI物理世界规则

0
分享至


AIGC技术正从文本、图像生成向更复杂的3D空间与视频领域延伸,但现有模型普遍面临两大核心挑战:一是对物理世界空间结构的理解不足,导致3D场景生成缺乏逻辑性;二是视频创作中因视角切换引发的时空一致性问题。

“何时人工智能从数字世界走向物理世界呢?我们认为空间智能就是这里面非常关键的桥梁。”群核科技联合创始人兼董事长黄晓煌表示。

而对于空间智能来说,它的核心是让AI真正理解物理世界的“语言”:要让AI学会用“空间语言”描述世界,这是它走进物理世界的第一步。

上周,杭州“六小龙”之一的群核科技正式宣布开源新一代空间语言模型SpatialLM 1.5与空间生成模型SpatialGen。这是中国企业首次面向全球开发者开放专注于3D室内场景认知与生成的大模型体系。

让AI“读懂”空间的几何密码

此次发布的两款模型分别针对文章开头所提的两大痛点——SpatialLM 1.5通过“空间语言”实现3D场景的结构化生成与交互,SpatialGen则依托3D高斯技术保障多视角图像的空间连贯性。

前者生成的场景富含物理正确的结构化信息,支持用户通过对话交互系统SpatialLM-Chat进行可交互场景的端到端生成,能够有效解决机器人训练数据难题;后者,专注于“生成与呈现”, 可根据文字描述、参考图像和3D空间布局,生成具有时空一致性的多视角图像。

据介绍,传统多模态模型(如GPT-4V、通义千问VLM)通过将图像切割为视觉Token与文本对齐,实现跨模态理解,但本质仍是对2D信息的处理。即VLM能描述“这是一张沙发”,但无法理解类似“沙发长2米、距墙50厘米”之类的空间信息,更不能基于这些数据生成可编辑的3D场景。

SpatialLM 1.5的突破在于,它将空间关系编码为“语言”,是非多模态的“语言模型”,它基于通义千问3小模型训练,通过“空间语言”指令实现3D场景的端到端生成。例如,用户输入“生成100平方米两居室,主卧含带扶手的老人床”,模型会输出包含墙线坐标、家具尺寸、物理参数的结构化脚本,并自动匹配资产库中的3D模型完成布局。

一个比较重要的维度就是空间理解。”周子寒解释。传统大模型生成的是自然语言描述,而SpatialLM输出的是可直接用于渲染、仿真的空间代码。这一能力也使其成为具身智能机器人训练的关键工具——群核科技现场演示显示,基于SpatialLM1.5生成的家庭场景,机器人可自主规划“从卧室取药到客厅”的路径,并规避障碍物。

能达到这样的效果,与群核平台自有的稀缺数据有很大关系。据介绍,3D数据的稀缺性是空间智能发展的核心瓶颈,互联网上有百亿级图像文本数据,但高质量3D场景不足千万级,且标注成本极高。

“我最早是在NVIDIA做Cuda,出来之后发现用GPU来加速物理世界的渲染一件非常有意思的事情。酷家乐大量积累的数据是可以用来训练空间理解模型、空间生成模型等,这些模型又可以进一步强化具能力,逐渐形成了一个工具、数据、模型三个环节相互循环的数据飞轮。”黄晓煌介绍。

基于公司早期创办的酷家乐这一全球最大的空间设计平台,截至2025年6月30日,群核科技拥有包含超过4.41亿个3D模型及超过5亿个结构化3D空间场景。

scaling law在AI视频模型上并不奏效

AI视频模型即使有scaling law,我们也不认为它能真正的理解现在的物理世界。”群核科技AI产品总监龙天泽表示。

当前AI视频生成工具(如Sora、即梦)常因视角切换导致物体“瞬移”“变形”,例如,在生成一条让高达跳舞的视频时,其腿部的反向扭曲、模型的穿透、移动时背景的混乱等,都是很典型的AI视频工具面临的真正问题。

“本质是它们基于2D图像序列训练,不懂3D空间规则。它学会了如何让上一帧图像在视觉上变的更像下一帧图像,不理解所谓的物理世界运行的基本逻辑。”龙天泽说。也正因此,scaling law在AI视频模型上似乎并不奏效。

群核此次开源的SpatialGen通过多视角扩散模型打破了这一局限。它以3D高斯场景为中间载体,输入单张参考图和布局图,即可生成任意视角的图像,且保证物体形状、位置在不同帧中一致。现场演示显示,基于SpatialGen生成的12秒漫游视频,第1秒与第12秒的窗户、摆件位置完全吻合。

让模型“先造世界,再拍视频”,“如同虚拟摄像机,在3D世界内拍摄,所以天然会具备空间逻辑。”这种方式使视频生成效率成倍提升,且支持比如“从厨房直接跳转到卧室”的非连续视角切换。

“我希望它生成某个视角的一张图的时候,只要将这个视角指定,就会按照约束去生成。因为它是一个任意视角的生成模型,所以避免了视频模型非常依赖时空一致性的局限,可以去跳跃着生成任何视角的图片。”周子寒补充。

群核科技也正计划基于SpatialGen年内推出一款AI视频创作工具,或许能够成为全球首款深度融合3D能力的AI视频生成Agent。“广告从业者真的有可能不需要太过于昂贵的团队和前期的资本投入就可以做出接近顶级水平的广告。工业设计师可以在几分钟内快速地为自己的产品完成一个demo,并且展示详细的功能,”龙天泽说。

现场,龙天泽以一款国产香水为原型,生成“日式风格下的落日光影”宣传视频,其在保持商品主体高保证还原的情况下,在复杂的运境和商品动效之下,依然保持了空间的一致性、画面的合理性,内容元素没有崩坏。

基于视频效果,这位香水主理人评价:“离香奈儿、迪奥有非常大的差距,但考虑到生成的时间成本和金钱成本,在目前是比较重大的突破了,对于一些廉价品牌而言,这些视频已经具备足够marketing的属性。”

开源,中国AI的“生态突围”

不过,群核开源两款空间智能模型,并非仅限于技术模型层面的突破。

“目前空间智能肯定还是在一个发展的初期阶段的,我觉得任何一家公司都不可能独享这个市场。”黄晓煌强调,“所以我们在不断地开源数据、模型,希望跟全世界最聪明的大脑,全世界最有创新能力的人一起将这个‘蛋糕’做大,这是我们战略很重要的一部分。”

这在某种程度上也意味着,这家中国企业在空间智能领域,尝试从技术研发迈向生态共建。

2018年,群核认为海量数据是能够训练出一些过去所不掌握的认知能力,于是决定学习李飞飞的ImageNet,开源全球最大空间认知数据集InteriorNet;今年3月,群核再次开源的SpatialLM 1.0,迅速登上Hugging Face趋势榜前三。

目前,其开源策略已引发海外关注,上月群核开源全球首个3D高斯数据集InteriorGS,在Hugging Face数据集中排到第一。“它的作用是什么?过去自动驾驶领域的争议在于,做空间认知要不要激光雷达还是纯视觉就行了?中国很多车厂是用激光雷达的,但二者能否统一?这个数据集开源之后,很多机构跑过来跟我们讨论3D高斯作为统一输入好像是可行。”黄晓煌透露。

这种影响力背后是技术路线的差异化。与李飞飞团队World Labs的“3D场景生成”不同,群核聚焦“可交互的功能场景”。周子寒评价,李飞飞团队公布的Demo在大范围漫游上表现不错,但与其他业内已推出的世界模型一样,以3D表征为基础的世界模型,都会在空间一致性上有所缺失。此外,在生成的物理属性上,群核生成的场景不仅能看,还能让机器人开门、取物,这是工业级应用的关键

“第一是真实感的全息漫游,第二是结构化可交互,第三是复杂的室内场景。”周子寒总结空间智能大模型的特点。基于此,周子寒也认为,基于空间智能大模型体系,工业软件领域曾经面临的“卡脖子”问题,中国企业有望探索出一条新路径。

“传统工业软件的‘卡脖子’源于底层复杂的几何算法,但空间大模型提供了新路径。通过找一些增量方式,将原来在传统软件不太能涉及的领域,进行补齐,就有能力打造一个之前缺失的几何内核的部分。”周子寒表示,即SpatialLM通过自然语言生成场景,在后续的探索中,有可能绕过传统CAD的复杂操作逻辑,“我们不做达索、Autodesk的替代品,而是创造‘AI原生’的设计工具——这就是弯道超车。”(本文首发钛媒体APP 作者 |秦聪慧)‌

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两家A股公司同日公告:被证监会立案调查!

两家A股公司同日公告:被证监会立案调查!

每日经济新闻
2026-01-30 22:05:05
橙子再次被发现!医生发现:高血压患者常吃橙子,或出现3种变化

橙子再次被发现!医生发现:高血压患者常吃橙子,或出现3种变化

蜉蝣说
2026-01-28 11:07:41
震惊!你绝对想不到艾滋病高发地是这里!

震惊!你绝对想不到艾滋病高发地是这里!

特约前排观众
2026-01-15 00:10:08
长期缺钱的女人,一眼就能看出来,因为都有这几个“穷习惯”

长期缺钱的女人,一眼就能看出来,因为都有这几个“穷习惯”

放牛娃的遐想
2026-01-23 08:16:26
林德斯:鲁本-迪亚斯家中遭遇入室盗窃,他会在周一回归训练

林德斯:鲁本-迪亚斯家中遭遇入室盗窃,他会在周一回归训练

懂球帝
2026-01-30 22:07:15
不再隐瞒!樊振东深夜发文信息量大,两年之约终兑现

不再隐瞒!樊振东深夜发文信息量大,两年之约终兑现

罗纳尔说个球
2026-01-29 22:37:10
张维伊参加研讨会!皮衣短发很清爽,发言时“额”频繁出现引吐槽

张维伊参加研讨会!皮衣短发很清爽,发言时“额”频繁出现引吐槽

有范又有料
2026-01-30 09:36:14
戴手铐走完二万五千里,开国前夕去见毛主席,主席却问:你是哪一个?

戴手铐走完二万五千里,开国前夕去见毛主席,主席却问:你是哪一个?

寄史言志
2026-01-17 17:30:15
一年狠跌30%,深圳这些豪宅开始补跌!网友:还是太贵!

一年狠跌30%,深圳这些豪宅开始补跌!网友:还是太贵!

深圳买房计划
2026-01-30 22:42:30
RMC名记:穆萨-迪亚比首选加盟国米,国米将提交新报价

RMC名记:穆萨-迪亚比首选加盟国米,国米将提交新报价

懂球帝
2026-01-31 01:07:12
刚刚,甘肃景泰发生地震

刚刚,甘肃景泰发生地震

甘肃交通广播
2026-01-30 16:13:17
谢贤前女友大曝恋爱私隐!三年不碰她,却每天给她做“四哥菜芯”

谢贤前女友大曝恋爱私隐!三年不碰她,却每天给她做“四哥菜芯”

阿纂看事
2026-01-09 10:19:00
1939年,李德返回苏联后,对在中国的老婆和年幼的儿子不管不顾

1939年,李德返回苏联后,对在中国的老婆和年幼的儿子不管不顾

古书记史
2026-01-12 21:59:25
三星全新折叠屏来了:屏幕比例神似iPhone Fold 对标苹果

三星全新折叠屏来了:屏幕比例神似iPhone Fold 对标苹果

快科技
2026-01-28 16:54:53
法国猫徒步5个月从西班牙回家!只为再蹭蹭主人的手

法国猫徒步5个月从西班牙回家!只为再蹭蹭主人的手

新欧洲
2026-01-28 21:37:40
骑士跟队:骑士和湖人已经讨论过亨特换八村垒+克内克特

骑士跟队:骑士和湖人已经讨论过亨特换八村垒+克内克特

懂球帝
2026-01-30 23:12:37
北京连下六道指令,陕西硬抗整整四年,最高指示:让749局来

北京连下六道指令,陕西硬抗整整四年,最高指示:让749局来

小哥很OK
2026-01-30 15:25:18
青岛市原副市长吴经建严重违纪违法被查!

青岛市原副市长吴经建严重违纪违法被查!

易点
2026-01-30 20:20:41
日本大选风向巨变!不到24小时,发出危险信号,两大人物可能联手

日本大选风向巨变!不到24小时,发出危险信号,两大人物可能联手

策前论
2026-01-30 11:45:27
女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

纸上的心语
2025-11-23 11:36:00
2026-01-31 01:36:50
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
129211文章数 861735关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

特朗普警告称中英、中加合作是"危险的" 外交部回应

头条要闻

特朗普警告称中英、中加合作是"危险的" 外交部回应

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

时尚
本地
数码
游戏
军事航空

今日热点:《闪灵》今日上映;保险公司确认金晨方曾放弃索赔……

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

数码要闻

陶瓷外壳与键帽,黑爵推出非遗传承人黄云鹏联名Blue67磁轴键盘

我们参加了《古神:风里希》的线下发布会,这次是真的神仙打架

军事要闻

新西兰拒绝特朗普:不加入"和平委员会"

无障碍浏览 进入关怀版