网易首页 > 网易号 > 正文 申请入驻

视频生成告别“瞬移变形”,群核科技Hugging Face登顶背后:空间语言改写AI物理世界规则

0
分享至

AIGC技术正从文本、图像生成向更复杂的3D空间与视频领域延伸,但现有模型普遍面临两大核心挑战:一是对物理世界空间结构的理解不足,导致3D场景生成缺乏逻辑性;二是视频创作中因视角切换引发的时空一致性问题。

“何时人工智能从数字世界走向物理世界呢?我们认为空间智能就是这里面非常关键的桥梁。”群核科技联合创始人兼董事长黄晓煌表示。

而对于空间智能来说,它的核心是让AI真正理解物理世界的“语言”:要让AI学会用“空间语言”描述世界,这是它走进物理世界的第一步。

上周,杭州“六小龙”之一的群核科技正式宣布开源新一代空间语言模型SpatialLM 1.5与空间生成模型SpatialGen。这是中国企业首次面向全球开发者开放专注于3D室内场景认知与生成的大模型体系。

让AI“读懂”空间的几何密码

此次发布的两款模型分别针对文章开头所提的两大痛点——SpatialLM 1.5通过“空间语言”实现3D场景的结构化生成与交互,SpatialGen则依托3D高斯技术保障多视角图像的空间连贯性。

前者生成的场景富含物理正确的结构化信息,支持用户通过对话交互系统SpatialLM-Chat进行可交互场景的端到端生成,能够有效解决机器人训练数据难题;后者,专注于“生成与呈现”, 可根据文字描述、参考图像和3D空间布局,生成具有时空一致性的多视角图像。

据介绍,传统多模态模型(如GPT-4V、通义千问VLM)通过将图像切割为视觉Token与文本对齐,实现跨模态理解,但本质仍是对2D信息的处理。即VLM能描述“这是一张沙发”,但无法理解类似“沙发长2米、距墙50厘米”之类的空间信息,更不能基于这些数据生成可编辑的3D场景。

SpatialLM 1.5的突破在于,它将空间关系编码为“语言”,是非多模态的“语言模型”,它基于通义千问3小模型训练,通过“空间语言”指令实现3D场景的端到端生成。例如,用户输入“生成100平方米两居室,主卧含带扶手的老人床”,模型会输出包含墙线坐标、家具尺寸、物理参数的结构化脚本,并自动匹配资产库中的3D模型完成布局。

一个比较重要的维度就是空间理解。”周子寒解释。传统大模型生成的是自然语言描述,而SpatialLM输出的是可直接用于渲染、仿真的空间代码。这一能力也使其成为具身智能机器人训练的关键工具——群核科技现场演示显示,基于SpatialLM1.5生成的家庭场景,机器人可自主规划“从卧室取药到客厅”的路径,并规避障碍物。

能达到这样的效果,与群核平台自有的稀缺数据有很大关系。据介绍,3D数据的稀缺性是空间智能发展的核心瓶颈,互联网上有百亿级图像文本数据,但高质量3D场景不足千万级,且标注成本极高。

“我最早是在NVIDIA做Cuda,出来之后发现用GPU来加速物理世界的渲染一件非常有意思的事情。酷家乐大量积累的数据是可以用来训练空间理解模型、空间生成模型等,这些模型又可以进一步强化具能力,逐渐形成了一个工具、数据、模型三个环节相互循环的数据飞轮。”黄晓煌介绍。

基于公司早期创办的酷家乐这一全球最大的空间设计平台,截至2025年6月30日,群核科技拥有包含超过4.41亿个3D模型及超过5亿个结构化3D空间场景。

scaling law在AI视频模型上并不奏效

AI视频模型即使有scaling law,我们也不认为它能真正的理解现在的物理世界。”群核科技AI产品总监龙天泽表示。

当前AI视频生成工具(如Sora、即梦)常因视角切换导致物体“瞬移”“变形”,例如,在生成一条让高达跳舞的视频时,其腿部的反向扭曲、模型的穿透、移动时背景的混乱等,都是很典型的AI视频工具面临的真正问题。

“本质是它们基于2D图像序列训练,不懂3D空间规则。它学会了如何让上一帧图像在视觉上变的更像下一帧图像,不理解所谓的物理世界运行的基本逻辑。”龙天泽说。也正因此,scaling law在AI视频模型上似乎并不奏效。

群核此次开源的SpatialGen通过多视角扩散模型打破了这一局限。它以3D高斯场景为中间载体,输入单张参考图和布局图,即可生成任意视角的图像,且保证物体形状、位置在不同帧中一致。现场演示显示,基于SpatialGen生成的12秒漫游视频,第1秒与第12秒的窗户、摆件位置完全吻合。

让模型“先造世界,再拍视频”,“如同虚拟摄像机,在3D世界内拍摄,所以天然会具备空间逻辑。”这种方式使视频生成效率成倍提升,且支持比如“从厨房直接跳转到卧室”的非连续视角切换。

“我希望它生成某个视角的一张图的时候,只要将这个视角指定,就会按照约束去生成。因为它是一个任意视角的生成模型,所以避免了视频模型非常依赖时空一致性的局限,可以去跳跃着生成任何视角的图片。”周子寒补充。

群核科技也正计划基于SpatialGen年内推出一款AI视频创作工具,或许能够成为全球首款深度融合3D能力的AI视频生成Agent。“广告从业者真的有可能不需要太过于昂贵的团队和前期的资本投入就可以做出接近顶级水平的广告。工业设计师可以在几分钟内快速地为自己的产品完成一个demo,并且展示详细的功能,”龙天泽说。

现场,龙天泽以一款国产香水为原型,生成“日式风格下的落日光影”宣传视频,其在保持商品主体高保证还原的情况下,在复杂的运境和商品动效之下,依然保持了空间的一致性、画面的合理性,内容元素没有崩坏。

基于视频效果,这位香水主理人评价:“离香奈儿、迪奥有非常大的差距,但考虑到生成的时间成本和金钱成本,在目前是比较重大的突破了,对于一些廉价品牌而言,这些视频已经具备足够marketing的属性。”

开源,中国AI的“生态突围”

不过,群核开源两款空间智能模型,并非仅限于技术模型层面的突破。

“目前空间智能肯定还是在一个发展的初期阶段的,我觉得任何一家公司都不可能独享这个市场。”黄晓煌强调,“所以我们在不断地开源数据、模型,希望跟全世界最聪明的大脑,全世界最有创新能力的人一起将这个‘蛋糕’做大,这是我们战略很重要的一部分。”

这在某种程度上也意味着,这家中国企业在空间智能领域,尝试从技术研发迈向生态共建。

2018年,群核认为海量数据是能够训练出一些过去所不掌握的认知能力,于是决定学习李飞飞的ImageNet,开源全球最大空间认知数据集InteriorNet;今年3月,群核再次开源的SpatialLM 1.0,迅速登上Hugging Face趋势榜前三。

目前,其开源策略已引发海外关注,上月群核开源全球首个3D高斯数据集InteriorGS,在Hugging Face数据集中排到第一。“它的作用是什么?过去自动驾驶领域的争议在于,做空间认知要不要激光雷达还是纯视觉就行了?中国很多车厂是用激光雷达的,但二者能否统一?这个数据集开源之后,很多机构跑过来跟我们讨论3D高斯作为统一输入好像是可行。”黄晓煌透露。

这种影响力背后是技术路线的差异化。与李飞飞团队World Labs的“3D场景生成”不同,群核聚焦“可交互的功能场景”。周子寒评价,李飞飞团队公布的Demo在大范围漫游上表现不错,但与其他业内已推出的世界模型一样,以3D表征为基础的世界模型,都会在空间一致性上有所缺失。此外,在生成的物理属性上,群核生成的场景不仅能看,还能让机器人开门、取物,这是工业级应用的关键

“第一是真实感的全息漫游,第二是结构化可交互,第三是复杂的室内场景。”周子寒总结空间智能大模型的特点。基于此,周子寒也认为,基于空间智能大模型体系,工业软件领域曾经面临的“卡脖子”问题,中国企业有望探索出一条新路径。

“传统工业软件的‘卡脖子’源于底层复杂的几何算法,但空间大模型提供了新路径。通过找一些增量方式,将原来在传统软件不太能涉及的领域,进行补齐,就有能力打造一个之前缺失的几何内核的部分。”周子寒表示,即SpatialLM通过自然语言生成场景,在后续的探索中,有可能绕过传统CAD的复杂操作逻辑,“我们不做达索、Autodesk的替代品,而是创造‘AI原生’的设计工具——这就是弯道超车。”(本文首发钛媒体APP 作者 |秦聪慧)‌

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1979年越南战败后,黎笋要求中国边线北移100公里,杨得志:打!

1979年越南战败后,黎笋要求中国边线北移100公里,杨得志:打!

兵卒史
2026-03-26 10:26:03
上海妈妈寻亲27年,悬赏上海市区一套房!“不需要回来尽孝,只在等一个拥抱”

上海妈妈寻亲27年,悬赏上海市区一套房!“不需要回来尽孝,只在等一个拥抱”

环球网资讯
2026-03-26 15:06:31
伊朗外长:停火无保障 战争将循环

伊朗外长:停火无保障 战争将循环

新华社
2026-03-26 04:49:02
樊振东空降迈阿密,新身份曝光!回归国乒成谜!吴敬平发文!

樊振东空降迈阿密,新身份曝光!回归国乒成谜!吴敬平发文!

好乒乓
2026-03-26 12:28:10
鹅蛋营养价值惊人,发现:常吃鹅蛋的人,不用多久,或有4个改善

鹅蛋营养价值惊人,发现:常吃鹅蛋的人,不用多久,或有4个改善

垚垚分享健康
2026-03-23 17:30:11
Manus的两名联合创始人被告知不要离开中国

Manus的两名联合创始人被告知不要离开中国

新浪财经
2026-03-26 13:50:59
5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

5分钟开通国家免费电视!不用机顶盒、不连网,永久免费

叮当当科技
2026-03-20 03:29:51
外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

新京报
2026-03-25 15:37:27
笑着告别观众,转身去蹲3年半!2.3亿被没收,蔡正元藏着太多故事

笑着告别观众,转身去蹲3年半!2.3亿被没收,蔡正元藏着太多故事

行者聊官
2026-03-20 17:40:44
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

佳兆业预告扭亏为盈超500亿,深圳核心项目价值凸显

乐居财经官方
2026-03-26 10:14:46
以色列要让全世界禁声?斩首俄罗斯记者,普京下令,撞枪口上了

以色列要让全世界禁声?斩首俄罗斯记者,普京下令,撞枪口上了

林子说事
2026-03-24 00:50:49
小伙领证5小时后失踪,新婚妻子继承全部遗产,真相让人不寒而栗

小伙领证5小时后失踪,新婚妻子继承全部遗产,真相让人不寒而栗

碎碎纪实
2026-03-26 11:07:33
5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

三农老历
2026-03-26 09:42:30
越挖越多!张雪峰离世早有征兆,他的2个不良嗜好,或成催命符

越挖越多!张雪峰离世早有征兆,他的2个不良嗜好,或成催命符

爆笑大聪明阿衿
2026-03-25 23:04:10
“老人味”的祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

“老人味”的祸首被揪出!医生提醒:55岁后要少碰,老了或也没味

今日养生之道
2026-03-23 11:46:39
巨乳性感绑带浑圆大腿!日本格斗游戏劲爆手办预告

巨乳性感绑带浑圆大腿!日本格斗游戏劲爆手办预告

游民星空
2026-03-25 19:48:32
香港再无董建华

香港再无董建华

华人星光
2025-11-25 12:01:27
拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

卷史
2026-03-26 09:34:56
破案!陈家政表现神勇杜锋却全程黑脸原因找到,现场球迷说出实情

破案!陈家政表现神勇杜锋却全程黑脸原因找到,现场球迷说出实情

后仰大风车
2026-03-26 08:15:08
2026-03-26 16:03:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
131356文章数 862012关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
房产
旅游
本地
军事航空

转头就晕的耳石症,能开车上班吗?

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

旅游要闻

济南动物园“花朝荟”系列活动浪漫上演

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版