网易首页 > 网易号 > 正文 申请入驻

空间智能“宝藏公司”群核,又为解决AI见光死做了些微小贡献

0
分享至

作者 | 王兆洋
邮箱 | wangzhaoyang@pingwest.com

人工智能正在吟诗作画,我们人类却在打扫卫生。

这句话几乎描述出了今天所有人对AI的困惑,一边是模型底层技术的突破,另一边却是AI进入真实世界后的无力感。一个验证码能摧毁一个压缩全世界知识的AI大脑,一个垃圾桶能绕晕一个拥有30多个自由度的人形机器人。

但AI的发展,并不应该如此“见光死”。

群核科技联合创始人黄晓煌在近期群核TechDay上描述出这个现状后,他也展示了群核对解决这个挑战的最新动作。

这家拥有全球最大室内空间智能数据资源的公司,在8月25日举办了自己的TechDay,其中的重头戏就是再度开源了两款空间智能模型。

第一个是SpatialLM 1.5,它是群核此前在GTC期间发布的SpatialLM的最新迭代版本,此前的模型开源后,立刻爬上HuggingFace 开源模型榜前三,作为群核重要的空间语言模型,这一次它完成了从底层开始的重塑,并增加了交互能力;

另一个则是一款全新的空间生成模型,SpatialGen。它的样貌更接近大家熟悉的视频生成模型,但它想解决一件其他视频模型没能解决的问题——时空一致性。

对于习惯了一些一惊一乍的模型发布的人们来说,这两个模型的气质很是不同,它们并非试图在数字世界里生成更逼真图像或视频的炫技产品,而是开始从更底层的逻辑出发,想要为解决AI的“见光死”问题做些微小但深刻且真实的贡献。

1

只有群核能提供的空间智能新思路

在TechDay上,群核首席科学家周子寒现场演示多个demo。其中一个的场景很有代表性——当他输入指令“帮我生成一个适合老人居住的卧室”,SpatialLM 1.5的系统不仅理解了“老人”这一模糊概念,在场景中放置了轮椅,而且还能根据“需要一个带扶手的单人床”的追问,精准地从素材库中找到对应模型并放置在合理的位置。

在另一个demo里,模型甚至能根据“帮我规划从卧室床边到客厅餐桌的路径”的指令,自动生成最优路线,直观地展示了其在具身智能训练中的巨大潜力。

这一切交互的背后,是模型正在生成和编辑一段段精确的“空间语言”代码。

在全球科技巨头对“世界模型”(World Model)的狂热追逐中,主流路径是“视觉优先”。无论是OpenAI的Sora,还是Google的Genie,它们都试图通过暴力计算(Scaling Law),让模型从海量的视频数据中“悟”出物理规律。这是一种归纳法,期望通过模拟无数水滴的下落,来理解重力。

而群核此次发布的两个模型,则可以说提供了另一条路径:“结构优先”。

SpatialLM的核心,是一种AI哲学的根本性转变。当前主流的多模态技术,在处理3D信息时,往往是将其“拍扁”成点云或图像Token,再与语言Token对齐,这是一种“翻译”或“转码”。总显得不那么直接。

群核选择了一条不同的道路。“如果我们更多的是把它当作是CAD(计算机辅助设计)的一个逆过程的话,你就会天然觉得它就应该是一个语言模型。”群核首席科学家周子寒说。

这一视角的转换至关重要。在CAD的逻辑里,所有三维物体和空间关系,本质上都是由点、线、面等参数化、结构化的几何指令构成的。它不是一堆模糊的像素或点云,而是一段精确的、可被机器理解和执行的代码。

群核的SpatialLM 也按照这个路线不停演进,在SpatialLM时它更多先瞄准空间理解的任务建立自己的能力,一个有趣的细节是,在SpatialLM 1.5上,群核开始叫它“空间语言模型”,它开始从理解延展到更多能力,最明显的,是可以支持用户通过对话交互系统SpatialLM-Chat进行可交互场景的端到端生成。

这是一个全新的思路,也只有拥有大量结构化空间语言资源的群核能够去做更底层的尝试。

如果说SpatialLM是从“语言”和“结构”的维度为AI进入物理世界打下地基,那么一同发布的SpatialGen则从“视觉”和“生成”的维度,提供了一套同样深刻但路径迥异的解法。

SpatialGen更侧重于视觉真实感的一致性,但它没有去“模拟”一个连续的世界,而是选择去“构建”一个一致性的空间。其核心是一个多视角扩散模型,能够根据一张参考图和空间布局,生成任意指定相机点位的、空间上完全一致的多张图片。

当Sora们试图通过模拟海量水滴下落来理解重力时,群核选择先定义清楚杯子和桌面的参数与关系。前者追求的是视觉上的“看起来像”,而后者追求的是物理上的“本来就是”。

“你可以任意指定这个相机的轨迹,它可以是跳跃的,”周子寒解释道,“它不用过多地依赖这种时间的连续性。”这种“跳跃”的能力,恰恰是对当前视频生成模型“一致性”困境的一种巧妙解答——连续生成视频,意味着模型必须处理A点到B点之间所有帧的连贯性,这极大地增加了出错的概率。“你未来要从A到B,你要让A到B一致,你要把A到B中间所有的(帧)都得做,那你犯错的概率就会高得多,”周子寒说。但从实际效果出发,跳跃式是个更好的选择。

当天展示的另一个demo也生动地诠释了这种差异:

当你给SpatialGen提供一个老房子的几张照片,它随即能生成具有时空一致性的多视角图像,再进一步生成老房子的3D高斯场景和渲染漫游视频。

SpatialGen先基于这些单张或有参考布局的图片,去生成多视角的空间一致性的图片模型,然后再进一步通过工作流去获取3D场景高斯点云以及最后的比较灵活视角的漫游视频。

在生成的视频中,你可以自由地在这个老房子内“全息漫游”。无论是墙上的老旧海报,还是柜子上摆放的物件,在任意视角和运镜下都保持着惊人的一致性。

而在另一个有一些“剧透”未来方向的demo中,你可以隐约看到这些模型结合在群核的空间智能能力之下,会怎样进化下去。

在一个彩蛋demo里,群核的三位公司创始人化身舞者,在十几个分镜和复杂的360度运镜下,人物形象、动作与背景空间都保持了高度的连贯与合理,彻底告别了其他AI视频模型中常见的“群魔乱舞”式崩坏。

对于包括商业视频在内的,对一致性有更严格追求的场景来说,它能发挥的作用都足够让用户们充满想象了。

1

来自真实世界的AI公司,才能解决AI进入真实世界的问题

在群核这场热闹的TechDay里体验和了解这家公司在空间智能上做的一切工作,你有时还是会感到神奇。

过往人们所熟悉的酷家乐,和它一直以来在做的事情,就这样在AI爆发的时代统一到了空间智能这件事上。你能明显感到包括SpaitalLM1.5和SpatialGen的独特之处,你越了解这家公司,会越发明显感到许多事只能群核来做。

回看这家公司的发展历程,似乎有某种偶然性,但如果你回看整个AI发展历程里起到关键作用的诸多公司,会发现偶然很多时候是有它内在的逻辑存在的。

对群核来说,故事的起点是GPU。黄晓煌从NVIDIA出来创业,最初想用GPU加速物理世界的渲染,却遇到了一个大挑战,在当时,同时降低算力成本和提升速度是个难题。群核想出的解法是基于云端搭建GPU服务器,利用云端高性能计算来实现仿真渲染,这带来了酷家乐这个云端3D设计工具。

在当时来看,它是一个创始团队的技术背景和技术信仰与现实业务需求之间结合的产物,但今天来看,它为群核在物理世界高质量数据的沉淀开了头。

随着数据的积累,群核也开始意识到这是一个富矿,2018年群核发布了InteriorNet数据集,立刻有硅谷的科技公司找上门,对这个数据集表现出极大兴趣,这进一步让群核确认这些3D数据的价值。

之后,随着酷家乐成为全球最大的空间设计软件,群核的数据资源更加丰富,而酷家乐背后的思路也让群核在今天找到的数据获取的“第三路径”有了可能。

对于数据的收集来说,传统意义上第一条路径是成本高昂的实地扫描,第二条路径是人工合成数据,过去酷家乐的沉淀也大多来自这条路,然后它们再通过群核的平台SpatialVerse合成数据引擎去完成处理。而SpatialLM1.5代表的第三条路是参数化空间场景的自动生成,由此带来完全不同的数据,以及对这些数据的使用方式。

如周子寒分享的,酷家乐本身对结构化数据的理解与其他基于视觉的路线就有不同。酷家乐的业务逻辑——让设计师用参数化的工具进行室内设计,并确保设计方案可以被精准地生产和制造——决定了其产生的数据必须是结构化的。

这埋下了将空间数据以“语言”的形式来理解的技术思路,并最终走出了很有群核风格的第三条路。

历史总有相似的韵脚。英伟达并非为了AI而发明GPU,Google也并非为了AI而做搜索,它们的偶然最终都成为了必然。一个原因,是源于对底层技术的持续追求。另一个更重要的原因,是在AI每一次遇到关键挑战时,它们恰好已经在那里了——当AI需要海量并行计算,英伟达的GPU成了关键;当AI需要压缩世界知识,Google的互联网数据成了最好的养分。

而今天,AI进入物理世界,开始面对“见光死”的挑战,当它面对真实环境充满无力感时,群核这样来自真实物理世界的AI公司,以及它在酷家乐时期无心插柳积累下的结构化数据,成为了重要的解药。它某种程度上像是空间数据版的Google,也像是空间智能里的英伟达。酷家乐时期,业务看起来围绕着具体的家装场景,但“群核”这个名字所代表的对计算和技术的初心从未改变。正是这种坚持,最终将看似接地气的业务,转化为了当AI走进物理世界时最稀缺的真实数据资源,成就了今天的群核。酷家乐为代表的生长时期,给今天群核带来了挖不尽的空间智能富矿,让它成为一个空间智能的“宝藏公司”。

“我们发现这些大量积累的数据是可以用来训练模型的,”黄晓煌在TechDay上完整地阐述了这个逻辑闭环,“这些模型,又可以进一步强化我们工具的能力,我们在过程当中就发现它形成了一个数据飞轮。”

“我们希望它是一个能够自己反馈的系统,未来它会对自己摆的东西去反思,然后有推理和思考的能力,然后让这些新的数据滚动起来,再让模型变得更强。”周子寒说。

AI时代的酷家乐和它一整个产品体系,会长在这个空间智能系统之上。据黄晓煌透露,群核在SpatialLM的基础上开发了新的编辑工具,而这个建在新的大模型基础上的工具,设计的智能程度和正确率都比原有的传统AI强很多,同时它可交互,可修改、可互动,这些都是传统的2D AI所无法实现的。

而未来的群核,也会变成一个空间智能更底层基础设施般的存在——

“我们定位是全球空间智能服务提供商,我们主要做的是空间编辑工具,由工具来生成海量的数据,由数据再来生成大模型,以此来形成一个循环,滚动发展。”黄晓煌说。

空间智能是解决真实世界问题的技术,它需要一个生长在真实世界的公司来完成这个使命,一个十分接地气,又从未放弃技术理想的群核,正迎来它的关键时刻。

点个爱心,再走 吧!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发!以色列彻底失控!

突发!以色列彻底失控!

财经要参
2026-03-26 21:58:11
没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

岁月有情1314
2026-03-26 12:13:10
广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

广东女子十几万爱马仕包被狗啃坏,配色稀有没法修复,回应:心疼包,更担心狗子的肠胃

大象新闻
2026-03-26 13:53:02
特朗普再次表态:伊朗正与美方对话

特朗普再次表态:伊朗正与美方对话

财联社
2026-03-26 23:10:07
高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

高速统一限速3月26日正式落地!五档限速+清理非标不会再乱扣分!

沙雕小琳琳
2026-03-26 09:41:30
广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

封面新闻
2026-03-26 15:36:07
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
一觉醒来,爱吃活鱼的人天塌了,央视曝光的内幕真可怕!

一觉醒来,爱吃活鱼的人天塌了,央视曝光的内幕真可怕!

涛哥锐评
2026-03-26 17:57:04
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

张雪峰汤建魏华等猝死引起重视,多地卫健委推专题普及心源性疾病知识,国家卫健委官微详解:为何年轻男性发病风险高

极目新闻
2026-03-26 20:56:20
伊朗用导弹拼出尊严,中国导弹实力藏不住了,俄专家给出硬核定论

伊朗用导弹拼出尊严,中国导弹实力藏不住了,俄专家给出硬核定论

探源历史
2026-03-25 13:22:35
41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

41岁张雪峰去世后续,其婚姻被扒,已离婚6年,前妻很低调

180视角
2026-03-26 13:01:03
尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

游民星空
2026-03-26 11:58:13
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

张雪峰猝然离世,办公室内景曝光,摆设奇怪,写真照被指像遗照,生前的话字字催泪

笔墨V
2026-03-26 14:53:51
曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

我爱英超
2026-03-26 20:47:14
6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

6900万元!摩洛哥要求塞内加尔归还非洲杯奖金+奖牌 后者强硬拒绝

风过乡
2026-03-26 19:13:28
中国动“真格”了!中方霸气警告:90天内358亿赔偿金必须到位

中国动“真格”了!中方霸气警告:90天内358亿赔偿金必须到位

趣生活
2026-03-26 22:16:24
国际油价暴跌!3月24日,全国各地各大加油站92号汽油、95号汽油、98号汽油最新油价

国际油价暴跌!3月24日,全国各地各大加油站92号汽油、95号汽油、98号汽油最新油价

吉林乌拉侯
2026-03-25 02:56:11
2026-03-27 04:12:49
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2960文章数 10473关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
时尚
游戏
公开课
军事航空

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

400万人爱过的女孩,被黄谣网暴180天后

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版