网易首页 > 网易号 > 正文 申请入驻

被谷歌点名感谢!杭州六小龙开源黑科技,让机器人瞬间「悟透」3D世界

0
分享至

新智元报道

编辑:编辑部 HYZ

【新智元导读】前脚被谷歌点名感谢空间训练平台,后脚又开源了空间模型!杭州六小龙群核科技发了一个空间理解开源模型SpatialLM,让机器人刷一段视频,就能理解物理世界的几何关系。结合之前发布的空间智能训练平台SpatialVerse,群核科技要为机器人提供从空间认知到行动交互的训练闭环。机器人也被「卷」到要上学了。

最近,一篇谷歌训练模型的论文里,竟然感谢了一家中国公司!

2025年,谷歌与斯坦福联合发表的FirePlace论文中,这项研究首次让AI学会像人类一样「布置房间」:沙发不悬空、台灯必放桌面、书架与墙保持合理间距。而实现这一切的背后,也有来自一家中国公司的技术贡献。

「我们感谢群核科技SpatialVerse团队提供的物理级真实3D场景数据。」论文中提到。

谷歌提及的群核科技正是前段时间因杭州六小龙出圈的科技企业之一,其业务聚焦空间智能探索,而论文中提到的SpatialVerse是群核面向具身智能等行业开放的虚拟数字道场,通过合成可交互三维数据实现机器人训练。

短短两周后,这家企业又在GTC 2025大会上开源了他们的最新模型SpatialLM。

SpatialLM是一个空间理解模型,仅凭一部手机拍摄的视频,即可生成带物理规则的的3D场景布局。

想象一下,通过一部手机录下家庭的布局画面,给到SpatialLM后,便能输出完整的3D空间信息:房间布局、家具摆放、通道宽度悉数标注。

紧接着,虚拟数字道场SpatialVerse基于这一3D场景的数据生成更多的物理真实场景,这些虚拟的场景中,机器人可训练避障、抓取、紧急制动,在训练成本和效率各方面都得到显著提升。

目前,SpatialLM已在HuggingFace、GitHub、魔搭社区等平台面向全球开发者开源。

群核科技SpatialLM模型开源页面

听起来很复杂,但简单地说,SpatialLM的本质就像是一台「空间翻译机」,通过视频理解物理世界的几何关系,再将其转化为机器能读懂的指令。

这相当于教会机器用人类直觉感知世界。传统机器人的训练方法如同「盲人摸象」,仅靠2D图像猜测三维空间;而SpatialLM赋予机器人「3D视觉」和「物理常识」——床头柜不能挨着柜门放、餐桌常规高度80厘米,来还原真实的训练场景。

但群核科技的目的不止于此,它真正想做的是推动具身智能训练完成从认知到行动的链路闭环。当SpatialLM帮助机器人跨过「空间理解」门槛后,群核科SpatialVerse这个「数字道场」,让机器人在仿真环境中完成了技能学习。

给机器人刷一段视频,它会看见什么?

SpatialLM模型能让机器像人类一样理解三维空间,这一突破性技术改变了机器人「看」世界的方式。

假设我们需要训练机器人整理房间,传统的训练方法有两种:一是对2D视频进行数据标注,把视频截图成照片,告诉机器人「这是沙发、这是桌子」。

但机器人只知道这些物体的名字,不知道它们的位置、大小,也不知道怎么移动它们;二是用专业激光雷达扫描房间(类似测绘仪)形成3D点云,但成本高且步骤复杂时间周期长。

SpatialLM采用了一种创新型的方式:用一部普通手机拍摄视频,通过模型变成结构化3D场景的机器语言,输入给机器人,既能降低采集成本,又能更好地还原3D场景。

这种做法模拟了人类的感知行为体系:看视频后,直接在脑子里生成客厅的3D地图,并标注其中物体所有细节。

它的技术原理也并不复杂。

首先,给定一个RGB视频,使用MASt3R-SLAM来重建3D点云:通过把视频拆解成无数帧画面,从中标记出沙发扶手、茶几边缘、地板纹路等细节的「空间点」,再计算这些小点的深度和位置 ,拼接成完整的3D点云模型。

从视频中提取点云数据并重建场景

接着,SpatialLM将这些密集的点云转换为结构化表示。点云编码器将点云编码为紧凑的特征,而大语言模型(LLM)生成描述场景的场景代码。

输出文本信息

最终,这些代码可以转换为结构化3D结构布局。即将空间点云像乐高积木一样拼接成完整的3D模型,比如沙发离墙1.2米、茶几高45厘米等数据一清二楚。

转化为结构化3D布局

SpatialLM是基于大语言模型训练的。同时,它突破了大语言模型对物理世界几何与空间关系的理解局限,赋予机器类人的空间认知和解析能力。

SpatialLM处理完视频后,不只是简单地「看懂」空间,而是生成一套完整的结构化数据。这套数据清晰记录了环境中每个物体的关键信息,比如三维坐标、尺寸参数、类别信息等。供机器人理解空间结构关系。

SpatialLM运行原理

配合3D可视化软件可将结构化数据转换为直观的虚拟空间模型。这一过程类似于将文字描述的建筑图纸变成三维建模效果图,让开发者和用户能直观查看、验证空间布局的准确性。

虽然业界已有对图像、视频进行参数化描述模型,但SpatialLM的独特性在于它有更通用的数据输入模式,无须借助智能穿戴设备作为传感器输入数据,手机、相机所拍摄的视频均可以成为数据来源。

未来,SpatialLM还将支持自然语言交互模式,例如作为智能助手与人类互动,并赋予具身代理在复杂环境中执行复杂任务的能力。

总结而言,SpatialLM为机器人提供了一份详尽而精准的「世界地图」,让它们能够像人类一样,既了解环境的静态布局,也掌握物体的动态交互规则,从而在复杂现实世界中灵活应对各种任务挑战。

对于具身智能企业和研究机构而言,他们无需从零开发,基于SpatialLM模型进行微调即可,从而降低具身智能训练门槛。

从认知到行动,构建具身智能的训练闭环

目前具身智能行业呈现出高热度但落地困难的矛盾局面。一方面,投资不断涌入,技术论文层出不穷;另一方面,能在真实环境中稳定工作的机器人系统却寥寥无几。

核心问题在于面对一个高度集成软件(AI)和硬件(制造)的新兴行业,一切的标准都没有统一,包括机器人的硬件操作系统。通用训练平台甚至小到训练数据集,都是分散在海量低质数据环境中。

除了上述提到2D数据无法满足训练条件但3D数据采集成本高昂外,最致命的问题是机器人对环境变化的适应能力极差。在传统训练模式下,环境中哪怕最微小的变化(如垃圾桶位置挪动)对机器人而言都是全新场景,需要重新学习。这导致在实验室表现完美的机器人,进入真实家庭后常常「束手无策」。

这些问题的根源在于从感知到行动的智能闭环缺失——机器人能「看到」世界,却无法基于所见做出合理决策和行动,从而无法适应真实多变的环境。而群核科技通过将模型和数据集进行了有机结合,构建了从空间认知理解到空间行动交互闭环的具身智能训练完整闭环系统。

比如,SpatialLM模型能从普通视频中识别出「沙发」、「冰箱」等物体及其基本属性。紧接着,语言理解层将语义标签与物体关联,赋予它们功能和用途,如「沙发是用来坐的」、「冰箱门需要拉开」,让机器人理解「物体怎么用」,避免违反基本操作逻辑的行为。

此前的虚拟训练平台面临严重的「数据饥渴」问题,平台技术只能提供训练工具,却苦于没有足够的高质量数据喂养。而传统数据采集成本高昂,导致训练数据稀缺,形成恶性循环。

事实上,考虑到室内场景的多样性和复杂度,场景三维可交互数据来源困难,这也是造成空间智能场景训练「数据饥渴」的核心原因。

群核在过去十余年沉淀的室内三维交互数据成为了具身智能训练的「稀缺石油」,因此备受关注,开篇提到的谷歌论文致谢部分也正源自于此。

大量物理正确的3D仿真数据

追溯具身AI的发展,2018年是一个重要节点。

这一年,OpenAI推出了GPT-1模型,他们的研究人员也证明了:智能体在虚拟世界中学到的技能可以迁移到现实世界。硅谷科技企业随即开始寻找可用的数据资源,而群核科技发布的InteriorNet数据集(一个可交互的三维数据集)恰在此时被学术界和产业界广泛关注。

如果以2018年为起点,拉出一条时间线,具身智能行业开始了一场大规模的「基础设施建设」。这些基础设施主要由两大核心元件构成:高质量的结构化数据和高逼真度的模拟器。群核科技和其他行业先行者正是围绕这两大元件展开布局。

此后几年,国内外又诞生不少优秀数据集:

  • 2019年,群核科技开源结构化数据集Structured3D,帮助机器理解三维结构;

  • 同年,ImageNet发起者李飞飞也发布了面向具身AI的模拟数据集BEHAVIOR;

  • 而近一年来,具身智能领域的开源数据集更是百花齐放,智元开源的AgiBot World就是个典型例子;

但仅有数据还无法实现具身智能训练的范式改变。因此,模拟器作为第二大元件也取得了显著进展。

2021年,NVIDIA基于Omniverse专为机器人和AI模拟推出Isaac Sim;而且SpatialVerse也正与Isaac Sim深度整合,支持基于OpenUSD标准的仿真环境部署,为决策算法提供实时反馈,大大加速了空间智能训练效率;此外,群核科技与英特尔等合作伙伴一起参与高逼真度模拟器SpearSim的建设。

为了提供更接近真实生活状态的训练环境,群核科技自研了一套合成数据训练解决方案。通过模拟室内真实特性、自动分割标注、场景增强及多平台对接等核心能力,确保机器人在虚拟环境中的学习体验与真实世界高度一致,实现从虚拟到现实的无缝迁移。

另一层面,SpatialLM+SpatialVerse又形成了一条「Real2Sim2Real」的路径。SpatialLM源源不断地将现实场景转化为可用于训练的结构化数据,SpatialVerse则进一步扩增这些数据,产生海量训练样本。相当于来自现实世界的一段视频数据,能泛化出亿万个虚拟场景。这不仅让SpatialVerse的数据更多样,同时还能缩小仿真与现实之间的「差距」。

机器人可在这些仿真场景中,学习人类操作,如开关冰箱门、叠被子等。这种基于大量数据的物理认知,让机器人不再是简单地指令执行者,而是具备「常识推理」能力的智能助手,能在复杂现实环境中安全、灵活地完成任务。

机器人在SpatialVerse的仿真场景中训练

如果把机器人通往物理世界的过程看作是「上学」,群核科技做的事其实是在帮机器人「搭建学校」,通过在虚拟空间设计不同的「教案课程」,机器人一路进化,从小学到大学的不断进阶。确保机器人进入真实世界之前,都从这个「学校」毕业了。

而且群核科技现在把这件事情变成更简单,用手机随手拍个视频,就能帮助机器人理解这个世界。当环境发生变化时,只需重新拍摄一段视频,即可更新整个空间模型,机器人无需从零学习。这种动态适应能力让机器人终于能像人类一样,迅速调整自己的行为以应对环境变化。

结语

传统空间智能训练需要顶尖实验室、顶级设备和专业团队,这使其成为少数精英机构的「特权」。群核的方案将这一领域彻底平民化,只要有手机和电脑,任何开发者都能接入这套系统,为机器人创建物理正确的训练环境。

空间智能训练成本从原本的「指数级曲线」(数据量越大,成本越高)变成了「平面结构」(边际成本接近于零)。一旦初始投入完成,生成千万级训练场景的成本与生成百个场景几乎相同。

SpatialLM和SpatialVerse双平台方案不仅解决了这一核心问题,更重要的问题是:要把训练数据的成本降下来,才能实现机器人通用模型的能力涌现。

参考通用大模型能力涌现的路径,第一个阶段就是堆参数训练通用能力,而机器人之所以没有参考这条路径,一个根本原因就在于训练数据太少、训练成本太高,只能训练专有模型。

在这场技术变革中,群核科技不只是在开发新工具,更是在重新定义机器与现实的关系。

未来我们或许迎来一个机器人物种的大爆发时刻,届时会有一个「数字地球」承载它们,这个数字地球将是一个巨大的训练场,机器人会在这里先「生活」一遍,再进入真实地球成为人类的助手和管家。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北京中医医院院长刘清泉:春季养生记住六字口诀

北京中医医院院长刘清泉:春季养生记住六字口诀

人民日报健康客户端
2026-03-20 21:31:03
成都丽思卡尔顿法拍:牵出项目公司内斗,富力全国甩卖停不下来!

成都丽思卡尔顿法拍:牵出项目公司内斗,富力全国甩卖停不下来!

红蓝白郁金香V
2026-03-21 18:27:09
中央定调,延迟退休正式执行,灵活就业参保缴15年可提前退休吗?

中央定调,延迟退休正式执行,灵活就业参保缴15年可提前退休吗?

另子维爱读史
2026-03-20 18:41:44
上海39度高温送餐员砸玛莎拉蒂救幼儿,豪车主现身:车子归你了

上海39度高温送餐员砸玛莎拉蒂救幼儿,豪车主现身:车子归你了

今天说故事
2025-09-15 18:15:52
明晚开播!CCTV8黄金档又一部大制作剧来袭!阵容好强大

明晚开播!CCTV8黄金档又一部大制作剧来袭!阵容好强大

动物奇奇怪怪
2026-03-21 19:59:17
泰山队0比4惨败云南玉昆的背后:宿茂臻韩鹏无能无力无奈

泰山队0比4惨败云南玉昆的背后:宿茂臻韩鹏无能无力无奈

姜大叔侃球
2026-03-21 22:23:59
3亿铂金级肉签公布中签结果,转股价值80.18,股民中签或许会担忧

3亿铂金级肉签公布中签结果,转股价值80.18,股民中签或许会担忧

数据挖掘分析
2026-03-21 10:35:49
真相来了 | 网传11个美国城市将遭伊朗打击?子虚乌有!

真相来了 | 网传11个美国城市将遭伊朗打击?子虚乌有!

国际在线
2026-03-21 15:09:12
深度分析:谁在恶意保护长春恶意别车路虎车主?

深度分析:谁在恶意保护长春恶意别车路虎车主?

社会日日鲜
2026-03-21 11:44:19
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
陈赫张子萱到香港王祖蓝家做客,亲自下厨做红烧肉 倒大瓶黄酒吓

陈赫张子萱到香港王祖蓝家做客,亲自下厨做红烧肉 倒大瓶黄酒吓

乐天闲聊
2026-03-21 20:21:03
黄和院士再获提拔重用,或将成江苏省属高校首位院士校长

黄和院士再获提拔重用,或将成江苏省属高校首位院士校长

百家论大学
2026-03-21 09:05:07
“丫丫姐”实名举报重庆官员母亲财产被判“道歉”,当事人再发声

“丫丫姐”实名举报重庆官员母亲财产被判“道歉”,当事人再发声

法度law
2026-03-21 18:04:32
1比54压倒性劣势之下被弹劾,杜特尔特父女要被人“算总账”了?

1比54压倒性劣势之下被弹劾,杜特尔特父女要被人“算总账”了?

乐天闲聊
2026-03-21 22:28:43
一夜2大惨败!前总冠军狂输40分,辽篮被逆转输10分,积分榜有变

一夜2大惨败!前总冠军狂输40分,辽篮被逆转输10分,积分榜有变

老吴说体育
2026-03-21 23:48:29
曾投资阿里140亿,还投资恒大200亿,如今只剩一套68平小房子

曾投资阿里140亿,还投资恒大200亿,如今只剩一套68平小房子

小明哗扑
2026-03-19 10:50:52
金价跳水,菜百店里挤满人,有人刚卖完金又抢着买回来

金价跳水,菜百店里挤满人,有人刚卖完金又抢着买回来

趣味萌宠的日常
2026-03-21 20:32:15
张凌赫凭《逐玉》成95生第1人,最该感谢的竟是“拒演”的他?

张凌赫凭《逐玉》成95生第1人,最该感谢的竟是“拒演”的他?

阿废冷眼观察所
2026-03-21 16:40:33
中国新星吴宜泽逼出最强奥沙利文,赛后暖心一幕

中国新星吴宜泽逼出最强奥沙利文,赛后暖心一幕

范动舍长
2026-03-21 19:13:11
西班牙向乌提供12亿美元援助,以色列摧毁俄伊海上大动脉

西班牙向乌提供12亿美元援助,以色列摧毁俄伊海上大动脉

史政先锋
2026-03-19 19:51:55
2026-03-22 01:07:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14777文章数 66705关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

伊朗发射3800公里射程的导弹 最令美军战栗的细节披露

头条要闻

伊朗发射3800公里射程的导弹 最令美军战栗的细节披露

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

旅游
本地
亲子
房产
公开课

旅游要闻

【花Young贵阳】春日限定!十里河滩海棠花盛开引客来

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

亲子要闻

教育部发布通知,幼儿园将迎来大变动,家长:幸福来得太突然!

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版