网易首页 > 网易号 > 正文 申请入驻

被谷歌点名感谢!杭州六小龙开源黑科技,让机器人瞬间「悟透」3D世界

0
分享至

新智元报道

编辑:编辑部 HYZ

【新智元导读】前脚被谷歌点名感谢空间训练平台,后脚又开源了空间模型!杭州六小龙群核科技发了一个空间理解开源模型SpatialLM,让机器人刷一段视频,就能理解物理世界的几何关系。结合之前发布的空间智能训练平台SpatialVerse,群核科技要为机器人提供从空间认知到行动交互的训练闭环。机器人也被「卷」到要上学了。

最近,一篇谷歌训练模型的论文里,竟然感谢了一家中国公司!

2025年,谷歌与斯坦福联合发表的FirePlace论文中,这项研究首次让AI学会像人类一样「布置房间」:沙发不悬空、台灯必放桌面、书架与墙保持合理间距。而实现这一切的背后,也有来自一家中国公司的技术贡献。

「我们感谢群核科技SpatialVerse团队提供的物理级真实3D场景数据。」论文中提到。

谷歌提及的群核科技正是前段时间因杭州六小龙出圈的科技企业之一,其业务聚焦空间智能探索,而论文中提到的SpatialVerse是群核面向具身智能等行业开放的虚拟数字道场,通过合成可交互三维数据实现机器人训练。

短短两周后,这家企业又在GTC 2025大会上开源了他们的最新模型SpatialLM。

SpatialLM是一个空间理解模型,仅凭一部手机拍摄的视频,即可生成带物理规则的的3D场景布局。

想象一下,通过一部手机录下家庭的布局画面,给到SpatialLM后,便能输出完整的3D空间信息:房间布局、家具摆放、通道宽度悉数标注。

紧接着,虚拟数字道场SpatialVerse基于这一3D场景的数据生成更多的物理真实场景,这些虚拟的场景中,机器人可训练避障、抓取、紧急制动,在训练成本和效率各方面都得到显著提升。

目前,SpatialLM已在HuggingFace、GitHub、魔搭社区等平台面向全球开发者开源。

群核科技SpatialLM模型开源页面

听起来很复杂,但简单地说,SpatialLM的本质就像是一台「空间翻译机」,通过视频理解物理世界的几何关系,再将其转化为机器能读懂的指令。

这相当于教会机器用人类直觉感知世界。传统机器人的训练方法如同「盲人摸象」,仅靠2D图像猜测三维空间;而SpatialLM赋予机器人「3D视觉」和「物理常识」——床头柜不能挨着柜门放、餐桌常规高度80厘米,来还原真实的训练场景。

但群核科技的目的不止于此,它真正想做的是推动具身智能训练完成从认知到行动的链路闭环。当SpatialLM帮助机器人跨过「空间理解」门槛后,群核科SpatialVerse这个「数字道场」,让机器人在仿真环境中完成了技能学习。

给机器人刷一段视频,它会看见什么?

SpatialLM模型能让机器像人类一样理解三维空间,这一突破性技术改变了机器人「看」世界的方式。

假设我们需要训练机器人整理房间,传统的训练方法有两种:一是对2D视频进行数据标注,把视频截图成照片,告诉机器人「这是沙发、这是桌子」。

但机器人只知道这些物体的名字,不知道它们的位置、大小,也不知道怎么移动它们;二是用专业激光雷达扫描房间(类似测绘仪)形成3D点云,但成本高且步骤复杂时间周期长。

SpatialLM采用了一种创新型的方式:用一部普通手机拍摄视频,通过模型变成结构化3D场景的机器语言,输入给机器人,既能降低采集成本,又能更好地还原3D场景。

这种做法模拟了人类的感知行为体系:看视频后,直接在脑子里生成客厅的3D地图,并标注其中物体所有细节。

它的技术原理也并不复杂。

首先,给定一个RGB视频,使用MASt3R-SLAM来重建3D点云:通过把视频拆解成无数帧画面,从中标记出沙发扶手、茶几边缘、地板纹路等细节的「空间点」,再计算这些小点的深度和位置 ,拼接成完整的3D点云模型。

从视频中提取点云数据并重建场景

接着,SpatialLM将这些密集的点云转换为结构化表示。点云编码器将点云编码为紧凑的特征,而大语言模型(LLM)生成描述场景的场景代码。

输出文本信息

最终,这些代码可以转换为结构化3D结构布局。即将空间点云像乐高积木一样拼接成完整的3D模型,比如沙发离墙1.2米、茶几高45厘米等数据一清二楚。

转化为结构化3D布局

SpatialLM是基于大语言模型训练的。同时,它突破了大语言模型对物理世界几何与空间关系的理解局限,赋予机器类人的空间认知和解析能力。

SpatialLM处理完视频后,不只是简单地「看懂」空间,而是生成一套完整的结构化数据。这套数据清晰记录了环境中每个物体的关键信息,比如三维坐标、尺寸参数、类别信息等。供机器人理解空间结构关系。

SpatialLM运行原理

配合3D可视化软件可将结构化数据转换为直观的虚拟空间模型。这一过程类似于将文字描述的建筑图纸变成三维建模效果图,让开发者和用户能直观查看、验证空间布局的准确性。

虽然业界已有对图像、视频进行参数化描述模型,但SpatialLM的独特性在于它有更通用的数据输入模式,无须借助智能穿戴设备作为传感器输入数据,手机、相机所拍摄的视频均可以成为数据来源。

未来,SpatialLM还将支持自然语言交互模式,例如作为智能助手与人类互动,并赋予具身代理在复杂环境中执行复杂任务的能力。

总结而言,SpatialLM为机器人提供了一份详尽而精准的「世界地图」,让它们能够像人类一样,既了解环境的静态布局,也掌握物体的动态交互规则,从而在复杂现实世界中灵活应对各种任务挑战。

对于具身智能企业和研究机构而言,他们无需从零开发,基于SpatialLM模型进行微调即可,从而降低具身智能训练门槛。

从认知到行动,构建具身智能的训练闭环

目前具身智能行业呈现出高热度但落地困难的矛盾局面。一方面,投资不断涌入,技术论文层出不穷;另一方面,能在真实环境中稳定工作的机器人系统却寥寥无几。

核心问题在于面对一个高度集成软件(AI)和硬件(制造)的新兴行业,一切的标准都没有统一,包括机器人的硬件操作系统。通用训练平台甚至小到训练数据集,都是分散在海量低质数据环境中。

除了上述提到2D数据无法满足训练条件但3D数据采集成本高昂外,最致命的问题是机器人对环境变化的适应能力极差。在传统训练模式下,环境中哪怕最微小的变化(如垃圾桶位置挪动)对机器人而言都是全新场景,需要重新学习。这导致在实验室表现完美的机器人,进入真实家庭后常常「束手无策」。

这些问题的根源在于从感知到行动的智能闭环缺失——机器人能「看到」世界,却无法基于所见做出合理决策和行动,从而无法适应真实多变的环境。而群核科技通过将模型和数据集进行了有机结合,构建了从空间认知理解到空间行动交互闭环的具身智能训练完整闭环系统。

比如,SpatialLM模型能从普通视频中识别出「沙发」、「冰箱」等物体及其基本属性。紧接着,语言理解层将语义标签与物体关联,赋予它们功能和用途,如「沙发是用来坐的」、「冰箱门需要拉开」,让机器人理解「物体怎么用」,避免违反基本操作逻辑的行为。

此前的虚拟训练平台面临严重的「数据饥渴」问题,平台技术只能提供训练工具,却苦于没有足够的高质量数据喂养。而传统数据采集成本高昂,导致训练数据稀缺,形成恶性循环。

事实上,考虑到室内场景的多样性和复杂度,场景三维可交互数据来源困难,这也是造成空间智能场景训练「数据饥渴」的核心原因。

群核在过去十余年沉淀的室内三维交互数据成为了具身智能训练的「稀缺石油」,因此备受关注,开篇提到的谷歌论文致谢部分也正源自于此。

大量物理正确的3D仿真数据

追溯具身AI的发展,2018年是一个重要节点。

这一年,OpenAI推出了GPT-1模型,他们的研究人员也证明了:智能体在虚拟世界中学到的技能可以迁移到现实世界。硅谷科技企业随即开始寻找可用的数据资源,而群核科技发布的InteriorNet数据集(一个可交互的三维数据集)恰在此时被学术界和产业界广泛关注。

如果以2018年为起点,拉出一条时间线,具身智能行业开始了一场大规模的「基础设施建设」。这些基础设施主要由两大核心元件构成:高质量的结构化数据和高逼真度的模拟器。群核科技和其他行业先行者正是围绕这两大元件展开布局。

此后几年,国内外又诞生不少优秀数据集:

  • 2019年,群核科技开源结构化数据集Structured3D,帮助机器理解三维结构;

  • 同年,ImageNet发起者李飞飞也发布了面向具身AI的模拟数据集BEHAVIOR;

  • 而近一年来,具身智能领域的开源数据集更是百花齐放,智元开源的AgiBot World就是个典型例子;

但仅有数据还无法实现具身智能训练的范式改变。因此,模拟器作为第二大元件也取得了显著进展。

2021年,NVIDIA基于Omniverse专为机器人和AI模拟推出Isaac Sim;而且SpatialVerse也正与Isaac Sim深度整合,支持基于OpenUSD标准的仿真环境部署,为决策算法提供实时反馈,大大加速了空间智能训练效率;此外,群核科技与英特尔等合作伙伴一起参与高逼真度模拟器SpearSim的建设。

为了提供更接近真实生活状态的训练环境,群核科技自研了一套合成数据训练解决方案。通过模拟室内真实特性、自动分割标注、场景增强及多平台对接等核心能力,确保机器人在虚拟环境中的学习体验与真实世界高度一致,实现从虚拟到现实的无缝迁移。

另一层面,SpatialLM+SpatialVerse又形成了一条「Real2Sim2Real」的路径。SpatialLM源源不断地将现实场景转化为可用于训练的结构化数据,SpatialVerse则进一步扩增这些数据,产生海量训练样本。相当于来自现实世界的一段视频数据,能泛化出亿万个虚拟场景。这不仅让SpatialVerse的数据更多样,同时还能缩小仿真与现实之间的「差距」。

机器人可在这些仿真场景中,学习人类操作,如开关冰箱门、叠被子等。这种基于大量数据的物理认知,让机器人不再是简单地指令执行者,而是具备「常识推理」能力的智能助手,能在复杂现实环境中安全、灵活地完成任务。

机器人在SpatialVerse的仿真场景中训练

如果把机器人通往物理世界的过程看作是「上学」,群核科技做的事其实是在帮机器人「搭建学校」,通过在虚拟空间设计不同的「教案课程」,机器人一路进化,从小学到大学的不断进阶。确保机器人进入真实世界之前,都从这个「学校」毕业了。

而且群核科技现在把这件事情变成更简单,用手机随手拍个视频,就能帮助机器人理解这个世界。当环境发生变化时,只需重新拍摄一段视频,即可更新整个空间模型,机器人无需从零学习。这种动态适应能力让机器人终于能像人类一样,迅速调整自己的行为以应对环境变化。

结语

传统空间智能训练需要顶尖实验室、顶级设备和专业团队,这使其成为少数精英机构的「特权」。群核的方案将这一领域彻底平民化,只要有手机和电脑,任何开发者都能接入这套系统,为机器人创建物理正确的训练环境。

空间智能训练成本从原本的「指数级曲线」(数据量越大,成本越高)变成了「平面结构」(边际成本接近于零)。一旦初始投入完成,生成千万级训练场景的成本与生成百个场景几乎相同。

SpatialLM和SpatialVerse双平台方案不仅解决了这一核心问题,更重要的问题是:要把训练数据的成本降下来,才能实现机器人通用模型的能力涌现。

参考通用大模型能力涌现的路径,第一个阶段就是堆参数训练通用能力,而机器人之所以没有参考这条路径,一个根本原因就在于训练数据太少、训练成本太高,只能训练专有模型。

在这场技术变革中,群核科技不只是在开发新工具,更是在重新定义机器与现实的关系。

未来我们或许迎来一个机器人物种的大爆发时刻,届时会有一个「数字地球」承载它们,这个数字地球将是一个巨大的训练场,机器人会在这里先「生活」一遍,再进入真实地球成为人类的助手和管家。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郑恺苗苗三个孩子长这么大了,苗苗好白好温柔,素颜的状态特别好

郑恺苗苗三个孩子长这么大了,苗苗好白好温柔,素颜的状态特别好

观鱼听雨
2026-06-02 23:23:27
幼儿园开放监控之后:有家长半小时看十几次,老师称“不敢皱眉”

幼儿园开放监控之后:有家长半小时看十几次,老师称“不敢皱眉”

齐鲁壹点
2026-06-01 12:27:07
毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

健康科普365
2026-05-29 21:10:04
逆天!3少年轮奸女学生并笑着拍下了全程,结果法官:不用坐牢,他们还小

逆天!3少年轮奸女学生并笑着拍下了全程,结果法官:不用坐牢,他们还小

北美省钱快报
2026-06-02 04:45:28
比赖清德还狂!若2028年她当台湾地区领导人,解放军出手武力统台

比赖清德还狂!若2028年她当台湾地区领导人,解放军出手武力统台

阿讯说天下
2026-05-26 13:40:22
中央5台直播女排时间表:6月3日CCTV5直播中国女排,李盈莹缺阵

中央5台直播女排时间表:6月3日CCTV5直播中国女排,李盈莹缺阵

薇说体育
2026-06-02 11:49:56
有一种后悔叫买了“高层的2楼”,不好住卖不掉,彻底成为不动产

有一种后悔叫买了“高层的2楼”,不好住卖不掉,彻底成为不动产

装修秀
2026-04-23 11:15:03
250架轰6全副武装,进入战备状态,小泉进次郎:中国是超级核大国

250架轰6全副武装,进入战备状态,小泉进次郎:中国是超级核大国

墨印斋
2026-06-02 22:47:55
斯基拉:曼联4500万欧签埃德森至2031年

斯基拉:曼联4500万欧签埃德森至2031年

懂球帝
2026-06-03 05:27:20
减肥神药存在巨大副作用!不只减少你的体重,也剥夺了你的多巴胺,让人失去快乐

减肥神药存在巨大副作用!不只减少你的体重,也剥夺了你的多巴胺,让人失去快乐

风向观察
2026-05-28 15:31:33
你相信光吗?A股港股齐爆发!这次不一样?

你相信光吗?A股港股齐爆发!这次不一样?

龙行天下虎
2026-06-03 00:39:25
上海负广厦原因揭晓,卢伟犀利点评一针见血

上海负广厦原因揭晓,卢伟犀利点评一针见血

吕彍极限手工
2026-06-03 06:51:21
重磅!松岛辉空离队后签约!与张本智和成队友!王楚钦林诗栋危险了!

重磅!松岛辉空离队后签约!与张本智和成队友!王楚钦林诗栋危险了!

好乒乓
2026-06-02 16:01:38
6死7伤!乡政府大楼被炸震惊中央,四川凉山州6.26特大爆炸案始末

6死7伤!乡政府大楼被炸震惊中央,四川凉山州6.26特大爆炸案始末

易玄
2024-09-11 10:52:41
50岁左小青晒自拍健身照,身材曼妙很吸睛,不愧是纯和欲的结合体

50岁左小青晒自拍健身照,身材曼妙很吸睛,不愧是纯和欲的结合体

木子爱娱乐大号
2026-06-02 19:01:35
黑烟冲天!东莞刚刚爆料...

黑烟冲天!东莞刚刚爆料...

东莞好生活
2026-06-02 19:07:27
随着科斯蒂亚0-2,法网女单四强诞生第一席:世界第8率先晋级

随着科斯蒂亚0-2,法网女单四强诞生第一席:世界第8率先晋级

侧身凌空斩
2026-06-02 18:24:26
在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

在与俄领导人会面后,俄罗斯寡头们“自愿”为战争捐款2200亿卢布

山河路口
2026-06-02 14:04:22
壹号土猪创始人回应商标争议:支持相关整治但实被“误伤”

壹号土猪创始人回应商标争议:支持相关整治但实被“误伤”

南方都市报
2026-06-02 16:33:30
聊天时,女人经常问你“这些问题”,多半是暗示你来撩

聊天时,女人经常问你“这些问题”,多半是暗示你来撩

叶飞飞情感屋
2026-06-02 19:56:40
2026-06-03 07:31:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15372文章数 66896关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

教育
艺术
亲子
房产
数码

教育要闻

进位制之谜,一个视频学明白!

艺术要闻

二十年前割麦的场景

亲子要闻

不少婴儿孕妇中招,央视再曝新毒物!长期用会致癌,已流窜至全国

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

数码要闻

HPB散热加持!三星HBM5预计2028年实现量产

无障碍浏览 进入关怀版