这次 WAIC,群核的朋友邀请我去看看,有东西要开源:InteriorGS
去之前,我先转了转其他展位
最火的地方,莫过于 「镇馆之宝」:机器人在卖可乐
里三层,外三层,水泄不通
挤进去看了会儿,机器人正识别订单、抓取可乐、递给观众
掐表一看:两分半
要是真在打工,应该早就被炒了
现在工厂里的机械臂,一分钟能完成几百个动作,误差不超过 0.1 毫米
怎么到了这儿,卖瓶可乐都费劲?
后来想明白了:工厂是机器人的「理想国」
工厂里,一切都是确定的:零件位置,传送带速度...不会有偏差
所以,机器人的动作,都可以写死,然后无限循环
真实世界,很不一样
可乐会在冰柜里、货架上,也可能卖完了
下单的,可能是可口可乐,也可以是百事可乐,还可能要樱桃味的(这个我是真喜欢)
遇到有人插队怎么办?小孩子够不着怎么办?
到处都是问题,到处都得处理
不是机器人笨,而是他真没见过
机器人需要「见世面」的机会,在各种场景中练习
展位的意外收获
到了群核展位,先看了个有趣的案例:
杭州老照相馆的 3D 重建
这家开了 60 年的照相馆,店主周爷爷身体不好,很久没法去店里了
群核的工程师,复刻了整个照相馆
效果确实惊人,连桌上的灰尘、墙上的光影都清晰可见
这背后的技术,叫做「3D高斯」
传统的建模,是画三角形
游戏里的人物、建筑,放大看全是三角形。精度越高,三角形越多,文件越大
「3D高斯」,则是用「光点」来还原空间
几张照片就能生成场景,文件比传统方法小 90%,还能实时渲染
这次开源的「InteriorGS」,就是整套「3D高斯室内场景」数据集
InteriorGS数据示例:机器人视角
InteriorGS数据示例:无人机视角
这套数据集中,包含 1000 个场景,涵盖 80 多种环境类型,从普通住宅到便利店、博物馆
这些场景中,有超过 55.4 万个物体实例,分属 755 个类别,每个物体都配有3D边界框和语义标注
语义是什么:说白了,就是告诉机器人空间里有啥,空间关系怎么样
仔细看,会发现这里的一个细节:
每个场景都提供了占用地图(occupancy map),白色表示能走,黑色表示障碍
这让机器人知道哪里能走,哪里不能走
更棒的是,数据集还包括了地面机器人和无人机的导航轨迹示例,让 AI 更好的在复杂环境中,进行学习
这里补充一个背景,具身智能的训练数据,现在遇到了两大问题:
• 极度缺乏 3D 场景/数据
• 缺少对 3D 场景/数据的属性标注
「缺乏 3D场景/数据」好理解,就没那么多模型
「缺少对 3D场景/数据素材的属性标注」呢?你把模型给了机器人,比如一个逼真的客厅,机器人也搞不清楚哪是沙发、哪是茶几,更不知道沙发软、茶几硬
而群核的尝试,把3D高斯叠加他们家的空间大模型,这样既能低成本完成海量3D数据,也能补齐了物理属性的缺失问题。
到了这里,就结束了吗?
InteriorGS,只是冰山一角
群核有个SpatialVerse,算得上「3D 领域的ImageNet」
ImageNet ImageNet 是一个包含超过 1400 万张标注图片的数据库,用于训练 AI 识别物体 2012年在其竞赛中,深度学习首次大获成功,开启了 AI 革命SpatialVerse
开头那个卖可乐的机器人,还记得吗?
动作迟钝的核心原因:练习不够
(时长不到两年半)
学生巩固知识,要做练习题
机器人,需要去刷场景
SpatialVerse,便是「刷场景」的平台,就像黑客帝国里的数字道场
在这个过程中,SpatialVerse提供四种关键能力:
物理增强能力
是SpatialVerse最独特的部分。每个3D模型都被赋予真实的物理属性——密度、摩擦力、弹性、阻尼等参数。更重要的是对活动部件的运动约束:门能够按照真实铰链开合,把手可以按照实际机构旋转,抽屉沿着轨道滑动。让虚拟训练的经验,能够直接迁移到真实世界。
分割标注能力
通过自动化技术结合人工审核,为每个物体提供精确的语义标签、材质信息和状态描述。这种多维度标注对提升AI模型的场景理解能力至关重要。
场景增强能力
解决了训练数据多样性的问题。一个整洁的样板间可以通过场景繁化变成生活化的真实环境——自动添加日常物品、调整家具摆放、改变光照条件、更换材质纹理。平台的模型包支持批量生成场景变体,让同一个基础场景产生成百上千种训练样本。
多平台支持能力
确保了数据的通用性。平台实现了向Omniverse、Unreal Engine、Blender,以及MuJoCo等仿真环境的工程化转换,同时也支持例如UC Berkeley开源的RoboVerse在内的开源仿真平台。研究团队可以在熟悉的工具链中直接使用这些数据。转换流程经过优化,能够在保证数据完整性的前提下快速处理大规模数据集。
SpatialVerse 的背后,是群核十多年来的积累
群核科技创始人黄晓煌,之前在伊利诺伊大学香槟分校读博,方向是用「GPU做高性能计算」
黄晓煌的导师,问了他一个前瞻性问题:
当算力提升1000倍,你要研究什么?
黄晓煌的选择是:
模拟物理世界的运行
2011年,黄晓煌从英伟达回国创业
方向便是基于GPU的「渲染引擎」,诉求「物理正确」
而这项技术,被落地到了家装设计上,成为了「酷家乐」
2013年,酷家乐上线,让设计师能在网页上快速渲染效果图,在大家居行业一炮而红。
这里,要说一下什么是「物理正确」?
指的是:渲染出的图像,要与真实物理世界一模一样。无论是材质的反光、阴影的角度、还是光线的折射,每个细节都要符合物理规律
在家装这个场景下,「物理正确」尤其重要。毕竟,东西都是要生产出来的,尺寸错一毫米都不行。
多年下来,群核科技平台上沉淀下来海量3D数据,光 3D 模型就有 3.2 亿个。
每一个沙发的尺寸、每一扇门的开合方式、每一个抽屉的深度,都被精确记录,质量,足以支撑真实生产
到了2018年,群核联合帝国理工、南加州大学等高校推出 InteriorNet,这是当时全球最大的室内场景深度学习数据集
论文发表后引起轰动,硅谷巨头纷纷发来合作邮件。
在后来,李飞飞的论文指出:
在高仿真场景下训练机器人,可以达实景训练99%的效果。
而群核,恰好拥有最大规模的「物理正确」的空间数据
从InteriorNet 到 SpatialVerse,群核完成了从「数据集」到「智能训练平台」的进化
有一家公司,做扫地机器人的,用 SpatialVerse 训练识别宠物粪便
养过宠物的都知道,最炸裂的无过是:
「猫猫软便」+「拉外面」+「机器人拖地」
然后,猫屎就会被平铺在整个房间
这个事儿,如果让机器人实景训练...不敢想
为此,群核的设计师「研究了好些宠物粪便」,做出了逼真的3D模型
有设计师在微博吐槽:“猫屎有必要做得这么逼真吗......”
正是这种逼真,让扫地机器人学会了避雷
这个案例很有意思,代表问题:机器人要见识各种奇葩场景,但有些场景,你是真不想在现实中复现
智元机器人也在用 SpatialVerse,他们要训练机器人操作各种物体
银河通用在优化导航算法,穹彻智能、智平方、松应科技等公司也都成了用户
大家图的是什么?省事儿
与其让机器人在家里打翻东西,不如先让他在虚拟空间里多练练,把错误犯个遍
今年3月,群核开源了空间理解模型SpatialLM,一度登上Hugging Face趋势榜前三,便是训练自 SpatialVerse 的
更有意思的是,2025年谷歌与斯坦福联合发表的论文FirePlace,专门提到了SpatialVerse:数据能打,每个模型的物理属性都是真的
这篇论文,研究的是让AI学会布置房间
听起来简单,但细想想挺难的,AI 是真的不懂:
沙发不能悬空吧?台灯得放桌上吧?书架和墙之间要留点距离吧?
从扫地机器人,到谷歌斯坦福论文,大家要的东西其实一样:「物理正确」的训练场景
SpatialVerse,则把工厂用的精确数据,变成了AI可用的训练资源
最后
离开WAIC时
我又想起那个卖可乐的机器人
还像个婴儿
解法很简单:多练
提前练习,把该犯的错都犯了
如果几年后,机器人可以很轻松的考淀粉肠,那意味着什么?
机器人的福报,到了(笑
千万个虚拟场景,千万种未来可能
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.