卖瓶可乐要「2分半」，机器人的问题在哪？|算法|焦糖|真实世界|深度思考模型

卖瓶可乐要「2分半」，机器人的问题在哪？

2025-07-31 19:06:19　来源: 赛博禅心

北京举报

分享至

这次 WAIC，群核的朋友邀请我去看看，有东西要开源：InteriorGS

去之前，我先转了转其他展位
最火的地方，莫过于 「镇馆之宝」：机器人在卖可乐

里三层，外三层，水泄不通
挤进去看了会儿，机器人正识别订单、抓取可乐、递给观众
掐表一看：两分半
要是真在打工，应该早就被炒了

现在工厂里的机械臂，一分钟能完成几百个动作，误差不超过 0.1 毫米
怎么到了这儿，卖瓶可乐都费劲？

后来想明白了：工厂是机器人的「理想国」
工厂里，一切都是确定的：零件位置，传送带速度...不会有偏差
所以，机器人的动作，都可以写死，然后无限循环

真实世界，很不一样
可乐会在冰柜里、货架上，也可能卖完了
下单的，可能是可口可乐，也可以是百事可乐，还可能要樱桃味的（这个我是真喜欢）
遇到有人插队怎么办？小孩子够不着怎么办？
到处都是问题，到处都得处理

不是机器人笨，而是他真没见过
机器人需要「见世面」的机会，在各种场景中练习

展位的意外收获

到了群核展位，先看了个有趣的案例：
杭州老照相馆的 3D 重建

这家开了 60 年的照相馆，店主周爷爷身体不好，很久没法去店里了

群核的工程师，复刻了整个照相馆
效果确实惊人，连桌上的灰尘、墙上的光影都清晰可见

这背后的技术，叫做「3D高斯」

传统的建模，是画三角形
游戏里的人物、建筑，放大看全是三角形。精度越高，三角形越多，文件越大

「3D高斯」，则是用「光点」来还原空间
几张照片就能生成场景，文件比传统方法小 90%，还能实时渲染

这次开源的「InteriorGS」，就是整套「3D高斯室内场景」数据集

InteriorGS数据示例：机器人视角

InteriorGS数据示例：无人机视角

这套数据集中，包含 1000 个场景，涵盖 80 多种环境类型，从普通住宅到便利店、博物馆

这些场景中，有超过 55.4 万个物体实例，分属 755 个类别，每个物体都配有3D边界框和语义标注

语义是什么：说白了，就是告诉机器人空间里有啥，空间关系怎么样

仔细看，会发现这里的一个细节：

每个场景都提供了占用地图（occupancy map），白色表示能走，黑色表示障碍
这让机器人知道哪里能走，哪里不能走

更棒的是，数据集还包括了地面机器人和无人机的导航轨迹示例，让 AI 更好的在复杂环境中，进行学习

这里补充一个背景，具身智能的训练数据，现在遇到了两大问题：

• 极度缺乏 3D 场景/数据
• 缺少对 3D 场景/数据的属性标注

「缺乏 3D场景/数据」好理解，就没那么多模型
「缺少对 3D场景/数据素材的属性标注」呢？你把模型给了机器人，比如一个逼真的客厅，机器人也搞不清楚哪是沙发、哪是茶几，更不知道沙发软、茶几硬

而群核的尝试，把3D高斯叠加他们家的空间大模型，这样既能低成本完成海量3D数据，也能补齐了物理属性的缺失问题。

到了这里，就结束了吗？
InteriorGS，只是冰山一角

群核有个SpatialVerse，算得上「3D 领域的ImageNet」

ImageNet ImageNet 是一个包含超过 1400 万张标注图片的数据库，用于训练 AI 识别物体 2012年在其竞赛中，深度学习首次大获成功，开启了 AI 革命

SpatialVerse

开头那个卖可乐的机器人，还记得吗？
动作迟钝的核心原因：练习不够
（时长不到两年半）

学生巩固知识，要做练习题
机器人，需要去刷场景

SpatialVerse，便是「刷场景」的平台，就像黑客帝国里的数字道场

在这个过程中，SpatialVerse提供四种关键能力：

物理增强能力
是SpatialVerse最独特的部分。每个3D模型都被赋予真实的物理属性——密度、摩擦力、弹性、阻尼等参数。更重要的是对活动部件的运动约束：门能够按照真实铰链开合，把手可以按照实际机构旋转，抽屉沿着轨道滑动。让虚拟训练的经验，能够直接迁移到真实世界。

分割标注能力
通过自动化技术结合人工审核，为每个物体提供精确的语义标签、材质信息和状态描述。这种多维度标注对提升AI模型的场景理解能力至关重要。

场景增强能力
解决了训练数据多样性的问题。一个整洁的样板间可以通过场景繁化变成生活化的真实环境——自动添加日常物品、调整家具摆放、改变光照条件、更换材质纹理。平台的模型包支持批量生成场景变体，让同一个基础场景产生成百上千种训练样本。

多平台支持能力
确保了数据的通用性。平台实现了向Omniverse、Unreal Engine、Blender，以及MuJoCo等仿真环境的工程化转换，同时也支持例如UC Berkeley开源的RoboVerse在内的开源仿真平台。研究团队可以在熟悉的工具链中直接使用这些数据。转换流程经过优化，能够在保证数据完整性的前提下快速处理大规模数据集。

SpatialVerse 的背后，是群核十多年来的积累

群核科技创始人黄晓煌，之前在伊利诺伊大学香槟分校读博，方向是用「GPU做高性能计算」

黄晓煌的导师，问了他一个前瞻性问题：
当算力提升1000倍，你要研究什么？

黄晓煌的选择是：
模拟物理世界的运行

2011年，黄晓煌从英伟达回国创业
方向便是基于GPU的「渲染引擎」，诉求「物理正确」

而这项技术，被落地到了家装设计上，成为了「酷家乐」

2013年，酷家乐上线，让设计师能在网页上快速渲染效果图，在大家居行业一炮而红。

这里，要说一下什么是「物理正确」？
指的是：渲染出的图像，要与真实物理世界一模一样。无论是材质的反光、阴影的角度、还是光线的折射，每个细节都要符合物理规律

在家装这个场景下，「物理正确」尤其重要。毕竟，东西都是要生产出来的，尺寸错一毫米都不行。

多年下来，群核科技平台上沉淀下来海量3D数据，光 3D 模型就有 3.2 亿个。
每一个沙发的尺寸、每一扇门的开合方式、每一个抽屉的深度，都被精确记录，质量，足以支撑真实生产

到了2018年，群核联合帝国理工、南加州大学等高校推出 InteriorNet，这是当时全球最大的室内场景深度学习数据集

论文发表后引起轰动，硅谷巨头纷纷发来合作邮件。

在后来，李飞飞的论文指出：

在高仿真场景下训练机器人，可以达实景训练99%的效果。

而群核，恰好拥有最大规模的「物理正确」的空间数据

从InteriorNet 到 SpatialVerse，群核完成了从「数据集」到「智能训练平台」的进化

有一家公司，做扫地机器人的，用 SpatialVerse 训练识别宠物粪便

养过宠物的都知道，最炸裂的无过是：
「猫猫软便」+「拉外面」+「机器人拖地」

然后，猫屎就会被平铺在整个房间

这个事儿，如果让机器人实景训练...不敢想
为此，群核的设计师「研究了好些宠物粪便」，做出了逼真的3D模型

有设计师在微博吐槽：“猫屎有必要做得这么逼真吗......”
正是这种逼真，让扫地机器人学会了避雷

这个案例很有意思，代表问题：机器人要见识各种奇葩场景，但有些场景，你是真不想在现实中复现

智元机器人也在用 SpatialVerse，他们要训练机器人操作各种物体

银河通用在优化导航算法，穹彻智能、智平方、松应科技等公司也都成了用户

大家图的是什么？省事儿

与其让机器人在家里打翻东西，不如先让他在虚拟空间里多练练，把错误犯个遍

今年3月，群核开源了空间理解模型SpatialLM，一度登上Hugging Face趋势榜前三，便是训练自 SpatialVerse 的

更有意思的是，2025年谷歌与斯坦福联合发表的论文FirePlace，专门提到了SpatialVerse：数据能打，每个模型的物理属性都是真的

这篇论文，研究的是让AI学会布置房间

听起来简单，但细想想挺难的，AI 是真的不懂：
沙发不能悬空吧？台灯得放桌上吧？书架和墙之间要留点距离吧？

从扫地机器人，到谷歌斯坦福论文，大家要的东西其实一样：「物理正确」的训练场景

SpatialVerse，则把工厂用的精确数据，变成了AI可用的训练资源

最后

离开WAIC时
我又想起那个卖可乐的机器人
还像个婴儿

解法很简单：多练
提前练习，把该犯的错都犯了
如果几年后，机器人可以很轻松的考淀粉肠，那意味着什么？
机器人的福报，到了（笑

千万个虚拟场景，千万种未来可能

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.