![]()
训练一个具身智能体,和教人类小孩学走路有个微妙的区别:小孩摔几跤就能记住,机器人却需要看上万小时的"示范视频"才能勉强不摔。更麻烦的是,这些视频不能是随便拍的——得精准对应动作指令,得覆盖各种光照和场景,得保证物理规律不出错。
智象未来和诺亦腾机器人最近凑到了一起,打算解决这个问题。他们的思路有点像"真题+模拟题"的组合拳:诺亦腾出高精度动捕设备采集真实数据,智象未来用多模态大模型把这些数据"放大"百倍,生成带复杂场景和光影变化的训练视频。双方预计年内能产出数万小时的具身智能视频数据。
![]()
这个合作有个关键细节值得关注。诺亦腾联合创始人韩磊提到,单一来源的数据撑不起复杂物理世界的泛化能力——换句话说,纯真实数据太贵太少,纯生成数据又容易" hallucination "(幻觉)。两家公司的解法是把动捕的毫米级精度"蒸馏"进生成模型,让虚拟视频保持物理一致性。
智象未来CTO姚霆的比喻更直白:他们在做"数据炼金术",把原始传感数据转化成取之不尽的"燃料"。具体操作上,智象的自研模型会把动作指令和视觉场景做深度融合,确保每一帧画面都能和底层操作数据精准配对。
![]()
接下来双方还会围绕VLA模型和世界模型继续合作。一个负责从虚拟端规模化生成,一个负责从物理端提供真实反馈,试图跑通"生成-验证"的闭环。
据现场流出的演示画面,基于诺亦腾动捕数据生成的视频已经能做到人体形态、肤色、光影的高复杂度变化。对于正在抢跑具身智能的厂商来说,这算是多了条批量获取"教材"的渠道——至于教材质量能不能真的让机器人从"可用"走到"好用",还得看第一批"学生"的成绩单。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.