哈喽,大家好,我是小方,今天,我们主要来看看谷歌DeepMind那边,又搞出了一个什么让人有点“头皮发麻”的新东西——他们居然开始用视频生成模型,给机器人搭建一个近乎真实的虚拟世界来“考试”了。
![]()
![]()
咱们都知道,现在的机器人越来越聪明,你告诉它“把桌上的苹果拿给我”,它可能真能办到,但想让这种通用型机器人靠谱,得经过海量测试,在现实世界里测,成本高到吓人,一台机器人硬件就价值不菲,更别提成百上千次的不同场景测试了,耗时、烧钱。
![]()
最头疼的还是安全问题,你总不能为了测试机器人会不会不小心夹到人的手,就真找个人手反复去试吧?这种危险场景,在现实里根本没法放开手脚去测,传统的物理仿真软件呢,又常常被诟病“太假”,和真实世界差距明显,测出来的结果参考价值有限。
![]()
那怎么办?谷歌DeepMind的Gemini机器人团队,把目光投向了他们自家的顶尖视频生成模型——Veo,他们的思路很“炸裂”:既然视频模型能生成以假乱真的画面,那我们能不能直接用它来模拟机器人执行任务时的未来场景呢?
![]()
他们还真搞出来了,名字就叫“Veo Robotics”,简单说,他们用大量机器人操作数据,对Veo模型进行了专门训练,这个训练后的模型,能够根据机器人当前的视角画面和它计划执行的动作,预测并生成出接下来几秒钟、高度逼真的“未来视频”,这就像给机器人提前播放了一段它行动结果的“预告片”。
![]()
![]()
光说没用,得看疗效,为了验证这个“视频模拟器”靠不靠谱,DeepMind团队下了血本,回头做了超过1600次真实世界的机器人实验进行对比,他们在八种不同的机器人控制模型、五项任务上进行了测试。
![]()
结果挺有说服力,这个Veo模拟器生成的预测结果,和机器人在现实中的实际表现,在成功率的趋势上高度相关,简单说,就是它在视频里预测哪个策略更好,在现实里那个策略确实就表现更优,它甚至能比较准确地预测,当一个陌生新物体突然出现在场景里(分布外泛化),机器人的表现会如何下降。
![]()
所以,你看,这项工作的核心价值不在于用视频做了一个酷炫的动画,而在于它开辟了一条新路:用高保真的视频仿真,作为一个高效、安全、低成本的“试验场”,去大规模评估、甚至主动发现机器人策略的弱点和潜在风险,这相当于在把机器人放到我们身边之前,先在一个无限接近真实的“平行世界”里,对它进行了严格的考核与训练。
![]()
虽然这项技术还处于早期,但它的潜力已经显现,它或许不能完全替代最终的真实测试,但它能极大地缩小研发循环,让更安全、更可靠的机器人,更快地从实验室走向我们的日常生活。这背后的逻辑,正在悄然改变机器人技术的发展节奏。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.