“未来1至2年,谁能实现这个目标,谁将拥有全球最领先的具身智能AI模型。”11月5日,宇树科技股份有限公司创始人、董事长王兴兴在第八届虹桥国际经济论坛“人形机器人创新发展合作”分论坛上对具身智能的“ChatGPT时刻”何时到来作出前瞻判断。
在他看来,谁能在未来一两年内实现“在80%的陌生场景中完成80%任务”的突破,谁就是全球最领先的具身智能。
“比如到明年这个时候,随便一台人形机器人到会场,你跟它交代任务,比如说‘帮我拿一杯水’或者说给某位记者朋友拿一份东西过去,它可以直接过去把这个任务完成。这个场景完全没有预训练过,你给的东西它也没有看到过。”王兴兴举例说。
他认为,在完全陌生场景下,机器人能达到80%左右成功率,就已经掌握突破性技术了。
“目前人形机器人(包括具身智能)最关键的还是机器人大模型(具身智能模型)的进展速度,我觉得稍微有点慢了。”王兴兴表示,相对去年来说,今年深度强化学习的全身运控的进步非常明显,但在具身大模型,“端到端能干活
王兴兴称,
为了早日实现“ChatGPT时刻”,更应该研究模型,还是收集更多的数据?王兴兴表示,目前在模型结构上大家做了很多尝试,但泛化能力不够,还需要创新。大家也需要收集更大规模的数据、质量更好的数据。但目前,对数据的采集、对数据质量的评判还非常困难。
另外,他提出,模型和数据需要相辅相成,而不是一股脑采集大量数据,或者一股脑把模型做大。
目前,具身智能主流模型有VLA(视频语言动作)+RL(强化学习)模型和基于视频生成的世界模型。王兴兴表示,前者可以用仿真环境做训练,或者用真实场景做训练,但泛化能力相对来说不是特别够。因此,他更喜欢基于视频生成的世界模型。
然而,王兴兴也认为,该模型面临比较大的挑战。因为基于视频生成的世界模型对算力的需求非常大,需要的算力卡比较多,所以中小型人形机器人公司往往“跑不动”,反而是一些大型AI公司、互联网公司视频模型的资源更加丰富,做出该模型的概率更大。
![]()
来源:金融时报客户端 记者:余嘉欣 左希 编辑:段嘉希 邮箱:fnweb@126.com
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.