![]()
机器人要如何迎来“ChatGPT时刻”?
宇树科技创始人兼CEO、CTO王兴兴 在2025世界机器人大会上,分享了他对全球机器人行业发展现状的最新观点。王兴兴认为,人形机器人行业已经走到“ChatGPT时刻”的前夜,最快1-2年就能迎来这一时刻。
王兴兴认为,由于政策支持与需求爆发,2025年上半年,人形机器人整机与零部件厂商平均实现了50%-100%的增长,幅度惊人。然而,行业内还存在几大误区:
首先,人形机器人大规模应用的最大问题,并不是硬件,而是具身智能。虽然硬件在量产工程化上仍有提升空间,但具身智能问题更为明显,还无法驱动机器人自主地完成任务,这背后的原因并不是大家普遍关注的数据问题,而是模型架构问题。
王兴兴称,未来2到5年,智能机器人技术的重心是端到端的具身智能AI模型。当前行业常见的VLA(视觉-语言-动作)模型,在他看来属于“傻瓜式架构”,他个人对这类模型持怀疑态度。由视频生成模型(或是世界模型)驱动机器人控制,是他眼中有望更快收敛的技术路径。
同时,机器人研究还需要在强化学习Scaling Law(扩展定律)上实现突破,从而让每次训练的速度越来越快,学习新技能的效果越来越好。随着机器人日益普及,分布式的算力将成为大势所趋,有望突破机器人本体搭载算力的限制,并满足实际应用过程中对安全性和通信延迟的要求。
王兴兴还在演讲中回顾了宇树科技的发展,从2013年研发机器狗X dog原型机开始,并获得8万元的第一桶金,再到2023年应客户需求推出首款人形机器人,他认为,机器人与AI的发展始终是一个全球共创的过程,他也鼓励更多企业和高校参与到这一过程中。
以下是王兴兴部分精彩演讲内容的整理(智东西在不改变原意的前提下,进行了一定程度的增删修改):
我分享一下我个人对全球人形机器人行情的看法。今年上半年,最大的特点就是由于机器人行业非常火爆,以及政策的相关支持,整机厂商、零部件厂商,平均实现了50%到100%的增长。增长幅度还是非常吓人的,这对整个行业而言都是十分罕见的,需求端拉动了整个的行业的发展。
海外市场方面,特斯拉作为行业代表,计划今年量产数千台人形机器人,并将发布第三代Optimus人形机器人,值得重点关注。此外,全球企业对机器人行业的热情高涨,包括英伟达、苹果、Meta、OpenAI等企业都持续在推动这一领域的发展。
我分享几个个人的观点,未必准确。
第一点,对于机器人本体来说,很多人可能会有这样一个误区:机器人目前没有大规模应用、功能不够完善的原因,是硬件不够好,或者成本比较高。
其实目前的硬件,无论是整机还是灵巧手,从某种意义上来说完全是够用的。当然不够好,还需要优化,更大的问题是量产,工程上的问题肯定是很多的。
但是在技术层面上,或者从AI的角度来说,目前的硬件是完全是够用的。目前最大的挑战还是具身智能,或者说AI技术的发展,完全不够用。这也是限制当前机器人,尤其是人形机器人大规模的应用的最大问题。
目前,机器人行业所处的位置,就像是ChatGPT诞生前的1-3年左右,目前业界已经发现了类似的方向以及技术路线,但是没人把它做出来。
![]()
ChatGPT出来的前几年,做语音AI的已经做了十几年,近二十年了,但是大家一直觉得他很傻瓜,很弱智,根本完全没法用。ChatGPT出来后,它实现了比一般人还要强的能力。机器人还没有到达这一临界点。
对于机器人的AI技术,我觉得临界点可能是这样的:当一个人形机器人能够进入一个完全陌生的环境(比如从未见过的会场),我跟他说“把这瓶水带给某位观众”,或是“整理一下这个房间”,而它能够顺畅自主地完成任务,这就是人形机器人的ChatGPT时刻。
如果进展快的话,可能未来的1-2年或者2-3年,我们就能实现这一目标,最慢的话3-5年也有很大概率能实现。
目前,具身智能不够用的问题,究竟是模型还是数据导致的?我反而感觉目前全球范围内,大家对机器人数据这个问题的关注度有点太高了。现在最大的问题是反而是模型的问题,并不是数据问题。
对于具身智能和机器人来说,模型架构都还不够好,也不够统一。大家对模型问题的关注度高,反而对数据的问题关注很多。因为在大语言模型领域,大家觉得我有足够多的数据,尤其有足够多的好的数据的时候,我就能把模型训练的越来好。
但是在具身智能,在机器人领域,大家可以发现,很多情况下有了数据,会发现这个数据用不起来。
相对比较火的就是VLA模型。VLA是一个相对比较傻瓜式的架构,我个人对VLA模型还是保持一个比较怀疑的态度。VLA模型在与真实世界交互时,它的数据质量、能采集的数据是不太够用的。
有个简单的想法,就是在VLA模型上面加一个RL的训练,这是一个非常自然的想法。但是我个人感觉,包括我们公司目前尝试下来VLA模型加RL训练,我觉得还是不够的,模型架构还是得再升级和优化。
这里也简单分享一下我们过去做的一些事情。大家也可以关注到,谷歌发布了他们全新一代的视频生成模型,或者某种意义上是一个视频驱动的一个世界模型。还有,去年的时候,当OpenAI发布了视频生成模型以后,大家会有一个很自然的想法:我可以控制一个视频生成模型,跟他说“帮我生成一个机器人,去整理一下房间”。
如果模型生成的视频中,机器人可以完成任务,那我是不是能让这个视频生成模型直接去驱动一个机器人完成任务。这个想法非常简单直接,我们去年的时候就去做了这个事情。
大家可以看到,右上角的视频其实是生成出来的,不是用摄像头采集的。我们用一个预训练的视频生成模型,重新训练了一下,让他先去生成一个机器人动作的视频,然后再控制一个机器人去做,这个技术是能实现的。包括谷歌的视频生成世界模型,他们也想实现这个效果。
![]()
我觉得这个路线的方向可能会比VLA模型发展得要快,收敛概率还更大。但我不敢打包票,可能还是有很多问题。其中有个很大的问题就是,视频生成模型太关注视频生成的质量了,导致对GPU的消耗有点大。
对机器人干活来说,某种意义上你并不需要很高精度的视频生成质量,你只要驱动机器人去干活就行了。大家可以关注谷歌的视频生成模型,还是非常有意思的。整个模型的架构还是非常简单粗暴的,就是把机器人的一些动作序列控制,直接对齐到模型的架构上。
![]()
另外一点,大家也知道,目前机器人跳跳舞、打格斗效果其实不错了,但实际上面临一个很大的问题,如果要进一步机器人能力提升,也就是机器人RL的Scaling Law,还是做得非常不好。
举个最简单的例子,我训练一个机器人做新的动作、跳新的舞蹈,都要重新训练,还是从头开始训练,这是非常不好的一个事情。我们是希望机器人每次做一个新的训练的时候,可以在过去训练基础上进行。
理论上我做RL训练的时候,每次训练的速度应该越来越快,学习新技能的效果越来越好。但是全行业内,目前整个机器人在RL的Scaling Law,没有人做出来,做好。我觉得这是非常值得做的一个方向。
因为RL Scaling Law在语言模型上已经是充分验证过的事情。但在机器人的运动控制上面,大家才刚刚开始。
我个人感觉,在未来2到5年,智能机器人技术的重心是端到端的具身智能AI模型。我觉得模型本身是最重要的。
然后就是更低成本的,更高寿命的硬件,这个是毋庸置疑的。大家也知道,哪怕对于汽车行业来说,已经一百多年了,哪怕到今天,一家企业要做很好的一辆汽车出来,工程量还是非常大的。
对机器人行业来说,未来如果每年要生产制造几百万、几千万甚至几亿的人体机器人,它的工程量挑战还是非常惊人的。
同时,低成本的大规模的算力也很重要。在人形机器人上,或者在移动机器人本体上,其实没办法直接部署大规模的算力。它的尺寸只有这么大,它的电池只有这么大,它部署算力的功耗是有限制的。
我个人感觉在人形机器人上,最多只能部署峰值功耗为100瓦的算力,平时工作的时候算力只有小几十瓦,简单说就只有大概几个手机的算力水平。
但是,未来机器人还是需要大规模算力的,而且我觉得可能是分布式的算力。机器人干活的时候,我们希望其通信延迟比较低的,如果在北京干活的机器,数据中心在上海或者在内蒙,延迟实在是太大了。
我个人感觉,未来在工业领域大规模运用人形机器人时,工厂里面可以有个分布式的服务器,所有的机器人直接连接工厂里的局部服务器就好了。服务器的安全性、通信延迟是可以接受的。
或者换一个话题,如果一个小区每家每户有一个机器人的时候,在这个小区可能是有分布式的集群算力中心的,可以保证延迟与安全性。并且,如果有新客户想买一个人形机器人的时候,他不需要给这部分算力的建设花钱,成本也会更低很多。
我觉得分布式算力会是机器人行业未来非常重要的一个领域,可能比目前算力的分布还要更广一些。
另外一点,大家也知道,在AI领域、机器人领域一直是一个全球共创的过程。中国的企业、美国的企业,包括英伟达等,已经做出了很多贡献。
在AI领域,没有一家大公司能保证,只要有足够的人、有足够的资源,我就能永远领先。OpenAI和DeepSeek已经证明了,AI的创新永远伴随着一些随机性,伴随着更多的聪明年轻人的。所以很多情况下都是很多公司、高校做出的贡献,还是要全球共创出来的。谢谢大家。
文章来源|智东西微信公众号
作者 |陈骏达
编辑 |李水青
更多精彩内容请登录http://www.ciomanage.com官方网站
或扫描下方二维码,点击关注微信公众号(ID:sagetimes)
公司介绍
北京赛智时代信息技术咨询有限公司(简称赛智时代)是国内知名的数字经济等新兴产业的咨询规划、大数据分析和产业生态体系建设的创新型公司。业务范围涵盖了智库咨询、数据服务、软件平台以及会议培训等方面。其中智库咨询服务依托于赛智产业研究院丰富的行业资源和高端专业化人才等竞争优势,面向政府、园区和企业,提供发展战略与规划、政策研究、招商引资策略研究、智慧城市规划、运营模式研究等现代咨询服务。研究领域涵盖大数据、人工智能、区块链、5G、战略性新兴产业等行业领域。
饮鹿网(Innov100)是是赛智时代旗下的产业创新创投数据服务平台,覆盖新兴产业近20万创新型企业,为客户提供创业孵化、投融资等服务。
联系方式
电话:18701559508/16601025121
公司网址:www.innov100.com
www.ciomanage.com
公司地址:北京市朝阳区大屯里317号金泉时代广场三单元2216
智库服务
北京市数字经济战略研究
北京市数据要素市场促进服务(北京市新型数据交易规则体系设计)
北京数据先行区关键机制创建服务
北京市数据领域共性核心技术创新发展促进提升服务
京津冀人工智能产业集群推进工作支撑服务
贵州省加速构建数据要素市场培育新兴产业课题研究
国家大数据(贵州)综合试验区实施方案
中国数据服务产业图谱研究
内蒙古自治区大数据中心数据要素市场化规划咨询
保定市数据服务产业发展规划编制
朝阳数据要素市场发展研究
丰台区数字经济倍增发展路径研究
北京市大数据立法数据支撑服务
北京市智慧城市建设协调推进项目
中国算力网络发展研究白皮书
重庆两江新区数字经济发展规划
贵阳市大数据五大新领域(人工智能、量子信息、区块链、物联网、5G移动网络)产业规划
南宁市元宇宙产业创新发展研究
贵阳市数字经济产业招商引资项目评估
智能贵州发展规划
贵州省大数据新领域产业发展指南
北京市大数据应用发展报告
天津市大数据应用场景建设计划
贵州省大数据战略行动计划编制
贵州省“十三五”以大数据为引领的电子信息产业发展规划
丽水市城市大脑开发建设研究
贵阳市新基建“十四五”发展规划
中国数谷顶层设计方案
贵阳市数博大道产业规划
贵阳区块链发展白皮书
贵阳市大数据发展“十三五”规划
贵阳市数字经济发展规划
观山湖区呼叫中心产业园规划
济南新型智慧城市规划
南宁大数据建设工程规划
航天科技车联网产业商业模式研究
阿里云数智化敏捷组织:云钉一体驱动组织转型研究
百度区块链研究项目
实创集团智慧城市业务战略规划
云上贵州集团业务战略规划
贵阳大数据集团业务战略规划……
数据服务平台
饮鹿网精准招商大数据产业平台
饮鹿网精准招商大数据产业平台是赛智产业研究院联合饮鹿网开发的针对产业招商的最新产品。涵盖大数据、人工智能、区块链、5G、智慧城市、 工业互联网等 30 多个领域,为招商部门、产业主管部门、园区管委会和产业地产提供大品牌招商、产业筛选招商、产业生态链招商、重点产品招商、资本注入式招商、区域一体化协同招商、原籍创业人才招商等招商数据分析服务。
饮鹿网产业大脑大数据产业平台
政府提供新兴产业的产业链、企业、技术、投资等数据分析服务的平台,主要为各地发改部门、工信部门、产业分管领导提供产业仪表盘、产业链分析、产业地图、产业发展要素分析、产业政策、产业洞察等产业数据分析服务。
饮鹿网创业投资大数据产业平台
服务于创业投资领域,为母基金、头部投资机构、地方政府产业基金或引导基金提供绩效考核的专业化平台,主要提供投资数据(投融资仪表盘:与投资趋势洞察融合)、投资绩效分析(投资绩效分析、融资日报、投资机构百强、投资人百强)、项目分析(重点项目、产业链投资、细分图谱投资)、投资布局(投资地图)、投资要素分析、投资管理等服务。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.