![]()
作者 | 金旺
栏目 | 机器人新纪元
在刚刚过去的CES 2026上,各种尺寸大小、配备各类技能的人形机器人成了展馆中最靓的仔,而这些人形机器人,不少都来自中国。
来自工信部的统计数据显示,2025年国内人形机器人整机企业数量超140家,发布人形机器人产品超330款,2025年也成了人形机器人量产元年。
另一个来自Omdia统计数据显示,2025年全球人形机器人出货量预计达到了1.3万台,其中,出货量排名前三的智元、宇树、优必选出货量分别为5168台、4200台、1000台。
就在昨天,宇树官方表示,公司2025 全年人形机器人实际出货量超5500 台,2025 年本体量产下线超6500 台(不含双臂轮式等机器人机器人产品)。
在英特尔中国研究院院长宋继强看来,具身机器人落地必然会经历三个阶段:
第一阶段,大家对大模型、VLA模型持有乐观预期,持续进行高投入,将模型性能不断提升;
第二阶段,具身机器人进入产业后不断遇到各种问题,在实际产业环境中持续遇到问题、解决问题,并在一些垂直场景在经济上达到盈亏平衡;
第三阶段,具身机器人的经济效益在行业场景中不断扩大,头部企业陆续入局并借助工业级水准加速具身机器人规模化商用。
而现在,我们在2026年即将看到具身机器人进入到第二个发展阶段,在这一阶段中,新技术与旧模式的碰撞、智能体架构的完善、数据标准的沉淀……,成了热潮之下的产业升级脉络。
01 具身智能的安全下限,如何提升?
什么样的方案是具身智能最优解?
这个问题似乎早有答案,但具体到国内这140多家人形机器人整机厂商来看,他们的选择又各有不同。
宋继强告诉我们,当前业界的方案普遍可以分为两类:
一类是将各类最优模型组合到一起,形成一套具身机器人方案,这类方案更偏向于产业化实际部署应用;
另一类是通过一个端到端大模型完成具身机器人需要的所有工作。
在这两类方案之间,又形成了诸多细分路径,或倾向于模型组合,或倾向于一体化解决方案,由于技术成熟度不够高、各个团队考虑问题的出发点不同,目前尚未形成统一的解决方案。
![]()
不过,具身智能的技术发展方向是确定的——向着统一的模型、统一的方案去收敛,也就是现在受到普遍关注的VLA模型。
时至今日,VLA模型已经有了一定的泛化性,能够在训练测试环境中输出不错的稳定序列,但是要进入产业应用,宋继强认为,依然存在三个问题:
第一,准确性问题。
VLA模型中的视觉元素与环境强绑定,如果输入命令的语义没有改变,视觉看到的环境场景中的颜色、形状、相对关系发生了变化,这样的场景往往需要在训练环境中出现,才会有更高的准确性,这使得VLA泛化能力仍然存在一定限制。
第二,动作执行精度问题。
VLA模型的执行能力与机器人本体强相关,切换本体往往会带来很大的模型调优代价,这也就导致了本体的泛化性。
第三,幻觉问题。
VLA模型并不理解看到的场景中世界的物理定律、因果逻辑,正因如此,现在有一些具身智能团队在通过引入世界模型来提升模型对于物理规律、因果逻辑的理解。
基于VLA模型的具身机器人,现在已经能够实现的是短程任务的执行,诸如我们今年在各大展会上看到的机器人叠衣服、分拣物品,如果遇到长程任务,依然需要切割成多个任务、并将这些任务依次进行执行,以此来避免产生幻觉。
![]()
无论是世界模型,还是VLA模型,本质上是基于统计学的技术路径,这样的技术路径让具身智能具备了一定的泛化能力,但准确性和幻觉问题成了当下不容忽视的痛点,为了解决由VLA模型引入带来的这些问题,宋继强认为,要构造可信赖的异构具身智能硬件平台。
这样的可信赖异构具身智能硬件平台分三层:
第一层,规划和决策的可信赖。
相较于以往完全基于神经网络的模型,英特尔在模型中引入了规则和先验知识的预定义模式来检验模型产生的决策,由此形成混合模式控制,当这些规则判断模型产生的决策有问题时,会要求模型重新进行决策。
这也就是英特尔提出的神经符号AI混合模型,借用这种方法,英特尔提升了具身机器人运动控制的下限。
![]()
第二层,动作执行的可信赖。
在具身机器人进行动作执行时,当机器人某个关节电机出问题或环境中出现未知路况(例如地面有一滩水)时,针对这些超出具身机器人原有认知和感知系统范围的状况,英特尔引入了汽车领域安全系统(safety system)的概念。
这样的安全系统会对安全风险进行预先定义,是一个持续进行安全监控的、代码可靠的轻量化系统,主要工作是识别传感器、执行器的状态是否存在安全风险。
第三层,动作反馈的可信赖。
在安全系统监测到安全风险时,为了让具身机器人回归到安全可靠状态,又能以一种可行的方式继续执行相应任务,类似汽车出现状况后会减速靠边停车,在具身机器人摔倒时,让它选择一个没有人的方向慢慢移动到边上或摔倒,英特尔引入了应急系统(Fallback System)。
宋继强认为,“具身机器人真正要在未来与人交互或在工业环境进行部署时,这三个系统不可或缺。”
02 快慢系统之上,系统0的重要性
2011年,诺贝尔经济学奖得主Daniel Kahneman在其出版的《思考,快与慢》中提出了人类思考的快慢系统的概念。
其中,系统1是自动、快速、无意识的快系统,它不需要太多思考,依赖直觉和习惯来做决策;系统2是有意识、理性化、需要更多的认知的慢系统,它处理复杂的任务、做出分析性决策时需要更多时间。
在具身机器人研发热潮中,越来越多团队开始将快慢系统概念引入具身机器人系统中。
不过,在宋继强看来,这样的系统架构还需要再加一层,系统0。
当具身机器人模型(有多少个电机和自由度)已经构建完成,在收到运动指令后,基于系统0就可以快速通过MPC(模型预测控制)这样经典的运动控制算法反算出更多的控制参数,并将原本相对离散的关节点位形成平滑的运动点位,从而输出1000Hz以上可用于工业应用场景的运动控制信号。
就系统0、系统1、系统2构建起的完整的具身机器人系统而言,宋继强告诉我们,目前需要用异构算力来驱动。
![]()
这其中,具身机器人的系统2是慢系统,强调通过大模型、高通量的数据实现语义理解,产生的是准确性更高的语义级输出,往往是由VLM模型接收来自外界环境的视觉输入,根据语言指令形成任务规划,这类任务更适合通过GPU来实现。
系统1是快系统,需要根据任务规划低功耗地形成动作控制指令,这样的控制指令往往频率不高,通常在200Hz左右,无法达到平滑动作控制的要求,更适合通过带有DSP、矩阵运算能力的NPU来实现。
系统0则是前文提到的基于传统MPC运动控制算法控制,将低频控制信号放大到1000Hz级别的电机控制信号,需要具备高实时性、快速响应,需要具备高精度浮点运算能力,这类任务更适合通过CPU来实现。
正是基于这样的考虑,英特尔在今年CES 2026上,正式对外发布了基于Intel 18A工艺制程的第三代酷睿Ultra处理器,第三代酷睿Ultra For Edge是这代处理器面向工业场景的一款产品,具身机器人是它的主要应用领域之一。
而英特尔第三代酷睿Ultra For Edge正是基于CPU、GPU、NPU构成的XPU异构计算架构打造,最高算力达到180 TOPS。
![]()
更重要的是,这代产品在宽温范围支持、确定性、7×24小时全天候可靠性上得到了工业级用例认证。
不过,宋继强也认为,现在VLA模型的天花板距离工业级的99%以上的“准确”还差几十个点,只有再把VLA模型的准确率再提升十几个点,才能够让具身机器人在诸如物流型此类半结构化、半工业场景中高效部署应用。
乐观估计,这需要1-2年的时间。
在此之前,我们依然需要通过经典的机器人控制理论来提升具身机器人在工业场景中执行任务的准确性、一致性和效率,来让具身机器人提前走入工业场景进行实训。
03 具身机器人,何时会有专用芯片?
在过往几十年里,英特尔X86计算平台在工业机器人领域有着广泛应用,对于运动控制精度甚至达到了20微秒,这是英特尔在工业自动化时代积累下来的经验。
宋继强告诉我们,“工业场景要求高精度、高频率、实时性,如果将英特尔在工业机器人领域过往积累的这些经验应用到具身机器人上,在系统1和系统0构建上就会起到很大的作用。”
据悉,目前英特尔与不少具身机器人团队都有合作,这样的合作不局限于采购英特尔处理器,英特尔还会帮助这些具身机器人团队进行产品优化,其中最受这些具身机器人团队青睐的,正是英特尔在系统实时性、控制精度优化上给予的帮助。
实际上,英特尔在具身智能领域的布局不止如此,面对具身智能大势所趋,英特尔也在探索在具身智能领域更多的可能性。
早在2025年,英特尔就对外推出了机器人AI套件,英特尔具身智能SDK也增加了对EtherCAT,以及LLM、VLM、VLA模型的支持,采用XPU异构架构的酷睿Ultra处理器也已经面世,并被一些具身机器人团队所选配。
![]()
就具身智能需要的异构计算架构,英特尔在过去一年里也有了更深入的思考。
现在具身智能团队往往是通过CPU+AI加速硬件作为端侧算力,英特尔酷睿Ultra处理器是希望将这些计算资源整合到一个SoC上,例如拥有180TOPS的第三代酷睿Ultra处理器中,CPU提供了10TOPS算力,NPU提供了50TOPS算力,GPU提供了120TOPS算力。
基于此可以进行高精度运动控制,也可以进行浮点计算,如果客户需要更强大的GPU算力,还可以选配额外的AI算力。
在进入实际工业场景应用时,往往又会涉及到群体智能控制,这就需要进一步在工业现场部署边缘服务器。
具身机器人终端+边缘服务器,也是宋继强认为“具身智能在工业场景率先落地的模式。”
宋继强告诉我们,“在实际落地场景中,‘异构’一定是跨网络的资源池概念,终端、边缘,甚至云侧,都可以变成异构资源池。”
如果仅仅就终端侧来看,没有专为具身机器人设计的芯片是当下现状,目前,具身机器人用到的芯片,往往是基于汽车、PC、手机芯片进行裁剪和二次开发而来。
宋继强认为,之所以会出现这样的情况,是因为具身智能产业依然处于早期阶段,具身机器人体量也还没有形成规模,另一方面也还没有统一的标准。
他还特别提到,“ASIC芯片只要有标准,10个月就可以设计好并进行流片,18个月就可以拿来测试,如果有任何大厂找我们定制具身机器人芯片,我们也很乐意去做。”
2026年是具身智能产业落地的关键一年,我们现在能够明确看到的一条产业化技术落地路径是:通过VLA模型做短程任务执行,通过世界模型进行能力补充,然后再加入传统控制方法提升安全下限。
宋继强告诉我们,“不存在能够解决所有复杂场景问题的‘万能钥匙’或单一技术范式,真正的完整解决方案,必然是通过前瞻性地融合创新技术与经过验证的成熟方法,将其系统性地工程化,这样才能稳健落地。”
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.