文 | 奇点研究社,作者|孟雯
1950年,图灵在《计算机器与智能》中埋下了“具身智能”的种子。
七十年后,这颗种子伴着ChatGPT的热潮与VLA的出现长出枝丫,具身智能取代"自动化"的传统叙事,成为新的行业共识。
作为“AI落地现实载体”的新物种,机器人成了被时代选召的新宠儿。
刚刚结束的马年春晚,宇树科技、松延动力、银河通用等一批具身智能企业集体亮相,以超高密度完成了全民科普,据传马年春晚开播两小时,京东机器人搜索量环比增长超300%,订单量暴涨150%。
但这并非一场只有掌声的巡演,亦是一次伴随着烈火烹油的残酷换挡。
在资本市场,这是前所未有的狂欢:具身智能赛道年融资规模激增至744起,金额冲向735.43亿元。然而,繁华背面,行业亦在经历阵痛。
一边是特斯拉、优必选等巨头在全球范围内加速迭代与扩产;另一边,是明星创企K-Scale遗憾退场、曾经的独角兽达闼机器人悄然倒下的冰冷现实。
估值的飙升与出货量的克制,构成了具身智能最真实的张力。
从春晚顶流到车间工友
马年春晚,具身智能以前所未有的姿态统治了视觉中心。
宇树科技的G1机器人以《武BOT》燃爆全场,在单腿连续后空翻与两三米高度的跳马腾空中展现出惊人的运动极限;松延动力的“仿生蔡明”则通过像素级复刻,实现了妆造与口型的真假难辨;魔法原子的MagicBot Z1化身舞团,与明星同台完成托马斯回旋等高难度动作。
从四川宜宾分会场百台同步舞蹈的熊猫机器狗,到银河通用、追觅的场景化演示,机器人浓度含量过高,被网友们戏称为“首届AI春晚”。
遥想14年前,机器人在春晚初登场,还是个只会做简单动作的氛围组伴舞,如今它们不仅稳站舞台C位,更凭借深度进化的感知与交互,一跃成为当之无愧的春晚顶流。
![]()
更深刻的变革发生在光影背后的工厂车间。
2026年初,智元机器人宣布累计下线突破5000台,并向数万台年度目标冲刺,其"远征"系列已在汽车制造与精密电子生产线上累计工作超100万小时;
优必选提出1万台工业级机器人的产能规划,并与空中客车签署战略协议,Walker S2正式入驻制造工厂,开始挑战航空级精密装配;
星动纪元联手顺丰科技,在极高频次的仓储中转环节推进规模化落地,将“足式+轮式”的优势转化为物流效率。
产业热度迅速外溢到资本市场。魔法原子联合创始人顾诗韬透露,公司最快可能在2026年在二级市场有新消息,正按照最快速度排上市时间表。已完成股改的乐聚智能和云深处科技也已正式启动上市流程。
美团、阿里、京东、腾讯等互联网巨头在2024年疯狂布局大模型后,也在2025年集体"杀入"具身智能赛道,以宁德时代、汽车主机厂为代表的先进制造与产业巨头,亦有押注……
从实验室Demo到工厂订单,从资本叙事到商业兑现,具身智能似乎已迈过技术验证的生死线,全速冲向规模化量产前夜。
![]()
图片来源:银河通用机器人微信公众号
政策东风也从宏观引导转向了精准入场,25年年底,工信部等四部门发布的《汽车行业数字化转型实施方案》明确提出推动智能机器人在焊接、喷涂、总装等环节规模化应用,并打造"具身智能示范产线"。
然而,理想与现实之间却横亘着一道深沟。国家地方共建人形机器人创新中心的首席科学家江磊坦言,行业目前更像是在做“消费级产品储备”,年产量不敢超过一万台,因为“产太多没有用途、售后压力也会非常大”。
银河通用创始人王鹤更是直言不讳地指出,全球今天真正运行在人类工作场景里的机器人,可能还不到1000台。
国外特斯拉Optimus V3虽然确定于今年Q1发布,并喊出年底10万台、远期100万台的宏伟产能,目标售价直指2万美元,但其时间表已较原计划推迟了约8个月。
22自由度灵巧手在极限工况下的量产稳定性,以及高功率作业时的液冷散热工程化难题是核心瓶颈。
资本的狂欢与产业的焦灼交织并行,这种“撕裂”除了有因春晚舞台秀激发的舆论破圈,还在于具身智能在硬件、算法乃至商业化路径选择上都充满了"非共识"。
范式突围, 在“非共识”中全速换挡
所谓具身智能,就是给机器一个“身体”和一个“大脑”:让它通过传感器真实地感知物理世界,再用大模型等算法理解环境、规划动作,驱动关节和电机去完成任务。通俗理解,就是让机器人像人一样“看得见、听得懂、能动手”。
如果把它抽象为"有身体的AI操作系统",最底层是硬件本体,负责让机器“动起来”;往上一层是算法大脑,决定它“如何思考”;再往上是环境感知,让它学会“看清世界、感受自己”;最后是商业化运维,关心机器人能不能在现实世界里“活下去,并赚到钱”。
在"要造一具什么样的身体"这件事上,行业目前就有三条路线。
优必选、智元致力于用“工业精密主义”定义机器人的骨架。它们通过全栈自研核心伺服系统与精密减速器,追求的是在汽车制造或精密电子生产线上实现长周期的稳定作业。用物理层面的可靠性,换取工业场景对“硅基劳动力”的深度信任。
宇树科技、松延动力、众擎充分利用本土供应链的规模效应,在“性能与性价比”上寻求突破,并成功将整机成本从百万元级引导至十万元甚至几万,降低门槛,吸引海量的开发者与极客群体,先在非标场景中沉淀生态。
![]()
图片来源:松延动力微信公众号,图为“小顽童N2”与CES参展人员握手
而银河通用和云深处则想证明“人形”并非物理作业的唯一解,前者选择轮式底盘加双臂,优先攻进仓储、零售和部分重载工业;后者坚持四足加人形混合,在电力巡检、管廊隧道、应急救援等场景靠地形适应力争先。
其实这种路线差异也对应着商业哲学的分野——有人坚持垂直全栈,从伺服、电机、减速器到整机再到上层控制和大模型都自己做,来换取长期壁垒和议价权,比如优必选的Walker S2;
也有人选择模块开放,把本体做成标准平台,对外开放接口,让更多第三方来"装大脑、装应用",靠出货量和生态挣钱,典型如智元机器人推出的开放平台。
再往上看,大脑算法几乎是一部技术范式的迭代史。早期的仿真迁移技术虽然解决了初期的模型训练成本,但在面对真实物理世界的摩擦、形变与复杂噪声时,会陷入长序列操作的累积误差,导致在现实里"越做越错"。
后来,融合了互联网通用语料的VLA(视觉-语言-动作)大模型成为主流,赋予了机器人出色的语义理解与任务拆解能力,从谷歌的RT-2到Physical Intelligence的π系列,再到GEN-0、GR00T等,VLA模型极大地降低了人机交互的门槛。
VLA擅长将复杂的图像与语言信息交织,按照习得的“套路”推演动作。然而,其结构性短板也随之浮现:在处理细致的物理操作和力觉反馈时,VLA往往难以精准预判后果,比如“把杯子放到桌沿”、“既不滑下去也不把水洒出来”。
清华大学自动化系教授赵明国就认为行业热捧的VLA模型更多是过渡性的技术手段,而非终极方案。他提到,大语言模型的成功,源于人类语言数据的“标准化”与“海量”,但物理世界的视觉、触觉数据“非常不规范”,没办法简单照搬。
![]()
图片来源:大晓机器人
最近,行业破局点指向了WAM(World Action Model)世界模型。这种新范式要求机器人在动作发生前,先在内部的想象空间中对物理演化进行模拟。
近期斯坦福、英伟达发布的Cosmos Policy等研究给出了Zero-shot(零样本)就能泛化执行不同工作的具身模型的可能,即通过视频生成模型训练机器人的“物理直觉”:先学会“如果发生某种情况,世界会怎样演变”,再以此为基础规划“我该如何行动”。
![]()
这种“先预演后执行”的能力,成为提升机器人作业成功率的关键。清华大学与斯坦福联合提出的Ctrl-World模型,使用零真机数据即可将下游任务的指令跟随成功率从38.7%提升至83.4%,平均改进幅度达44.7%
虽然世界模型的潜力在于能从根本上缓解操作误差,但其背后所需的数据量、算力规模(英伟达DreamZero依赖于H100或GB200这样的顶级芯片组成的计算集群进行并行推理,对于边缘端部署的独立机器人来说,目前的算力成本完全不可接受)及工程复杂度也远超以往,处于“科研高光”与“工程探索”并行的阶段。
![]()
这种技术路径差异也延伸到“智力来源”的选择上:是挂载GPT-4o、Gemini等通用大模型“借智”,还是像国内原力灵机这类公司那样,从头训练具身原生模型,也成为不同技术背景团队各自探索的高地。
智能的“涌现”离不开高质量数据的喂养,这就落到了环境感知层。它石智航CEO陈亦伦曾提到,具身智能面临的任务复杂度,使得其对产品级迭代所需的数据量,是自动驾驶的十倍以上。自变量创始人王潜也曾提醒,行业对数据的认知正在发生变化:并不是数据越多越好,而是"越有效越好"。
这一层同样有两条“平行线”,一部分团队坚持在真实的工厂、机房中进行长周期的多模态数据采集,追求数据与物理环境的绝对一致性。
特斯拉的FSD之所以强,不完全是因为神经网络写得比别人漂亮,更因为它有几百万辆车在路上跑,这些车就是分布式的"数据采集器",每天都在通过"影子模式"收集那些极端罕见的长尾场景。
![]()
再比如,国内千寻智能的"小墨"机器人重复着枯燥却关键的工作——在宁德时代的生产车间里自主检测线束连接状态,动态调节插拔力度,其单日工作量较人工提升3倍,插接成功率稳定在99%以上,显著降低了人工成本与生产损耗。
另一部分则在强化高保真物理引擎的模拟能力,试图通过合成数据来缩短算法的进化周期,银河通用便是如此,其创始人王鹤曾在采访中提到,“短期内仿真模拟与合成数据仍将承担更多探索任务,长期来看,必须让机器人真实部署量级成百上千倍增长。”
所有技术的进位,最终都要在商业闭环中寻找答案。To B的RaaS(机器人即服务),正在将昂贵的硬件投入转化为标准化的生产力租赁,通过规模化运营来平摊初始研发成本。擎天租预计2025年机器人租赁市场规模将突破10亿元,2026年不会低于100亿元。
![]()
图片来源:智元机器人《机器人奇妙夜》
To C领域,春晚舞台或文旅表演所带来的品牌溢价,为具身智能积累第一波大众认知与流量资产。这种初期的市场教育虽然以展演为主,但也为后续进入家庭等深度服务场景埋下伏笔。
![]()
图片来源:众擎机器人微信公众号,首届人形机器人自由格斗联赛
2025年,头部公司账面收入确实在快速增长:优必选全年订单总金额接近14亿元,宇树科技接近12亿元,智元机器人约为7亿至10亿元,银河通用超过7亿元。不过订单金额不等于实际交付,更不等于盈利。
优必选虽然年营收超过13亿元,但研发投入和运营成本居高不下,财报显示,2025年上半年其研发费用高达2.18亿元,占营收比重35.1%,同期净亏损4.39亿元。智元、宇树等独角兽虽然估值飙升,但规模化量产的成本压力和售后体系的建设投入巨大,商业化也还处在早期。
擎天租CEO李一言曾公开表示,目前整个行业的产能还很小,全球加起来也就1万多台,保有量仍属起步。如此看来,当下的"亿元订单"更多还是标杆场景的先导尝试,而非可复制的规模化需求。
可以说,在“身体怎么造、脑子怎么练、数据怎么来、商业怎么跑”的每一环,具身智能都处于一种“有生命力的非共识”状态,而且各维度深度耦合:选了便宜的本体,可能就要在算法上做更复杂的补偿;追求极致的世界模型,就必须承受更高的数据与运维成本。没有人能像当年看NLP那样说:Transformer+大参数+海量文本就是唯一答案。
不过也正因为这种系统性的非共识,让具身智能呈现出蓬勃的生机,资本在任何一个维度上都能讲出极具想象力的故事:世界模型、空间智能、DFOL、RaaS……
银河通用创始人王鹤就曾直言,"没有共识是很好的事情,如果大家都形成共识了,那么最后拼的就是成本、资源、人脉。这些要素都不是创业者擅长的,对创业是不利的。"
这也为中国探索出自己的技术路线和商业路径预留出更大可能。
如今,国内已经在谐波减速器、力矩/六维力传感器、IMU等核心器件上实现了从几乎全线依赖进口,到可100%全国产配置的跨越,整机成本从上百万元压缩至十几万、乃至万元级。
江苏近千家机器人相关企业编织起逾 1700 亿元的产业版图,苏州绿的谐波、南京工艺、恒立精密、坤维科技等诸多产业链隐形冠军密集汇聚在方圆五十里的“半小时供应圈”。
![]()
这种“集群式聚变”不仅缓解了供应链的被动,更赋予了开发者一种“范式自由”:可以全栈自研追求极致可靠性,也可模块开放快速迭代生态;可以做人形攻进工厂,亦可做四足深耕巡检……
与硬件底座互为表里的,是算法大脑的“自主换挡”。智元的EnerVerse、自变量的WALL-A、中科第五纪的BridgeV2W、蚂蚁灵波的LingBot-World等一批国产世界模型分别从应用落地、技术突破、生态打磨上展开竞速,它们不是在“复制OpenAI”,而是在构建更契合物理世界的国产技术栈。
在感知和环境运维上,大规模真实场景的数据采集、运维平台和RaaS模式,必须深度适配本土工业、城市和政策环境,这天然需要本地厂商主导。
具身智能的“国产替代”不再是简单地替换某颗螺丝,而是基于自身供应链优势对整套技术范式的自主重构。
谁掌握了从零部件到整机、从大模型到运维体系的自主可控能力,谁就有资格在这片非共识之地反复试错,率先撞开那扇通往产业奇点的大门。
2026,具身智走向“共识”
如今,具身智能经过一轮资本高热到估值回调的洗礼,那些曾经争论不休的路径分歧,在现实引力与交付指标的筛选下达成和解,行业也在去伪存真的熔炼中逐渐沉淀出一些“共识”。
共识一:形态不重要,场景才重要。
关于"机器人应该长什么样"的争论,从一开始就充满了偏见。有人坚持人形才是终极答案,因为人类世界的基础设施——楼梯、门把手、操作台、工具——都是为人类设计的;也有人认为多足、轮式甚至球形更高效,何必拘泥于"像人"。
但这场辩论本身可能就问错了问题。正如未来学家托马斯·弗雷所指出的,根本不存在"完美"的机器人形态,就像不存在"完美"的交通工具一样——摩托车、轿车、卡车、坦克各有其用,没人会争论哪一种universally superior(普遍更优)。机器人的形态应该服务于场景,而非相反。
人形机器人在人类设计的环境中确实有优势:不用改造房子,机器人适应房子;不用重新设计工具,机器人使用现有工具。但当任务变得具体,specialized(专业化)的形态往往更高效——仓储场景里轮式比双足更快,电力巡检中四足比人形更稳,精密装配时多臂比双臂更灵活。
这种"形态多样性"的共识,本质上是对物理世界复杂性的承认:没有一把钥匙能开所有的锁,也没有一种形态能通吃所有场景。
共识二:人为本,理解物理世界的底层。
人工智能研究者汉斯·莫拉维克提出过一个著名的悖论:对计算机来说,下棋很容易,但感知和行走极其困难。它精准预言了今天具身智能的底层困境——我们可以在虚拟空间里训练出精通围棋、精通语言的AI,但让它稳当地拿起一个杯子、穿过一扇门,却需要完全不同的能力。
![]()
图片来源:大晓机器人
这种能力不是单纯靠堆算力能解决的,更需要对"身体如何与物理世界交互"的深刻理解。机器人不需要像人一样思考,但需要理解人在物理世界中的行为逻辑、意图表达和安全边界。"以人为本"不是伦理装饰,而是技术刚需:只有理解了人的存在方式,机器人才能真正成为协作伙伴,而非冰冷的替代工具。
共识三:不是取代,而是释放。
1920年,捷克文学家卡雷尔·恰佩克在三幕剧《罗素姆万能机器人》中第一次使用了"Robot"这个词——它源于捷克语"robota",意思是"苦力"和"奴隶"。
故事里的机器人被制造出来,初衷是完成所有人类不愿做的苦差事,从而解放人类去从事更美好的事物。
100多年后,"Robot"这个词承载的期待,从未改变。具身智能指向的未来,也并非取代人,而是最大程度释放人的创造力。
2026,国内机器人从千台测算迈向万台交付,成为被寄予厚望的"量产元年"。站在产业infra的拐点,我们即将迈入一个人机协作的新纪元——不是取代,而是增强;不是疏离,而是融合;不是终结,而是新生。
这,是所有具身智能企业的价值共识,也是这个行业最终要抵达的彼岸。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.