前不久春晚舞台上,一段人形机器人的表演点燃了不少观众的热情。流畅的动作、整齐的编排,让很多人直呼“遥遥领先”。
紧接着,一段短视频又在平台上迅速传播:画面里,中国士兵一声令下,春晚“同款”机器人完成机动、交替、掩护、射击、换弹,一气呵成,仿佛已经具备战术能力。
不少人由此得出结论——具身智能已经可以上战场了。
但事实真是如此吗?
今天我们不卖关子:
春晚表演,本质上是基于预设程序的演出编排;
而那段“战术视频”,则是AI生成的合成内容。
不过,问题并没有因此失去意义。
真正值得思考的是:
如果未来AI+人形机器人要走向军事或高复杂场景应用,它还差什么?需要多久?又会在哪个国家率先成熟?
这篇文章,我们把“具身智能”拆开讲清楚。
![]()
一、什么是具身智能?
简单说四个字:AI有了身体。
过去几十年,机器人早已存在。工业流水线上的机械臂,就是最典型的代表。它们强壮、精准,但非常“死板”。一旦环境变化,系统就会失效。
而今天的大模型时代,AI拥有了理解能力。
当AI不再只存在于服务器,而是被装进一个物理躯体里,它就从“会说话的软件”,变成“能行动的存在”。
我们可以把具身智能拆解成四部分:
1. 躯体(腿和手)
2. 感知系统(视觉+触觉)
3. 大脑(芯片与算力)
3. 灵魂(大模型)
下面一块一块说。
![]()
二、躯体:腿容易,手最难
1)腿部:技术已相对成熟
谈到双足行走,就绕不开Boston Dynamics(一家美国机器人公司)。
它们最新的全电动Atlas拥有50多个自由度,跌倒后可以用非人类方式折叠身体再站起。翻跟头、跳跃都不是问题。
腿部控制,本质是“和地面博弈”。
一旦掌握平衡与重心转移的循环逻辑,就可以在不同地形上复用。
开源社区已经有大量成熟算法。
在行走这一块,软件甚至走在硬件前面。
但——
2)手部:真正的难关
走路是周期任务,
手部操作几乎都是非周期性的。
一只仿生灵巧手通常有15~20个自由度。
自由度一翻倍,控制空间指数级增长。
人类之所以能创造文明,靠的正是双手。
目前的突破方向,是尽量“像人”。
以挪威公司EXOS的腱驱动设计为例(行业常见方案),
电机放在前臂,手指内部只有高强度纤维绳索模拟肌腱。
好处是什么?
- 惯性小
- 可以高频微调
- 出现误差时会“自适应形变”
这让机器人真正有机会进入家庭,而不是只存在于围栏内的工厂。
在军事层面也是一样——
如果没有灵巧手,连“扣扳机”“换弹夹”都做不到。
三、感知:看得见,还要摸得着
光有四肢不够,机器人必须理解环境。
1)视觉系统
目前走纯视觉路线的代表,是Tesla(特斯拉)的 Optimus。
它背后的核心是FSD视觉架构。
不同于依赖激光雷达的路线,特斯拉通过多摄像头数据融合构建3D体素空间,并用占用网络预测遮挡物体。
更重要的是数据规模——
全球数百万辆车每天采集真实世界视频数据。
数据量,就是AI的粮食。
![]()
2)触觉系统:最后一块拼图
视觉之外,人类还有一项与生俱来的能力——触觉。
近年出现的新趋势,是全身覆盖数字触觉皮肤。
这种电子织物每平方厘米上千个传感单元,
并通过边缘计算在“皮肤层”先处理90%的数据,只把关键变化传给中枢。
这解决两个关键问题:
- 遮挡环境下的盲操
- 精细力度控制
比如在黑暗环境中维修设备,或者精细焊接。
没有触觉,机器人只是“看着干活”;
有了触觉,它才开始“真正接触世界”。
![]()
四、大脑:算力与芯片
这一块的主导者几乎没有悬念——
NVIDIA(英伟达)。
NVIDIA推出的机器人原生芯片平台,强调数字孪生仿真训练。
在虚拟世界中进行高速物理模拟,再把模型直接部署到实体机器人。
这意味着——
未来机器人可能实现“即插即用式学习”。
谁掌握算力,谁就掌握进化速度。
五、灵魂:大模型才是关键
如果说芯片是大脑硬件,那么大模型就是灵魂。
当前主流路径包括:
- Google(谷歌)的 Gemini
- 特斯拉自研模型
- 多家初创公司的人形机器人VLM方案
最前沿的方向,是把感知、决策、控制三段式结构,压缩为端到端神经网络。
不再是“识别—规划—执行”,
而是类似人类的“看到就动”。
这会带来一个关键能力——
在复杂环境中保持连续动作,不抽搐、不报错、不僵死。
如果未来要用于军事或灾害救援,这种连续性至关重要。
![]()
六、人形一定是最优解吗?
很多人会问:
既然要军事化,为什么非得人形?
直接给机器人装武器不是更高效?
这个问题看似合理。
但我们忽略了一点——
现有武器系统,几乎全部围绕“人类形态”设计。
枪械、车辆、建筑通道、掩体结构,都是基于人类尺寸与生理构造。
如果不是人形,就需要为每一种武器重构接口。
成本极高。
人形的优势,不在杀伤力,而在泛用性。
它可以:
- 第一阶段持枪
- 第二阶段搬运伤员
- 第三阶段驾驶载具
而不需要更换平台。
![]()
七、中国处于什么位置?
很多人会注意到,春晚机器人来自中国企业。
以宇树科技为代表,
中国的人形机器人出货量确实在增加。
但应用场景目前更多集中在:
- 教育
- 展示
- 表演
相比之下,欧美公司更倾向直接瞄准工业和社会生产。
中国真正的优势在哪里?
在供应链。
长三角和珠三角,机器人核心零部件可以在一小时车程内集齐。
谐波减速器、交叉滚子轴承、微电机、力传感器,全产业链密集分布。
规模化能力,可能比单点技术更重要。
历史上,中国在很多行业的胜出,并非最早发明,而是最早实现大规模、低成本。
具身智能,未必例外。
![]()
八、真的会走向“终结者”吗?
很多人担心:
机器人会不会抢工作?
会不会变成无人士兵?
从现实来看——
距离科幻电影还很远。
真正的瓶颈并不在“杀伤能力”,
而在泛化能力、能源密度、材料强度与系统稳定性。
更现实的问题是:
当机器人成本低于人工,
谁更有性价比?
那一天到来时,变化才会真正发生。
结语
春晚的机器人,是舞台艺术。
短视频里的战术画面,是AI合成。
但这不妨碍我们正视一个趋势:
AI正在获得身体。
具身智能正在经历百花齐放阶段。
欧洲强调人文与安全,
美国强调突破与野心,
中国强调规模与成本。
未来会如何演变,没有人能给出准确时间表。
但可以确定的是——
真正的革命,不是某一段视频,
而是当AI真正能在现实世界中持续、稳定、低成本地完成复杂任务。
那一刻,变化才算真正开始。
在那之前,
我们既不必盲目兴奋,也不必过度恐惧。
保持理性,比情绪更重要。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.