从扭秧歌到战术动作，具身智能到底走到哪一步了？|触觉|人形|视觉|机器人|真实世界

从扭秧歌到战术动作，具身智能到底走到哪一步了？

2026-02-27 23:04:22　来源: 七分日记

云南举报

分享至

前不久春晚舞台上，一段人形机器人的表演点燃了不少观众的热情。流畅的动作、整齐的编排，让很多人直呼“遥遥领先”。

紧接着，一段短视频又在平台上迅速传播：画面里，中国士兵一声令下，春晚“同款”机器人完成机动、交替、掩护、射击、换弹，一气呵成，仿佛已经具备战术能力。

不少人由此得出结论——具身智能已经可以上战场了。

但事实真是如此吗？

今天我们不卖关子：

春晚表演，本质上是基于预设程序的演出编排；

而那段“战术视频”，则是AI生成的合成内容。

不过，问题并没有因此失去意义。

真正值得思考的是：

如果未来AI+人形机器人要走向军事或高复杂场景应用，它还差什么？需要多久？又会在哪个国家率先成熟？

这篇文章，我们把“具身智能”拆开讲清楚。

一、什么是具身智能？

简单说四个字：AI有了身体。

过去几十年，机器人早已存在。工业流水线上的机械臂，就是最典型的代表。它们强壮、精准，但非常“死板”。一旦环境变化，系统就会失效。

而今天的大模型时代，AI拥有了理解能力。

当AI不再只存在于服务器，而是被装进一个物理躯体里，它就从“会说话的软件”，变成“能行动的存在”。

我们可以把具身智能拆解成四部分：

1. 躯体（腿和手）

2. 感知系统（视觉+触觉）

3. 大脑（芯片与算力）

3. 灵魂（大模型）

下面一块一块说。

二、躯体：腿容易，手最难

1）腿部：技术已相对成熟

谈到双足行走，就绕不开Boston Dynamics（一家美国机器人公司）。

它们最新的全电动Atlas拥有50多个自由度，跌倒后可以用非人类方式折叠身体再站起。翻跟头、跳跃都不是问题。

腿部控制，本质是“和地面博弈”。

一旦掌握平衡与重心转移的循环逻辑，就可以在不同地形上复用。

开源社区已经有大量成熟算法。

在行走这一块，软件甚至走在硬件前面。

但——

2）手部：真正的难关

走路是周期任务，

手部操作几乎都是非周期性的。

一只仿生灵巧手通常有15~20个自由度。

自由度一翻倍，控制空间指数级增长。

人类之所以能创造文明，靠的正是双手。

目前的突破方向，是尽量“像人”。

以挪威公司EXOS的腱驱动设计为例（行业常见方案），

电机放在前臂，手指内部只有高强度纤维绳索模拟肌腱。

好处是什么？

惯性小
可以高频微调
出现误差时会“自适应形变”

这让机器人真正有机会进入家庭，而不是只存在于围栏内的工厂。

在军事层面也是一样——

如果没有灵巧手，连“扣扳机”“换弹夹”都做不到。

三、感知：看得见，还要摸得着

光有四肢不够，机器人必须理解环境。

1）视觉系统

目前走纯视觉路线的代表，是Tesla（特斯拉）的 Optimus。

它背后的核心是FSD视觉架构。

不同于依赖激光雷达的路线，特斯拉通过多摄像头数据融合构建3D体素空间，并用占用网络预测遮挡物体。

更重要的是数据规模——

全球数百万辆车每天采集真实世界视频数据。

数据量，就是AI的粮食。

2）触觉系统：最后一块拼图

视觉之外，人类还有一项与生俱来的能力——触觉。

近年出现的新趋势，是全身覆盖数字触觉皮肤。

这种电子织物每平方厘米上千个传感单元，

并通过边缘计算在“皮肤层”先处理90%的数据，只把关键变化传给中枢。

这解决两个关键问题：

遮挡环境下的盲操
精细力度控制

比如在黑暗环境中维修设备，或者精细焊接。

没有触觉，机器人只是“看着干活”；

有了触觉，它才开始“真正接触世界”。

四、大脑：算力与芯片

这一块的主导者几乎没有悬念——

NVIDIA（英伟达）。

NVIDIA推出的机器人原生芯片平台，强调数字孪生仿真训练。

在虚拟世界中进行高速物理模拟，再把模型直接部署到实体机器人。

这意味着——

未来机器人可能实现“即插即用式学习”。

谁掌握算力，谁就掌握进化速度。

五、灵魂：大模型才是关键

如果说芯片是大脑硬件，那么大模型就是灵魂。

当前主流路径包括：

Google（谷歌）的 Gemini
特斯拉自研模型
多家初创公司的人形机器人VLM方案

最前沿的方向，是把感知、决策、控制三段式结构，压缩为端到端神经网络。

不再是“识别—规划—执行”，

而是类似人类的“看到就动”。

这会带来一个关键能力——

在复杂环境中保持连续动作，不抽搐、不报错、不僵死。

如果未来要用于军事或灾害救援，这种连续性至关重要。

六、人形一定是最优解吗？

很多人会问：

既然要军事化，为什么非得人形？

直接给机器人装武器不是更高效？

这个问题看似合理。

但我们忽略了一点——

现有武器系统，几乎全部围绕“人类形态”设计。

枪械、车辆、建筑通道、掩体结构，都是基于人类尺寸与生理构造。

如果不是人形，就需要为每一种武器重构接口。

成本极高。

人形的优势，不在杀伤力，而在泛用性。

它可以：

第一阶段持枪
第二阶段搬运伤员
第三阶段驾驶载具

而不需要更换平台。

七、中国处于什么位置？

很多人会注意到，春晚机器人来自中国企业。

以宇树科技为代表，

中国的人形机器人出货量确实在增加。

但应用场景目前更多集中在：

教育
展示
表演

相比之下，欧美公司更倾向直接瞄准工业和社会生产。

中国真正的优势在哪里？

在供应链。

长三角和珠三角，机器人核心零部件可以在一小时车程内集齐。

谐波减速器、交叉滚子轴承、微电机、力传感器，全产业链密集分布。

规模化能力，可能比单点技术更重要。

历史上，中国在很多行业的胜出，并非最早发明，而是最早实现大规模、低成本。

具身智能，未必例外。

八、真的会走向“终结者”吗？

很多人担心：

机器人会不会抢工作？

会不会变成无人士兵？

从现实来看——

距离科幻电影还很远。

真正的瓶颈并不在“杀伤能力”，

而在泛化能力、能源密度、材料强度与系统稳定性。

更现实的问题是：

当机器人成本低于人工，

谁更有性价比？

那一天到来时，变化才会真正发生。

结语

春晚的机器人，是舞台艺术。

短视频里的战术画面，是AI合成。

但这不妨碍我们正视一个趋势：

AI正在获得身体。

具身智能正在经历百花齐放阶段。

欧洲强调人文与安全，

美国强调突破与野心，

中国强调规模与成本。

未来会如何演变，没有人能给出准确时间表。

但可以确定的是——

真正的革命，不是某一段视频，

而是当AI真正能在现实世界中持续、稳定、低成本地完成复杂任务。

那一刻，变化才算真正开始。

在那之前，

我们既不必盲目兴奋，也不必过度恐惧。

保持理性，比情绪更重要。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

从扭秧歌到战术动作，具身智能到底走到哪一步了？

狂揽1100亿美元！OpenAI再创融资神话

以色列防长：以色列已对伊朗发起预防性攻击

以色列防长：以色列已对伊朗发起预防性攻击

球队主力全报销？顶风摆烂演都不演了

疑似王一博被爆私密聊天记录

沈明高提共富建议 百姓持科技股国家兜底

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

中考真题，计算-3×5×（-7）

《绿石守卫者》试玩Demo上线Steam新品节，生命之石守卫战即将开启

小米准备了大惊喜，vivo重磅机型官宣，荣耀、OPPO在做同一件事

【花Young贵阳】观山湖千亩樱花园走红，每天数千游客前来打卡

新华社：美国伊朗要打了吗

沈明高提共富建议百姓持科技股国家兜底

岚图泰山黑武士版3月上市搭载华为四激光智驾方案