Chat到Code再到Claw：AI的"第三只手"正在改写物理世界规则|人形|机器人|claw|chat|code|真实世界

Chat到Code再到Claw：AI的"第三只手"正在改写物理世界规则

2026-03-18 18:52:27　来源: 硅屿手记

北京举报

分享至

导读：当大模型从对话走向编程，再到操控机械臂，AI正经历第三次能力跃迁。Andrej Karpathy口中的"Claw时代"，标志着智能体正式叩响物理世界的大门。

硅谷AI圈正在流传一个极简公式：Chat → Code → Claw。这条由前特斯拉AI总监Andrej Karpathy抛出的演进链条，正在引发技术圈的密集解读。如果说ChatGPT开启了人机对话纪元，Cursor和Copilot代表了代码生成革命，那么"Claw"——这个带有机械隐喻的词汇——指向的正是AI与物理世界交互的终极形态。

这不是科幻预言。2024年以来，从Figure AI的人形机器人到斯坦福的Mobile ALOHA，从特斯拉Optimus的产线实训到国内智元、宇树等公司的批量出货，具身智能正以超预期速度穿透实验室围墙。Karpathy的推文之所以引发共鸣，在于他用一个单音节词精准捕捉了这场变革的本质：AI不再满足于信息层面的"思考"，正在长出操控现实的"爪子"。

从比特到原子：AI的能力边界正在消融

回溯AI发展轨迹，前两次跃迁都遵循相似的范式转移逻辑。Chat阶段的核心突破在于语言理解的统一性——一个模型处理问答、翻译、摘要等多任务，打破了NLP领域长期碎片化的局面。Code阶段则展现了推理能力的规模化应用，GitHub Copilot的代码采纳率已超过30%，Cursor更是以"AI原生IDE"的定位斩获数亿美元估值。

但这两阶段存在一个共同天花板：输出始终停留在数字比特层面。无论对话多么流畅、代码多么优雅，AI都无法直接改变物理世界的状态。Claw阶段的革命性正在于此——它将大模型的认知能力与机器人的执行闭环嫁接，形成"感知-推理-行动"的完整链条。

技术实现路径已日趋清晰。以Google DeepMind的RT-2为例，该模型将视觉-语言-动作（VLA）能力整合，使机器人能够理解"捡起即将从桌上掉落的水果"这类包含物理常识的指令。更关键的是训练范式的转变：传统机器人依赖人工编程每个动作，而VLA模型通过海量互联网数据预训练，获得了可迁移的物理直觉。Figure AI与OpenAI的合作同样遵循此逻辑，其最新demo中，人形机器人已能完成"递苹果"这类需要常识推理的任务。

硬件成本崩塌：具身智能的"摩尔时刻"到来

能力突破只是故事的一半。Claw时代加速到来的另一驱动力，是硬件成本的断崖式下跌。

特斯拉Optimus的量产目标已将单台成本压向2万美元区间，这相当于一辆经济型轿车的价格。国内供应链的响应更为激进：宇树科技的G1人形机器人售价9.9万元人民币起，智元远征A1更是将目标价锚定在20万元以内。作为对比，波士顿动力Atlas 2016年的造价超过200万美元。八年时间，成本曲线下降了两个数量级。

这种降幅并非线性演进，而是中国制造能力与AI算法迭代的共振结果。谐波减速器、力矩传感器、无框力矩电机等核心部件的国产化，使机器人硬件摆脱了海外垄断；同时，仿真训练、Sim2Real迁移、世界模型等技术的成熟，大幅降低了对真实数据的需求。Figure AI创始人Brett Adcock曾透露，其机器人通过仿真环境生成的训练数据，占比已超过80%。

成本阈值一旦被击穿，商业飞轮随即启动。工业场景成为最先落地的试验田：特斯拉工厂中，Optimus已参与电池分装等工序；亚马逊仓储机器人Kiva的升级版本，正在测试自主拣选能力；国内汽车工厂对协作机械臂的采购量，2024年同比增长超过40%。这些应用未必需要人形形态，但共享同一套"大模型+执行器"的技术底座。

Claw的隐喻：权力转移与伦理暗礁

Karpathy选择"Claw"而非"Robot"作为第三阶段符号，本身就值得玩味。Claw在英语中兼具"爪子"与"控制"双重含义——前者指向物理操控能力，后者暗示一种更原始的权力关系。

这种措辞或许有意无意地揭示了技术演进的深层张力。当AI获得物理行动力，其风险维度将从信息污染、版权争议，扩展至人身安全与基础设施安全。2024年3月，Figure AI发布的一段视频中，机器人将咖啡杯递给人类后，手指出现了不自然的抽搐。这个细节被技术社区放大讨论：当模型幻觉发生在物理空间，后果不再是"生成错误答案"那么简单。

监管框架的滞后性正在凸显。欧盟《人工智能法案》将"物理支持机器人"列为高风险类别，但具体合规标准尚未细化；美国NIST的AI风险管理框架，主要聚焦于软件系统。更具挑战性的是责任归属问题：当大模型驱动的机器人造成损害，开发者、部署方、硬件制造商的法律责任如何划分？

技术乐观主义者倾向于将Claw视为人类能力的延伸而非替代。Karpathy本人在后续讨论中强调，「Claw的核心价值在于处理3D（脏、危险、枯燥）任务」，释放人类从事创造性工作。但这一愿景的实现，取决于人机协作界面的设计——是保持人类在决策环内（human-in-the-loop），还是逐步让渡控制权给自主系统？

临界点已至，但路径未明

站在2024年末回望，Chat到Code的跃迁耗时约两年，Code到Claw的压缩周期可能更短。技术就绪度、成本曲线、资本密度三项指标同时指向一个结论：具身智能的产业化临界点已经到来。

但"到来"不等于"成熟"。当前Claw阶段的核心瓶颈在于泛化能力——实验室demo中的惊艳表现，往往难以迁移至未经训练的物理环境。Google RT-2在未见过的物体上成功率降至50%以下，Figure机器人的操作速度仍比人类慢一个数量级。这些差距暗示，Claw时代的第一波浪潮更可能是"限定场景下的有限自主"，而非通用机器人的全面普及。

更深远的影响在于经济结构的重组。若Claw能力持续进化，制造业劳动力成本曲线将被重新定义，服务业的自动化边界也将外移。这不是遥远的威胁：富士康已宣布2025年前将30%的产线工人替换为机器人，沃尔玛的仓库自动化率三年内从15%提升至55%。

技术史的残酷之处在于，它从不等待社会准备好。Chat和Code阶段尚可通过"数字鸿沟"缓冲冲击，Claw阶段则直接介入物理世界的资源分配。政策制定者、企业决策者、技术开发者需要同步回答一个问题：当AI长出爪子，人类该以怎样的姿态与之共处？答案的书写窗口，可能比预期更狭窄。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.