导读:当大模型从对话走向编程,再到操控机械臂,AI正经历第三次能力跃迁。Andrej Karpathy口中的"Claw时代",标志着智能体正式叩响物理世界的大门。
硅谷AI圈正在流传一个极简公式:Chat → Code → Claw。这条由前特斯拉AI总监Andrej Karpathy抛出的演进链条,正在引发技术圈的密集解读。如果说ChatGPT开启了人机对话纪元,Cursor和Copilot代表了代码生成革命,那么"Claw"——这个带有机械隐喻的词汇——指向的正是AI与物理世界交互的终极形态。
![]()
这不是科幻预言。2024年以来,从Figure AI的人形机器人到斯坦福的Mobile ALOHA,从特斯拉Optimus的产线实训到国内智元、宇树等公司的批量出货,具身智能正以超预期速度穿透实验室围墙。Karpathy的推文之所以引发共鸣,在于他用一个单音节词精准捕捉了这场变革的本质:AI不再满足于信息层面的"思考",正在长出操控现实的"爪子"。
从比特到原子:AI的能力边界正在消融
回溯AI发展轨迹,前两次跃迁都遵循相似的范式转移逻辑。Chat阶段的核心突破在于语言理解的统一性——一个模型处理问答、翻译、摘要等多任务,打破了NLP领域长期碎片化的局面。Code阶段则展现了推理能力的规模化应用,GitHub Copilot的代码采纳率已超过30%,Cursor更是以"AI原生IDE"的定位斩获数亿美元估值。
但这两阶段存在一个共同天花板:输出始终停留在数字比特层面。无论对话多么流畅、代码多么优雅,AI都无法直接改变物理世界的状态。Claw阶段的革命性正在于此——它将大模型的认知能力与机器人的执行闭环嫁接,形成"感知-推理-行动"的完整链条。
技术实现路径已日趋清晰。以Google DeepMind的RT-2为例,该模型将视觉-语言-动作(VLA)能力整合,使机器人能够理解"捡起即将从桌上掉落的水果"这类包含物理常识的指令。更关键的是训练范式的转变:传统机器人依赖人工编程每个动作,而VLA模型通过海量互联网数据预训练,获得了可迁移的物理直觉。Figure AI与OpenAI的合作同样遵循此逻辑,其最新demo中,人形机器人已能完成"递苹果"这类需要常识推理的任务。
硬件成本崩塌:具身智能的"摩尔时刻"到来
能力突破只是故事的一半。Claw时代加速到来的另一驱动力,是硬件成本的断崖式下跌。
特斯拉Optimus的量产目标已将单台成本压向2万美元区间,这相当于一辆经济型轿车的价格。国内供应链的响应更为激进:宇树科技的G1人形机器人售价9.9万元人民币起,智元远征A1更是将目标价锚定在20万元以内。作为对比,波士顿动力Atlas 2016年的造价超过200万美元。八年时间,成本曲线下降了两个数量级。
这种降幅并非线性演进,而是中国制造能力与AI算法迭代的共振结果。谐波减速器、力矩传感器、无框力矩电机等核心部件的国产化,使机器人硬件摆脱了海外垄断;同时,仿真训练、Sim2Real迁移、世界模型等技术的成熟,大幅降低了对真实数据的需求。Figure AI创始人Brett Adcock曾透露,其机器人通过仿真环境生成的训练数据,占比已超过80%。
成本阈值一旦被击穿,商业飞轮随即启动。工业场景成为最先落地的试验田:特斯拉工厂中,Optimus已参与电池分装等工序;亚马逊仓储机器人Kiva的升级版本,正在测试自主拣选能力;国内汽车工厂对协作机械臂的采购量,2024年同比增长超过40%。这些应用未必需要人形形态,但共享同一套"大模型+执行器"的技术底座。
Claw的隐喻:权力转移与伦理暗礁
Karpathy选择"Claw"而非"Robot"作为第三阶段符号,本身就值得玩味。Claw在英语中兼具"爪子"与"控制"双重含义——前者指向物理操控能力,后者暗示一种更原始的权力关系。
这种措辞或许有意无意地揭示了技术演进的深层张力。当AI获得物理行动力,其风险维度将从信息污染、版权争议,扩展至人身安全与基础设施安全。2024年3月,Figure AI发布的一段视频中,机器人将咖啡杯递给人类后,手指出现了不自然的抽搐。这个细节被技术社区放大讨论:当模型幻觉发生在物理空间,后果不再是"生成错误答案"那么简单。
监管框架的滞后性正在凸显。欧盟《人工智能法案》将"物理支持机器人"列为高风险类别,但具体合规标准尚未细化;美国NIST的AI风险管理框架,主要聚焦于软件系统。更具挑战性的是责任归属问题:当大模型驱动的机器人造成损害,开发者、部署方、硬件制造商的法律责任如何划分?
技术乐观主义者倾向于将Claw视为人类能力的延伸而非替代。Karpathy本人在后续讨论中强调,「Claw的核心价值在于处理3D(脏、危险、枯燥)任务」,释放人类从事创造性工作。但这一愿景的实现,取决于人机协作界面的设计——是保持人类在决策环内(human-in-the-loop),还是逐步让渡控制权给自主系统?
临界点已至,但路径未明
站在2024年末回望,Chat到Code的跃迁耗时约两年,Code到Claw的压缩周期可能更短。技术就绪度、成本曲线、资本密度三项指标同时指向一个结论:具身智能的产业化临界点已经到来。
但"到来"不等于"成熟"。当前Claw阶段的核心瓶颈在于泛化能力——实验室demo中的惊艳表现,往往难以迁移至未经训练的物理环境。Google RT-2在未见过的物体上成功率降至50%以下,Figure机器人的操作速度仍比人类慢一个数量级。这些差距暗示,Claw时代的第一波浪潮更可能是"限定场景下的有限自主",而非通用机器人的全面普及。
更深远的影响在于经济结构的重组。若Claw能力持续进化,制造业劳动力成本曲线将被重新定义,服务业的自动化边界也将外移。这不是遥远的威胁:富士康已宣布2025年前将30%的产线工人替换为机器人,沃尔玛的仓库自动化率三年内从15%提升至55%。
技术史的残酷之处在于,它从不等待社会准备好。Chat和Code阶段尚可通过"数字鸿沟"缓冲冲击,Claw阶段则直接介入物理世界的资源分配。政策制定者、企业决策者、技术开发者需要同步回答一个问题:当AI长出爪子,人类该以怎样的姿态与之共处?答案的书写窗口,可能比预期更狭窄。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.