12个顶级模型集体翻车：机器人控制还得靠人类写代码|差分|模态|编程|新论文

12个顶级模型集体翻车：机器人控制还得靠人类写代码

2026-04-03 16:15:38　来源: 报错免疫体

北京举报

分享至

当GPT-5.2面对一个塑料方块时，它的表现可能不如你刚学会编程的侄子。

Nvidia、UC Berkeley、Stanford和CMU的研究者最近放出了一个叫CaP-X的测试框架，专门用来验货：那些吹得天花乱坠的AI大模型，到底能不能自己写代码控制机器人。结果有点尴尬——12个前沿模型，包括Gemini-3-Pro、Claude Opus 4.5、DeepSeek-V3.1这些名字响当当的选手，单次尝试的成功率全都没追上人类手写程序。

1. 给工具就起飞，不给就趴窝

测试设计了7个操作任务，从最简单的抓起方块，到需要双手配合的复杂动作。研究者发现，模型的表现完全取决于"开局装备"。

当系统提供现成的高级指令——比如"抓取物体X并抬起"——模型只需要拼积木式地排列顺序，成功率还能看。但一旦把这些便利函数拆掉，换成底层步骤（图像分割、深度处理、抓取规划、逆运动学计算），成功率断崖式下跌。原来一行函数调用搞定的事，现在得自己写几十行代码，还得保证每一行都对。

这有点像让一个人做菜：给预制调料包他能做出餐厅水准，但从切葱姜蒜开始就可能把厨房点了。

更有趣的是视觉输入的处理。研究者试过直接把原始摄像头画面塞进模型上下文，结果反而更差。他们推测问题出在跨模态对齐——这些基础模型训练时很少同时接触软件代码和物理机器人执行，相当于让一位只会读菜谱的人，直接对着一筐生肉描述该怎么做红烧肉。

2. 视觉差分模块：给AI配个"现场解说员"

研究团队找到的解法是加一个中间层：Visual Differencing Module（视觉差分模块）。一个独立的视觉-语言模型先扫描场景，用文字描述当前状态，提取任务相关属性；每次执行后，再报告画面变化和目标完成度。

这种结构化文本成为编程 agent 生成下一轮代码的依据。测试显示，这个方法稳定优于原始控制台输出和直接图像输入两种方案。

原理不复杂：把物理世界的混沌信息翻译成代码模型能消化的语言。就像足球比赛转播——观众不需要自己盯着22个人跑位，解说员会告诉你"刚才那次越位判罚有问题，现在主队正在组织反击"。

基于这些发现，团队搭了一个叫CaP-Agent0的系统，零训练成本，三个核心组件：上述的视觉差分模块、自动生成的函数库（系统会收集验证通过的代码片段供后续复用）、以及测试时计算扩展机制。

3. 测试时计算：让模型"多想几轮"

CaP-Agent0的关键技巧来自语言模型领域已经验证的方法：测试时计算扩展（test-time compute scaling）。简单说，就是让模型并行生成多个解决方案，自我验证，自动纠错。

具体实现上，系统会同时采样多个代码候选，用物理模拟器检验哪个能跑通。跑不通的，把错误信息反馈给模型继续改。这个循环可以迭代多轮，随着计算预算增加，成功率持续上升。

数据显示，当迭代轮数从1增加到10，部分任务的成功率从不到20%提升到超过80%。作为对比，人类工程师写程序通常也是调试多轮才稳定，只是人类调试时喝的是咖啡，AI烧的是GPU小时。

另一个被验证有效的技巧是函数库积累。系统会把每次验证成功的代码片段存下来，打上标签，后续任务优先调用。这模拟了软件工程中的代码复用习惯——没人每次写新项目都从打印"Hello World"开始。

4. 开源模型的逆袭时刻

测试阵容里既有闭源巨头，也有开源选手：Qwen3-235B、DeepSeek-V3.1等。一个值得注意的现象是，在某些配置下，开源模型的表现并不输付费API。

当配合完整的工具链（视觉差分模块+函数库+多轮迭代），Qwen3-235B在部分任务上追平了GPT-5.2。这说明机器人控制能力的瓶颈不完全在基础模型本身，系统工程的优化空间很大。

研究者还测试了不同"脚手架"配置的组合效果。纯文本描述+单轮生成是最差配置；加上视觉差分模块有明显提升；再叠加函数库和多轮迭代，才能达到实用门槛。没有这些外围系统，再强的模型也是睁眼瞎。

这种发现对行业有直接影响。目前很多机器人创业公司押注端到端训练，收集海量动作数据喂给专用模型。CaP-X的结果提示另一条路：用通用大模型+精心设计的脚手架，可能更省数据、更灵活。

5. 人类工程师暂时安全

论文最扎心的结论或许是：在零样本设定下（模型没见过类似任务，直接上手），所有测试模型的可靠性都低于人类写的程序。

人类工程师的优势不在于写代码更快，而在于对物理世界的常识理解——知道物体会滑落、知道夹爪力度要适中、知道某些姿势会导致奇异点。这些知识没有写进任何文档，但决定了代码能不能在现实世界跑通。

CaP-Agent0的追赶策略很务实：不试图让模型一次性拥有这些常识，而是用多轮验证和物理仿真来弥补。模拟器成了模型的"实习期"，先在虚拟环境里摔打，再进真实场景。

研究团队把CaP-X框架开源了，包括测试环境、基准任务和评估脚本。这意味着其他团队可以复现结果、对比新方法，或者把自己的模型拉出来溜溜。

一个悬而未决的问题是：这种"脚手架依赖"是暂时的技术局限，还是根本性的能力边界？如果未来的多模态基础模型能原生理解物理规律，视觉差分模块这类中间层会不会变得多余？

论文作者之一、UC Berkeley的学者在社交媒体提到，他们正在测试下一代模型，「初步结果显示跨模态对齐确实有改善，但距离'扔给模型一个机器人，它就能自己玩起来'还有明显差距」。

机器人公司Figure的工程师在相关讨论下留言：「我们用类似思路做内部原型，发现函数库的质量比模型大小更重要——一个设计良好的抓取原语，能让小模型表现超过大模型裸奔。」

如果明天开源社区出现一个高质量的机器人控制函数库，会不会让现有模型的实用价值翻倍？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.