![]()
当GPT-5.2面对一个塑料方块时,它的表现可能不如你刚学会编程的侄子。
Nvidia、UC Berkeley、Stanford和CMU的研究者最近放出了一个叫CaP-X的测试框架,专门用来验货:那些吹得天花乱坠的AI大模型,到底能不能自己写代码控制机器人。结果有点尴尬——12个前沿模型,包括Gemini-3-Pro、Claude Opus 4.5、DeepSeek-V3.1这些名字响当当的选手,单次尝试的成功率全都没追上人类手写程序。
1. 给工具就起飞,不给就趴窝
测试设计了7个操作任务,从最简单的抓起方块,到需要双手配合的复杂动作。研究者发现,模型的表现完全取决于"开局装备"。
当系统提供现成的高级指令——比如"抓取物体X并抬起"——模型只需要拼积木式地排列顺序,成功率还能看。但一旦把这些便利函数拆掉,换成底层步骤(图像分割、深度处理、抓取规划、逆运动学计算),成功率断崖式下跌。原来一行函数调用搞定的事,现在得自己写几十行代码,还得保证每一行都对。
这有点像让一个人做菜:给预制调料包他能做出餐厅水准,但从切葱姜蒜开始就可能把厨房点了。
更有趣的是视觉输入的处理。研究者试过直接把原始摄像头画面塞进模型上下文,结果反而更差。他们推测问题出在跨模态对齐——这些基础模型训练时很少同时接触软件代码和物理机器人执行,相当于让一位只会读菜谱的人,直接对着一筐生肉描述该怎么做红烧肉。
2. 视觉差分模块:给AI配个"现场解说员"
研究团队找到的解法是加一个中间层:Visual Differencing Module(视觉差分模块)。一个独立的视觉-语言模型先扫描场景,用文字描述当前状态,提取任务相关属性;每次执行后,再报告画面变化和目标完成度。
这种结构化文本成为编程 agent 生成下一轮代码的依据。测试显示,这个方法稳定优于原始控制台输出和直接图像输入两种方案。
原理不复杂:把物理世界的混沌信息翻译成代码模型能消化的语言。就像足球比赛转播——观众不需要自己盯着22个人跑位,解说员会告诉你"刚才那次越位判罚有问题,现在主队正在组织反击"。
基于这些发现,团队搭了一个叫CaP-Agent0的系统,零训练成本,三个核心组件:上述的视觉差分模块、自动生成的函数库(系统会收集验证通过的代码片段供后续复用)、以及测试时计算扩展机制。
3. 测试时计算:让模型"多想几轮"
CaP-Agent0的关键技巧来自语言模型领域已经验证的方法:测试时计算扩展(test-time compute scaling)。简单说,就是让模型并行生成多个解决方案,自我验证,自动纠错。
具体实现上,系统会同时采样多个代码候选,用物理模拟器检验哪个能跑通。跑不通的,把错误信息反馈给模型继续改。这个循环可以迭代多轮,随着计算预算增加,成功率持续上升。
数据显示,当迭代轮数从1增加到10,部分任务的成功率从不到20%提升到超过80%。作为对比,人类工程师写程序通常也是调试多轮才稳定,只是人类调试时喝的是咖啡,AI烧的是GPU小时。
另一个被验证有效的技巧是函数库积累。系统会把每次验证成功的代码片段存下来,打上标签,后续任务优先调用。这模拟了软件工程中的代码复用习惯——没人每次写新项目都从打印"Hello World"开始。
4. 开源模型的逆袭时刻
测试阵容里既有闭源巨头,也有开源选手:Qwen3-235B、DeepSeek-V3.1等。一个值得注意的现象是,在某些配置下,开源模型的表现并不输付费API。
当配合完整的工具链(视觉差分模块+函数库+多轮迭代),Qwen3-235B在部分任务上追平了GPT-5.2。这说明机器人控制能力的瓶颈不完全在基础模型本身,系统工程的优化空间很大。
研究者还测试了不同"脚手架"配置的组合效果。纯文本描述+单轮生成是最差配置;加上视觉差分模块有明显提升;再叠加函数库和多轮迭代,才能达到实用门槛。没有这些外围系统,再强的模型也是睁眼瞎。
这种发现对行业有直接影响。目前很多机器人创业公司押注端到端训练,收集海量动作数据喂给专用模型。CaP-X的结果提示另一条路:用通用大模型+精心设计的脚手架,可能更省数据、更灵活。
5. 人类工程师暂时安全
论文最扎心的结论或许是:在零样本设定下(模型没见过类似任务,直接上手),所有测试模型的可靠性都低于人类写的程序。
人类工程师的优势不在于写代码更快,而在于对物理世界的常识理解——知道物体会滑落、知道夹爪力度要适中、知道某些姿势会导致奇异点。这些知识没有写进任何文档,但决定了代码能不能在现实世界跑通。
CaP-Agent0的追赶策略很务实:不试图让模型一次性拥有这些常识,而是用多轮验证和物理仿真来弥补。模拟器成了模型的"实习期",先在虚拟环境里摔打,再进真实场景。
研究团队把CaP-X框架开源了,包括测试环境、基准任务和评估脚本。这意味着其他团队可以复现结果、对比新方法,或者把自己的模型拉出来溜溜。
一个悬而未决的问题是:这种"脚手架依赖"是暂时的技术局限,还是根本性的能力边界?如果未来的多模态基础模型能原生理解物理规律,视觉差分模块这类中间层会不会变得多余?
论文作者之一、UC Berkeley的学者在社交媒体提到,他们正在测试下一代模型,「初步结果显示跨模态对齐确实有改善,但距离'扔给模型一个机器人,它就能自己玩起来'还有明显差距」。
机器人公司Figure的工程师在相关讨论下留言:「我们用类似思路做内部原型,发现函数库的质量比模型大小更重要——一个设计良好的抓取原语,能让小模型表现超过大模型裸奔。」
如果明天开源社区出现一个高质量的机器人控制函数库,会不会让现有模型的实用价值翻倍?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.