网易首页 > 网易号 > 正文 申请入驻

12个顶级模型集体翻车:机器人控制还得靠人类写代码

0
分享至


当GPT-5.2面对一个塑料方块时,它的表现可能不如你刚学会编程的侄子。

Nvidia、UC Berkeley、Stanford和CMU的研究者最近放出了一个叫CaP-X的测试框架,专门用来验货:那些吹得天花乱坠的AI大模型,到底能不能自己写代码控制机器人。结果有点尴尬——12个前沿模型,包括Gemini-3-Pro、Claude Opus 4.5、DeepSeek-V3.1这些名字响当当的选手,单次尝试的成功率全都没追上人类手写程序

1. 给工具就起飞,不给就趴窝

测试设计了7个操作任务,从最简单的抓起方块,到需要双手配合的复杂动作。研究者发现,模型的表现完全取决于"开局装备"。

当系统提供现成的高级指令——比如"抓取物体X并抬起"——模型只需要拼积木式地排列顺序,成功率还能看。但一旦把这些便利函数拆掉,换成底层步骤(图像分割、深度处理、抓取规划、逆运动学计算),成功率断崖式下跌。原来一行函数调用搞定的事,现在得自己写几十行代码,还得保证每一行都对。

这有点像让一个人做菜:给预制调料包他能做出餐厅水准,但从切葱姜蒜开始就可能把厨房点了。

更有趣的是视觉输入的处理。研究者试过直接把原始摄像头画面塞进模型上下文,结果反而更差。他们推测问题出在跨模态对齐——这些基础模型训练时很少同时接触软件代码和物理机器人执行,相当于让一位只会读菜谱的人,直接对着一筐生肉描述该怎么做红烧肉

2. 视觉差分模块:给AI配个"现场解说员"

研究团队找到的解法是加一个中间层:Visual Differencing Module(视觉差分模块)。一个独立的视觉-语言模型先扫描场景,用文字描述当前状态,提取任务相关属性;每次执行后,再报告画面变化和目标完成度。

这种结构化文本成为编程 agent 生成下一轮代码的依据。测试显示,这个方法稳定优于原始控制台输出和直接图像输入两种方案

原理不复杂:把物理世界的混沌信息翻译成代码模型能消化的语言。就像足球比赛转播——观众不需要自己盯着22个人跑位,解说员会告诉你"刚才那次越位判罚有问题,现在主队正在组织反击"。

基于这些发现,团队搭了一个叫CaP-Agent0的系统,零训练成本,三个核心组件:上述的视觉差分模块、自动生成的函数库(系统会收集验证通过的代码片段供后续复用)、以及测试时计算扩展机制。

3. 测试时计算:让模型"多想几轮"

CaP-Agent0的关键技巧来自语言模型领域已经验证的方法:测试时计算扩展(test-time compute scaling)。简单说,就是让模型并行生成多个解决方案,自我验证,自动纠错。

具体实现上,系统会同时采样多个代码候选,用物理模拟器检验哪个能跑通。跑不通的,把错误信息反馈给模型继续改。这个循环可以迭代多轮,随着计算预算增加,成功率持续上升

数据显示,当迭代轮数从1增加到10,部分任务的成功率从不到20%提升到超过80%。作为对比,人类工程师写程序通常也是调试多轮才稳定,只是人类调试时喝的是咖啡,AI烧的是GPU小时。

另一个被验证有效的技巧是函数库积累。系统会把每次验证成功的代码片段存下来,打上标签,后续任务优先调用。这模拟了软件工程中的代码复用习惯——没人每次写新项目都从打印"Hello World"开始

4. 开源模型的逆袭时刻

测试阵容里既有闭源巨头,也有开源选手:Qwen3-235B、DeepSeek-V3.1等。一个值得注意的现象是,在某些配置下,开源模型的表现并不输付费API

当配合完整的工具链(视觉差分模块+函数库+多轮迭代),Qwen3-235B在部分任务上追平了GPT-5.2。这说明机器人控制能力的瓶颈不完全在基础模型本身,系统工程的优化空间很大。

研究者还测试了不同"脚手架"配置的组合效果。纯文本描述+单轮生成是最差配置;加上视觉差分模块有明显提升;再叠加函数库和多轮迭代,才能达到实用门槛。没有这些外围系统,再强的模型也是睁眼瞎

这种发现对行业有直接影响。目前很多机器人创业公司押注端到端训练,收集海量动作数据喂给专用模型。CaP-X的结果提示另一条路:用通用大模型+精心设计的脚手架,可能更省数据、更灵活。

5. 人类工程师暂时安全

论文最扎心的结论或许是:在零样本设定下(模型没见过类似任务,直接上手),所有测试模型的可靠性都低于人类写的程序

人类工程师的优势不在于写代码更快,而在于对物理世界的常识理解——知道物体会滑落、知道夹爪力度要适中、知道某些姿势会导致奇异点。这些知识没有写进任何文档,但决定了代码能不能在现实世界跑通。

CaP-Agent0的追赶策略很务实:不试图让模型一次性拥有这些常识,而是用多轮验证和物理仿真来弥补。模拟器成了模型的"实习期",先在虚拟环境里摔打,再进真实场景。

研究团队把CaP-X框架开源了,包括测试环境、基准任务和评估脚本。这意味着其他团队可以复现结果、对比新方法,或者把自己的模型拉出来溜溜。

一个悬而未决的问题是:这种"脚手架依赖"是暂时的技术局限,还是根本性的能力边界?如果未来的多模态基础模型能原生理解物理规律,视觉差分模块这类中间层会不会变得多余?

论文作者之一、UC Berkeley的学者在社交媒体提到,他们正在测试下一代模型,「初步结果显示跨模态对齐确实有改善,但距离'扔给模型一个机器人,它就能自己玩起来'还有明显差距」。

机器人公司Figure的工程师在相关讨论下留言:「我们用类似思路做内部原型,发现函数库的质量比模型大小更重要——一个设计良好的抓取原语,能让小模型表现超过大模型裸奔。」

如果明天开源社区出现一个高质量的机器人控制函数库,会不会让现有模型的实用价值翻倍?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗媒体称美方营救飞行员未能成功

伊朗媒体称美方营救飞行员未能成功

新华社
2026-04-03 21:49:02
互怼升级!张雪怒怼陈光标不过户竖中指,拿你钱做慈善还私下约谈

互怼升级!张雪怒怼陈光标不过户竖中指,拿你钱做慈善还私下约谈

东方不败然多多
2026-04-03 10:05:27
美官员证实一架美军战斗机在伊朗境内被击落 

美官员证实一架美军战斗机在伊朗境内被击落 

新华社
2026-04-03 22:09:54
美国要退出北约,联手乌克兰等四国建新群

美国要退出北约,联手乌克兰等四国建新群

名人苟或
2026-04-03 15:32:47
30胜首队!上海15连胜送天津10连败 张镇麟16+6李弘权23分

30胜首队!上海15连胜送天津10连败 张镇麟16+6李弘权23分

醉卧浮生
2026-04-03 21:49:40
张雪机车刚夺冠就遭商标抢注!无锡公司玩阴的,结局大快人心

张雪机车刚夺冠就遭商标抢注!无锡公司玩阴的,结局大快人心

商悟社
2026-04-03 08:28:14
央视怒批,人民日报点名!卷入暴雷假货的这几位明星,谁也跑不掉

央视怒批,人民日报点名!卷入暴雷假货的这几位明星,谁也跑不掉

小李子体育
2026-04-03 00:54:32
马兴瑞被查

马兴瑞被查

南方都市报
2026-04-03 18:13:26
陈光标这次捐豪车 把嫣然天使捐款单据拿出来大家看看

陈光标这次捐豪车 把嫣然天使捐款单据拿出来大家看看

原某报记者
2026-04-03 18:05:53
陈光标称要送张雪1300万元劳斯莱斯,张雪想卖了捐款,二手车商公开喊话:如果真送车,我第一时间接洽收购

陈光标称要送张雪1300万元劳斯莱斯,张雪想卖了捐款,二手车商公开喊话:如果真送车,我第一时间接洽收购

极目新闻
2026-04-03 14:47:02
中超第一人!费利佩生日夜戴帽,三年第一次,两创中超神纪录

中超第一人!费利佩生日夜戴帽,三年第一次,两创中超神纪录

奥拜尔
2026-04-03 21:45:42
签完反华声明,马克龙离开日本,临走前一锤定音,G7峰会拒邀中国

签完反华声明,马克龙离开日本,临走前一锤定音,G7峰会拒邀中国

影孖看世界
2026-04-03 15:53:11
全网心碎!东契奇伤情最新通报,主帅雷迪克赛后“甩锅”队医

全网心碎!东契奇伤情最新通报,主帅雷迪克赛后“甩锅”队医

夜白侃球
2026-04-03 14:37:42
伊朗革命卫队确认海军情报局高官身亡

伊朗革命卫队确认海军情报局高官身亡

新华社
2026-04-03 18:18:06
美国官员称美军战机在伊朗坠毁,机组人员搜救正在进行中

美国官员称美军战机在伊朗坠毁,机组人员搜救正在进行中

新浪财经
2026-04-03 23:29:03
被炸毁的伊朗大桥是谁建的

被炸毁的伊朗大桥是谁建的

阿亮评论
2026-04-03 10:00:44
33岁香港女歌手已在珠海买房,称交通方便房价低,曾计划40岁退休

33岁香港女歌手已在珠海买房,称交通方便房价低,曾计划40岁退休

韩小娱
2026-04-03 11:31:52
震撼!网传火葬场一个月烧出医用金属假体堆成小山,大多是钛合金

震撼!网传火葬场一个月烧出医用金属假体堆成小山,大多是钛合金

火山詩话
2026-04-03 07:53:17
伊朗声称俘获美军F-15E战机飞行员 冲突或进入新阶段

伊朗声称俘获美军F-15E战机飞行员 冲突或进入新阶段

Nee看
2026-04-03 23:04:15
中国造了20多款火箭,但可能集体走错了路

中国造了20多款火箭,但可能集体走错了路

玛丽姬丝
2026-04-03 19:22:16
2026-04-04 00:00:49
报错免疫体
报错免疫体
一名在需求评审和数据异常中反复横跳的产品运营。
730文章数 5关注度
往期回顾 全部

科技要闻

5万辆库存车,给了特斯拉一记重拳

头条要闻

伊朗:美飞行员跳伞在伊境内落地 美方曾试图营救未果

头条要闻

伊朗:美飞行员跳伞在伊境内落地 美方曾试图营救未果

体育要闻

被NBA选中20年后,他重新回到篮球场

娱乐要闻

夏克立官宣再婚当爸?否认婚内出轨

财经要闻

专家称长期摄入“飘香剂”存在健康隐患

汽车要闻

你介意和远房亲戚长得很像吗?

态度原创

游戏
艺术
健康
旅游
教育

别人涨它降价!Xbox掌机逆势开卖 推出超值促销

艺术要闻

吴昌硕『扇画』老辣古拙

干细胞抗衰4大误区,90%的人都中招

旅游要闻

百年古树梨花开,繁花新叶诗情画意

教育要闻

津门青少年缅怀英烈:一堂纪念碑下的“大思政课”

无障碍浏览 进入关怀版