网易首页 > 网易号 > 正文 申请入驻

专家喂饭时代终结!机器人自悟新招,200步刷新纪录

0
分享至

哈喽大家好,今天老张带大家聊聊机器人的逆袭!以前练活靠专家喂饭还烧钱,SRPO框架一来,200步就把成功率从48.9%飙到99.2%,太顶了!





喂饭式学习该翻篇了

谁能想到?机器人现在比学生还会“复盘错题”,200步强化学习练下来,任务成功率直接从48.9%飙到99.2%。这波操作看得我目瞪口呆,这哪是AI进化,简直是开了外挂

要知道以前的机器人,那就是个“烧钱巨婴”。苏州精密制造车间见过真章:企业花20万请专家录示范视频,调了两周,机器人拧螺丝装外壳的成功率才80%。结果换个螺丝型号,它立马“失忆”,之前的钱全打了水漂。



这就是视觉语言动作(VLA)模型的通病——离了人类专家的“喂饭”就活不了。示范数据采集动辄几十万,还自带“示范偏差”,机器人再努力,性能也超不过教它的人。

有人说用强化学习啊,让机器人自己试错成长。可这招更坑,直接撞上“奖励稀疏”的墙。就像教孩子做题却不批对错,机器人反复失败也不知道问题在哪,计算成本花了一大堆,效率低到让人想砸机器。



我当时就寻思,不是机器人笨,是咱们训练逻辑错了。AI哪用靠人类给标准答案?自己的经验就是最好的老师。直到SRPO框架出来,才算把这局彻底盘活。





自我复盘式进化

SRPO的核心思路特简单:不找专家要答案,让机器人“向自己的成功学”。拆解开来就三招,每招都戳中老问题的命门。

第一招“存经验”:每次更新完操作方法,机器人就把所有轨迹存进“动态参考集”,像老师改卷子似的,清清楚楚分“成功案例”和“失败尝试”。别小看这步,以前的模型连对错都分不清,谈何进步?



第二招“炼精髓”:它把每条轨迹压缩成“潜在世界表征”,这玩意儿就是任务的“核心密码”,藏着物理世界的规律,不用人类额外标语言符号,换个场景用也照样顺手。比那些只会看表面、被光影干扰的像素级模型高级太多,人家是真“懂本质”。



第三招最关键,“算进步分”:先把成功轨迹的“密码”聚成“典型模板”,再算失败轨迹和模板的距离——离得越近进步越大,奖励就越高。这么一来,机器人能清晰感觉到自己的成长,再也不用瞎试错。

这逻辑听着接地气,效果却炸天。LIBERO基准测试里,它仅凭第三视角图像和语言指令,就把依赖腕部视角、3D输入的复杂模型全打败了,连要人工设计奖励的TGRPO方案都被甩在身后。





从实验室到车间

泛化能力更狠!在更难的LIBERO-Plus测试中,性能直接涨了167%。就算没练过泛化场景的题,光靠自己探索,也比靠大量示范训练的SFT模型强。

效率更是“卷王”级别。LIBERO长时序任务里,初始模型One-shotSFT成功率才17.3%,SRPO只用219步就提到98.6%。比同期的GRPO性能高15.3%,连练了15万步的full-shotSFT老模型都超了12.9%。



最牛的是它的“奖励眼光”。拿“马克杯放微波炉关门”和“收拾桌面”两个任务测试,SRPO的奖励曲线又平又稳,完全跟着实际进度走。反观像素级方法被视觉干扰骗,通用视觉模型奖励忽高忽低,跟瞎蒙没啥区别。

这能力落地价值简直没法算。养老服务里,机器人能自己学老人的习惯,不用换个服务对象就请专家调试;精密制造



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
80后家长发明“防早恋”发型,女儿面如死灰,网友都看不下去了

80后家长发明“防早恋”发型,女儿面如死灰,网友都看不下去了

妍妍教育日记
2026-04-27 09:20:13
收评:创业板指跌超1%收出4连阴 工业气体、煤炭方向逆势走强

收评:创业板指跌超1%收出4连阴 工业气体、煤炭方向逆势走强

财联社
2026-04-28 15:02:16
孙勇:开启 HEV新时代,长安“蓝鲸超擎混动”向丰田发起冲击!

孙勇:开启 HEV新时代,长安“蓝鲸超擎混动”向丰田发起冲击!

网上车市
2026-04-27 17:47:24
孕妇200元买水果被丈夫“吃死你” 引产后离婚,事件反转账号被封

孕妇200元买水果被丈夫“吃死你” 引产后离婚,事件反转账号被封

社会日日鲜
2026-04-28 03:58:45
上海两女子地铁打架后续:原视频曝光,难怪年轻女孩不给老人让座

上海两女子地铁打架后续:原视频曝光,难怪年轻女孩不给老人让座

奇思妙想草叶君
2026-04-27 17:04:00
43岁蔡卓妍官宣结婚,婚戒照好幸福,老公比她小10岁是健身教练

43岁蔡卓妍官宣结婚,婚戒照好幸福,老公比她小10岁是健身教练

扒虾侃娱
2026-04-28 12:34:53
麻豆最后封神名单~ 谁是最受欢迎的麻豆女神~

麻豆最后封神名单~ 谁是最受欢迎的麻豆女神~

吃瓜党二号头目
2026-04-28 08:13:04
山西突发重大命案!33岁未婚男杀害离婚女后潜逃,逃跑画面流出

山西突发重大命案!33岁未婚男杀害离婚女后潜逃,逃跑画面流出

老猫观点
2026-04-28 07:34:27
湖南岳阳通报“一中学生在校期间饮水杯被同学投放异物”

湖南岳阳通报“一中学生在校期间饮水杯被同学投放异物”

界面新闻
2026-04-28 11:36:30
首个4-0!雷霆横扫太阳晋级半决赛,SGA31+8布克24+6

首个4-0!雷霆横扫太阳晋级半决赛,SGA31+8布克24+6

湖人崛起
2026-04-28 12:14:16
2026年5月1日起,民企老板最难的日子来了:成功归自己 失败全担债

2026年5月1日起,民企老板最难的日子来了:成功归自己 失败全担债

西莫的艺术宫殿
2026-04-28 08:57:00
辞任杭州市市长后,姚高员已任浙江省政府党组成员

辞任杭州市市长后,姚高员已任浙江省政府党组成员

上海法治声音
2026-04-28 14:52:08
细思极恐,躺平思想原来是境外敌对势力煽动的?

细思极恐,躺平思想原来是境外敌对势力煽动的?

十柱
2026-04-28 11:54:55
收复藏南,必须同时遣返上百万移民,中国绝不允许出现“印度族”

收复藏南,必须同时遣返上百万移民,中国绝不允许出现“印度族”

朝子亥
2026-04-27 05:40:03
不想访华了?美国联合10国,对中国发起一轮猛攻,中方反制不隔夜

不想访华了?美国联合10国,对中国发起一轮猛攻,中方反制不隔夜

书纪文谭
2026-04-27 15:07:22
统治力!雷霆连续三年首轮横扫静候湖人 亚历山大开启卫冕模式

统治力!雷霆连续三年首轮横扫静候湖人 亚历山大开启卫冕模式

醉卧浮生
2026-04-28 12:15:22
生理上能把男人喂饱的女人,是好女人

生理上能把男人喂饱的女人,是好女人

加油丁小文
2026-04-28 05:30:09
第二个“恒大”出现!年收入超6000亿,老板跟许家印“称兄道弟”

第二个“恒大”出现!年收入超6000亿,老板跟许家印“称兄道弟”

蜉蝣说
2026-04-28 11:12:03
77年来首次?北约内部讨论“冷处理”特朗普,被迫放弃每年一会

77年来首次?北约内部讨论“冷处理”特朗普,被迫放弃每年一会

上观新闻
2026-04-28 13:50:53
中共中央政治局:努力稳定房地产市场,扎实推进城市更新

中共中央政治局:努力稳定房地产市场,扎实推进城市更新

界面新闻
2026-04-28 13:33:50
2026-04-28 15:20:49
快看张同学
快看张同学
晨起暮落,初心不改
5240文章数 353关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

辞任杭州市市长后 姚高员已任浙江省政府党组成员

头条要闻

辞任杭州市市长后 姚高员已任浙江省政府党组成员

体育要闻

季后赛最新局势:雷霆4-0晋级首队 4队3-1

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

俞敏洪再遭重击

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

家居
房产
旅游
时尚
本地

家居要闻

江景风格 流动的秩序

房产要闻

信号!海南商业版图,迎来大变局!

旅游要闻

画美达尼青岛市乡村振兴片区丨五一必看!画美达尼最全游玩指南

T恤+阔腿裤、衬衫+阔腿裤,今年夏天最火的搭配,谁穿谁时髦!

本地新闻

用青花瓷的方式,打开西溪湿地

无障碍浏览 进入关怀版