网易首页 > 网易号 > 正文 申请入驻

专家喂饭时代终结!机器人自悟新招,200步刷新纪录

0
分享至

哈喽大家好,今天老张带大家聊聊机器人的逆袭!以前练活靠专家喂饭还烧钱,SRPO框架一来,200步就把成功率从48.9%飙到99.2%,太顶了!





喂饭式学习该翻篇了

谁能想到?机器人现在比学生还会“复盘错题”,200步强化学习练下来,任务成功率直接从48.9%飙到99.2%。这波操作看得我目瞪口呆,这哪是AI进化,简直是开了外挂

要知道以前的机器人,那就是个“烧钱巨婴”。苏州精密制造车间见过真章:企业花20万请专家录示范视频,调了两周,机器人拧螺丝装外壳的成功率才80%。结果换个螺丝型号,它立马“失忆”,之前的钱全打了水漂。



这就是视觉语言动作(VLA)模型的通病——离了人类专家的“喂饭”就活不了。示范数据采集动辄几十万,还自带“示范偏差”,机器人再努力,性能也超不过教它的人。

有人说用强化学习啊,让机器人自己试错成长。可这招更坑,直接撞上“奖励稀疏”的墙。就像教孩子做题却不批对错,机器人反复失败也不知道问题在哪,计算成本花了一大堆,效率低到让人想砸机器。



我当时就寻思,不是机器人笨,是咱们训练逻辑错了。AI哪用靠人类给标准答案?自己的经验就是最好的老师。直到SRPO框架出来,才算把这局彻底盘活。





自我复盘式进化

SRPO的核心思路特简单:不找专家要答案,让机器人“向自己的成功学”。拆解开来就三招,每招都戳中老问题的命门。

第一招“存经验”:每次更新完操作方法,机器人就把所有轨迹存进“动态参考集”,像老师改卷子似的,清清楚楚分“成功案例”和“失败尝试”。别小看这步,以前的模型连对错都分不清,谈何进步?



第二招“炼精髓”:它把每条轨迹压缩成“潜在世界表征”,这玩意儿就是任务的“核心密码”,藏着物理世界的规律,不用人类额外标语言符号,换个场景用也照样顺手。比那些只会看表面、被光影干扰的像素级模型高级太多,人家是真“懂本质”。



第三招最关键,“算进步分”:先把成功轨迹的“密码”聚成“典型模板”,再算失败轨迹和模板的距离——离得越近进步越大,奖励就越高。这么一来,机器人能清晰感觉到自己的成长,再也不用瞎试错。

这逻辑听着接地气,效果却炸天。LIBERO基准测试里,它仅凭第三视角图像和语言指令,就把依赖腕部视角、3D输入的复杂模型全打败了,连要人工设计奖励的TGRPO方案都被甩在身后。





从实验室到车间

泛化能力更狠!在更难的LIBERO-Plus测试中,性能直接涨了167%。就算没练过泛化场景的题,光靠自己探索,也比靠大量示范训练的SFT模型强。

效率更是“卷王”级别。LIBERO长时序任务里,初始模型One-shotSFT成功率才17.3%,SRPO只用219步就提到98.6%。比同期的GRPO性能高15.3%,连练了15万步的full-shotSFT老模型都超了12.9%。



最牛的是它的“奖励眼光”。拿“马克杯放微波炉关门”和“收拾桌面”两个任务测试,SRPO的奖励曲线又平又稳,完全跟着实际进度走。反观像素级方法被视觉干扰骗,通用视觉模型奖励忽高忽低,跟瞎蒙没啥区别。

这能力落地价值简直没法算。养老服务里,机器人能自己学老人的习惯,不用换个服务对象就请专家调试;精密制造



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
未来10年,大量丁克将陷入新型破产:有房有存款,但和你没关系了

未来10年,大量丁克将陷入新型破产:有房有存款,但和你没关系了

深度报
2026-01-02 22:42:31
马杜罗戴镣铐对镜头比耶,心态很好咧嘴微笑,被捕后换了好几次衣服

马杜罗戴镣铐对镜头比耶,心态很好咧嘴微笑,被捕后换了好几次衣服

笔墨V
2026-01-04 15:25:39
桑切斯:不会认可对委非法干预

桑切斯:不会认可对委非法干预

环球时报国际
2026-01-04 15:59:37
伊朗人民援军来了,多支中东武装杀进波斯,伊斯兰卫队望风而逃

伊朗人民援军来了,多支中东武装杀进波斯,伊斯兰卫队望风而逃

史政先锋
2026-01-04 16:12:50
关键转折?追梦在次节末落后10分时2T离场,随后勇士逆转19分

关键转折?追梦在次节末落后10分时2T离场,随后勇士逆转19分

懂球帝
2026-01-04 14:01:22
王石婚变?老登就该被田朴珺PUA吗

王石婚变?老登就该被田朴珺PUA吗

智识漂流
2026-01-04 15:06:04
委内瑞拉变天,俄智库痛心疾首:无人机神话被破,中俄武器没反应

委内瑞拉变天,俄智库痛心疾首:无人机神话被破,中俄武器没反应

铁锤简科
2026-01-04 13:22:26
信息量好大!雷军直播拆YU7硬刚质疑,50岁CEO熬到午夜丢轮保车!

信息量好大!雷军直播拆YU7硬刚质疑,50岁CEO熬到午夜丢轮保车!

派大星纪录片
2026-01-04 14:14:31
从清纯学生到夜场玩物:这条黑产,有多可怕!

从清纯学生到夜场玩物:这条黑产,有多可怕!

半耳聆
2026-01-04 17:47:31
泽连斯基声称支持美国抓马杜罗!但他忘了:俄罗斯可“照方抓药”

泽连斯基声称支持美国抓马杜罗!但他忘了:俄罗斯可“照方抓药”

近史博览
2026-01-04 18:00:45
满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

查尔菲的笔记
2026-01-04 13:13:57
突发! 大批澳洲华人无法使用国内app, Optus回应: 已阻断和澳洲之间的全部联网

突发! 大批澳洲华人无法使用国内app, Optus回应: 已阻断和澳洲之间的全部联网

澳微Daily
2026-01-04 15:00:01
马杜罗被擒,特朗普宣布获胜,殊不知酿成大祸,美国或成最终输家

马杜罗被擒,特朗普宣布获胜,殊不知酿成大祸,美国或成最终输家

博览历史
2026-01-04 11:29:46
不管在哪里上班,没钱没靠山,记住这个忠告:尽早找个一人能干的小生意练手

不管在哪里上班,没钱没靠山,记住这个忠告:尽早找个一人能干的小生意练手

李舟
2026-01-03 18:08:08
突发讣告!上海足坛泰斗高慎华逝世

突发讣告!上海足坛泰斗高慎华逝世

鲁中晨报
2026-01-04 15:53:06
国行版AI上线了?苹果回应

国行版AI上线了?苹果回应

财联社
2026-01-04 13:12:04
三亚不香了?东北人撤离成潮,压垮他们的不是物价,而是生活现实

三亚不香了?东北人撤离成潮,压垮他们的不是物价,而是生活现实

青眼财经
2026-01-02 23:58:07
“老板承诺夺冠每人奖一台车,却食言清空账号”,当地通报:企业面临困难,企业主家庭出现特殊状况,难以兑现承诺,球队不再要求履约

“老板承诺夺冠每人奖一台车,却食言清空账号”,当地通报:企业面临困难,企业主家庭出现特殊状况,难以兑现承诺,球队不再要求履约

每日经济新闻
2026-01-04 01:17:06
特朗普:美军抓走马杜罗行动中“许多古巴人丧生”

特朗普:美军抓走马杜罗行动中“许多古巴人丧生”

环球网资讯
2026-01-04 11:04:27
新加坡科学院院士国大教授陈小元,被指涉及性不端行为遭校方解雇

新加坡科学院院士国大教授陈小元,被指涉及性不端行为遭校方解雇

知社学术圈
2026-01-04 15:47:09
2026-01-04 19:52:49
快看张同学 incentive-icons
快看张同学
晨起暮落,初心不改
4020文章数 258关注度
往期回顾 全部

科技要闻

独家|宇树科技上市绿色通道被叫停

头条要闻

媒体:美军突袭抓获马杜罗 三个细节令人吃惊

头条要闻

媒体:美军突袭抓获马杜罗 三个细节令人吃惊

体育要闻

球队陷入危难,一名44岁教练选择复出打球

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

委内瑞拉变局对原油美元黄金的连锁冲击

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

手机
健康
时尚
旅游
军事航空

手机要闻

开年重磅性能旗舰 iQOO 15 Ultra春节前发布

这些新疗法,让化疗不再那么痛苦

伊姐元旦热推:电视剧《剥茧》;电视剧《玉茗茶骨》......

旅游要闻

陕西神木跻身2025“奔县游”热门县城TOP10

军事要闻

美军突袭抓获马杜罗 三个细节值得关注

无障碍浏览 进入关怀版