网易首页 > 网易号 > 正文 申请入驻

专家喂饭时代终结!机器人自悟新招,200步刷新纪录

0
分享至

哈喽大家好,今天老张带大家聊聊机器人的逆袭!以前练活靠专家喂饭还烧钱,SRPO框架一来,200步就把成功率从48.9%飙到99.2%,太顶了!





喂饭式学习该翻篇了

谁能想到?机器人现在比学生还会“复盘错题”,200步强化学习练下来,任务成功率直接从48.9%飙到99.2%。这波操作看得我目瞪口呆,这哪是AI进化,简直是开了外挂

要知道以前的机器人,那就是个“烧钱巨婴”。苏州精密制造车间见过真章:企业花20万请专家录示范视频,调了两周,机器人拧螺丝装外壳的成功率才80%。结果换个螺丝型号,它立马“失忆”,之前的钱全打了水漂。



这就是视觉语言动作(VLA)模型的通病——离了人类专家的“喂饭”就活不了。示范数据采集动辄几十万,还自带“示范偏差”,机器人再努力,性能也超不过教它的人。

有人说用强化学习啊,让机器人自己试错成长。可这招更坑,直接撞上“奖励稀疏”的墙。就像教孩子做题却不批对错,机器人反复失败也不知道问题在哪,计算成本花了一大堆,效率低到让人想砸机器。



我当时就寻思,不是机器人笨,是咱们训练逻辑错了。AI哪用靠人类给标准答案?自己的经验就是最好的老师。直到SRPO框架出来,才算把这局彻底盘活。





自我复盘式进化

SRPO的核心思路特简单:不找专家要答案,让机器人“向自己的成功学”。拆解开来就三招,每招都戳中老问题的命门。

第一招“存经验”:每次更新完操作方法,机器人就把所有轨迹存进“动态参考集”,像老师改卷子似的,清清楚楚分“成功案例”和“失败尝试”。别小看这步,以前的模型连对错都分不清,谈何进步?



第二招“炼精髓”:它把每条轨迹压缩成“潜在世界表征”,这玩意儿就是任务的“核心密码”,藏着物理世界的规律,不用人类额外标语言符号,换个场景用也照样顺手。比那些只会看表面、被光影干扰的像素级模型高级太多,人家是真“懂本质”。



第三招最关键,“算进步分”:先把成功轨迹的“密码”聚成“典型模板”,再算失败轨迹和模板的距离——离得越近进步越大,奖励就越高。这么一来,机器人能清晰感觉到自己的成长,再也不用瞎试错。

这逻辑听着接地气,效果却炸天。LIBERO基准测试里,它仅凭第三视角图像和语言指令,就把依赖腕部视角、3D输入的复杂模型全打败了,连要人工设计奖励的TGRPO方案都被甩在身后。





从实验室到车间

泛化能力更狠!在更难的LIBERO-Plus测试中,性能直接涨了167%。就算没练过泛化场景的题,光靠自己探索,也比靠大量示范训练的SFT模型强。

效率更是“卷王”级别。LIBERO长时序任务里,初始模型One-shotSFT成功率才17.3%,SRPO只用219步就提到98.6%。比同期的GRPO性能高15.3%,连练了15万步的full-shotSFT老模型都超了12.9%。



最牛的是它的“奖励眼光”。拿“马克杯放微波炉关门”和“收拾桌面”两个任务测试,SRPO的奖励曲线又平又稳,完全跟着实际进度走。反观像素级方法被视觉干扰骗,通用视觉模型奖励忽高忽低,跟瞎蒙没啥区别。

这能力落地价值简直没法算。养老服务里,机器人能自己学老人的习惯,不用换个服务对象就请专家调试;精密制造



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这下彻底没救了!网传平顶山受害者态度强硬,坚决不签谅解书…

这下彻底没救了!网传平顶山受害者态度强硬,坚决不签谅解书…

火山詩话
2026-02-24 10:51:39
被教练性侵27次,你以为她是什么纯洁的白莲花?攻和受都是邪恶

被教练性侵27次,你以为她是什么纯洁的白莲花?攻和受都是邪恶

我心纵横天地间
2026-02-24 08:52:19
节假日高速免费模式,已经到了非改不可的地步!

节假日高速免费模式,已经到了非改不可的地步!

清哲木观察
2026-02-24 10:34:37
中国科学家发现黄铁矿能炼出黄金,简单来说就是:黄金可以长出来

中国科学家发现黄铁矿能炼出黄金,简单来说就是:黄金可以长出来

暮雨咋歇着
2026-02-16 13:16:15
突发!巴拿马政府强行进入并接管港口,李嘉诚旗下长和回应:相关行动不合法,构成严重风险,将研究所有可行途径!公司股价跳水

突发!巴拿马政府强行进入并接管港口,李嘉诚旗下长和回应:相关行动不合法,构成严重风险,将研究所有可行途径!公司股价跳水

每日经济新闻
2026-02-24 13:09:07
某大国的预警机发展史,次次都上当,当当都一样

某大国的预警机发展史,次次都上当,当当都一样

晋说
2026-02-24 08:59:03
Anthropic称月之暗面、Minimax和 DeepSeek“工业级蒸馏”其AI模型

Anthropic称月之暗面、Minimax和 DeepSeek“工业级蒸馏”其AI模型

AI先锋官
2026-02-24 08:48:24
泪目!住家保姆陪伴我们十年,决绝离职后,一张纸条让我哭到崩溃

泪目!住家保姆陪伴我们十年,决绝离职后,一张纸条让我哭到崩溃

云端小院
2026-02-24 09:33:38
过年如果没人找你吃饭、喝茶、聚会,电话几乎没有,说明3个问题

过年如果没人找你吃饭、喝茶、聚会,电话几乎没有,说明3个问题

木言观
2026-02-23 14:37:20
贝克汉姆晒14岁哈珀滑雪照,眉眼精致美人胚子,发文暗示布鲁克林

贝克汉姆晒14岁哈珀滑雪照,眉眼精致美人胚子,发文暗示布鲁克林

译言
2026-02-24 05:58:54
砸下3300万,徐根宝请50多位国脚回归崇明岛,这顿饭究竟值不值得?

砸下3300万,徐根宝请50多位国脚回归崇明岛,这顿饭究竟值不值得?

小椰的奶奶
2026-02-24 08:44:32
你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

你有知道哪些炸裂的秘密?网友:我有个秘密说出来肯定大家要笑死

带你感受人间冷暖
2026-01-29 00:10:05
新一轮AI焦虑正在吞噬市场:从华尔街到亚洲,软件股为何一跌再跌?

新一轮AI焦虑正在吞噬市场:从华尔街到亚洲,软件股为何一跌再跌?

金融界
2026-02-24 12:10:35
中央明确!退休新规实施后,公务员及事业编制,不能延迟退休吗?

中央明确!退休新规实施后,公务员及事业编制,不能延迟退休吗?

另子维爱读史
2026-02-08 21:13:03
我竟然被华为投诉了!

我竟然被华为投诉了!

娱乐圈见解说
2026-02-23 16:02:46
手机绝不可能取代传呼机!30年前的旧报纸新闻被扒,引发热议…

手机绝不可能取代传呼机!30年前的旧报纸新闻被扒,引发热议…

火山詩话
2026-02-24 06:14:44
球迷在皇马门口举牌抗议!赫伊森看到后开车加速就跑:差点撞到人

球迷在皇马门口举牌抗议!赫伊森看到后开车加速就跑:差点撞到人

念洲
2026-02-24 13:36:37
澳大利亚惊现封闭乱伦家族:4代人近亲繁衍38名成员全是乱伦产物

澳大利亚惊现封闭乱伦家族:4代人近亲繁衍38名成员全是乱伦产物

第7情感
2026-02-23 20:45:16
三只羊(小杨哥)借壳美股上市股价大起大落,蛋蛋晒合影引发热议!辛巴被曝无法回国!

三只羊(小杨哥)借壳美股上市股价大起大落,蛋蛋晒合影引发热议!辛巴被曝无法回国!

TVB的四小花
2026-02-24 11:36:02
春节偶遇董明珠:不带保镖逛地摊,砍价被拒反而笑得最开心

春节偶遇董明珠:不带保镖逛地摊,砍价被拒反而笑得最开心

小椰的奶奶
2026-02-23 22:10:42
2026-02-24 14:48:49
快看张同学 incentive-icons
快看张同学
晨起暮落,初心不改
4641文章数 303关注度
往期回顾 全部

科技要闻

AI颠覆发展最新牺牲品!IBM跳水重挫超13%

头条要闻

牛弹琴:白宫突然发了张图 伤害性不大侮辱性极强

头条要闻

牛弹琴:白宫突然发了张图 伤害性不大侮辱性极强

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

杨洋传遇上缅北剧组 开机就离开剧组?

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

本地
数码
亲子
旅游
家居

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

数码要闻

石头P20 Max自清洁扫拖机器人上市,4299元起

亲子要闻

护航“马宝宝”!春节期间,威海市妇幼保健院产科温暖守护不打烊

旅游要闻

“这里是章丘!”春节文旅创佳绩,策马扬鞭启新程

家居要闻

本真栖居 爱暖伴流年

无障碍浏览 进入关怀版