网易首页 > 网易号 > 正文 申请入驻

机器人拉个拉链需要"脑子"吗?这个新模型给出99.9%的答案

0
分享至

机器人拉个拉链,到底需不需要"脑子"?过去几年,从OpenVLA到π0、π0.5,具身大模型已经能让机器人把指令和动作连得有模有样。但一旦包的位置挪了几厘米,或者光照暗了一点,它们往往就会"大脑宕机"。

究其原因,是因为这些机器人大多在玩"连连看":看到观察结果,直接输出动作。它们只是记住了轨迹,却并不理解背后的物理逻辑。


现在,一种让机器人"先想明白,再稳定行动"的新范式来了。由至简动力、北大、港中文联合提出的新模型,首次将隐空间物理推理塞进了强化学习的闭环。

它的表现有多夸张?在LIBERO benchmark上,仅靠1条轨迹预热,平均成功率就冲到99.9%;在真实抓取、旋转等复杂任务中,比目前最强的SOTA模型π0.5还要高出22.5%。即便换了物体、背景或光照,它依然能稳如老狗。

这个让机器人长出"物理脑"的新模型,到底是怎么炼成的?

只会模仿,不懂物理

尽管从OpenVLA到π0.5,具身大模型已经完成了图像、语言与动作的初步对齐。但在实际落地中,工业界发现了一个致命的"幻觉":能模仿,不等于能在物理世界泛化。

打个比方,机器人可能记住了100种拉拉链的轨迹,但只要拉链的角度偏转15度,或者光照发生变化,单纯靠"观察→动作"的端到端映射就会失效。核心问题在于,现有的VLA模型缺少一个"思考"的中间层——即让机器人在行动之前,对物理世界进行推理。

过去,学术界也曾尝试引入思维链(CoT)来解决推理问题。但对于机器人操作而言,语言推理往往太慢且颗粒度太粗,你很难用文字精准描述"拉链咬合时的细微阻力反馈"。

该模型的核心突破,就是放弃了低效的语言CoT,转而在隐空间(Latent Space)中构建物理推理链。它不再让机器人看到图像就"闭眼"出动作,而是先在隐性空间里建模场景的结构、物体的物理关系以及未来的动态变化。

然而,要让机器人学会这种"思考",仅靠静态的模仿学习(SFT)是不够的。目前的强化学习(RL)方法大多像是一个只看结果的严厉教练:它只告诉机器人动作成没成功,却无法指导机器人"刚才那下你是怎么想的"。

针对这一痛点,该团队提出的LAPO(Latent-to-Action Policy Optimization)算法,正式将"思考过程"拉进了强化学习的优化闭环。它让环境反馈不仅优化动作,也优化机器人行动前的"物理思考"。

不只练"手",更要修"脑"

这个新模型希望通过强化学习后训练,让具身大模型不仅学会生成动作,也学会在行动前,进行面向物理世界的隐空间推理。

与以往主要优化action space的具身大模型RL不同,它的核心思想是:机器人不应只从图像和指令直接预测下一步动作,而应先在latent space中理解场景结构、物体关系和物理动态,再生成更稳定、精准的动作。

换句话说:不只优化机器人的"手",也优化它的"脑"。

具体来看,该模型构建了一个面向latent reasoning-before-acting策略的强化学习后训练框架,核心由三步组成:

第一步,物理隐空间推理建模。传统具身大模型往往直接从observation生成action,动作前缺少可建模、可优化的物理推理过程。该模型在模型推理中引入latent CoT:生成动作前,先在latent space中建模当前场景、物体关系和未来物理动态。相比语言推理,latent reasoning更适合承载连续、高频、难以语言化的物理信息。

第二步,隐空间推理与动作生成的联合强化优化。传统具身大模型RL多数只优化动作结果:哪个action带来更高reward,就强化哪个action。该团队提出的LAPO算法,把环境奖励同时作用于latent reasoning和action generation:成功轨迹不仅强化正确动作,也强化动作之前的"好推理";失败轨迹不只修正动作结果,也反向调整内部物理推理空间。让reward真正塑造动作背后的reasoning process。

第三步,自适应latent CoT推理机制。不同任务决策需要不同长度的思考。该模型引入adaptive latent CoT:简单状态下,模型可以快速结束推理并执行;拉拉链、擦花瓶、拧瓶盖等复杂接触式操作,则分配更长reasoning horizon。在交互中学会:什么时候该"多想",什么时候该"快做"。

仿真与真机双杀

在LIBERO benchmark上,该模型仅用1条轨迹预热,平均成功率达到99.9%,显著优于现有方法。

在真实世界任务中,面对抓取、旋转等复杂操作,其表现比π0.5高出22.5%。更重要的是,当测试条件发生变化——更换物体、调整背景或改变光照——模型依然保持稳定性能,展现出真正的物理泛化能力。

这背后,是隐空间物理推理与强化学习的深度融合。环境反馈不再只告诉机器人"动作对错",而是同时塑造它的"思考方式"。

该研究由至简动力、香港中文大学、北京大学计算机学院多媒体信息处理国家重点实验室联合完成。值得一提的是,其基座模型已中稿ICML 2026 Spotlight(top 2.2%)。

从"模仿轨迹"到"理解物理",具身大模型正在经历一场关键的范式转移。而这场转移的核心,或许就藏在机器人"动脑"的那一刻。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
压缩即是全部 —— 菲尔兹奖得主 Michael Freedman 给数学和 AI 的一封信

压缩即是全部 —— 菲尔兹奖得主 Michael Freedman 给数学和 AI 的一封信

新浪财经
2026-05-09 00:51:54
7部委发文:严禁医生参加此类活动!违规者将移送至公检机关

7部委发文:严禁医生参加此类活动!违规者将移送至公检机关

医脉圈
2026-05-11 12:04:57
颁奖全程黑脸!松岛辉空被王楚钦打崩溃:自己扇自己+仰天摇头吼

颁奖全程黑脸!松岛辉空被王楚钦打崩溃:自己扇自己+仰天摇头吼

颜小白的篮球梦
2026-05-11 07:11:15
文班被驱逐后续!马刺主帅称绝对不该追加处罚 华子里德赛后纷纷发声

文班被驱逐后续!马刺主帅称绝对不该追加处罚 华子里德赛后纷纷发声

画夕
2026-05-11 12:33:19
调查发现:经常吃苹果的人,不出半年时间,身体会出现这几个变化

调查发现:经常吃苹果的人,不出半年时间,身体会出现这几个变化

摇感军事
2026-05-09 20:58:21
​围观也能赔上千亿:中东这把火,把印度烧成了最惨的局外人

​围观也能赔上千亿:中东这把火,把印度烧成了最惨的局外人

局势帝
2026-05-10 18:00:40
他舍弃中国国籍加入日本队!助日乒逆袭崛起,如今成国乒头号威胁

他舍弃中国国籍加入日本队!助日乒逆袭崛起,如今成国乒头号威胁

八斗小先生
2026-05-11 15:40:40
Model Y 高速上被撞成这样,特斯拉车主说没事!

Model Y 高速上被撞成这样,特斯拉车主说没事!

新浪财经
2026-05-11 10:52:24
云南“便宜”的小县城,一天50包吃住,景色优美,生活节奏慢

云南“便宜”的小县城,一天50包吃住,景色优美,生活节奏慢

匿旅
2026-05-07 16:53:28
张本智和又食言了!赛前:彻底清算一定夺金!输球后目光呆滞!

张本智和又食言了!赛前:彻底清算一定夺金!输球后目光呆滞!

篮球资讯达人
2026-05-11 02:34:50
赵丽颖在上海某高档餐厅被偶遇,瘦是真的瘦,但素颜却没有那么美

赵丽颖在上海某高档餐厅被偶遇,瘦是真的瘦,但素颜却没有那么美

阿废冷眼观察所
2026-05-11 00:49:20
西安分水岭车祸!逆行肇事者竖手指,目击者再曝细节,对方太不值

西安分水岭车祸!逆行肇事者竖手指,目击者再曝细节,对方太不值

千言娱乐记
2026-05-11 14:49:45
厅级干部已经成为了高危职业

厅级干部已经成为了高危职业

风向观察
2026-05-04 14:17:07
韩国综指收涨4.32% 首次收于7800点上方

韩国综指收涨4.32% 首次收于7800点上方

每日经济新闻
2026-05-11 14:37:10
一边是人死了银行会来催款,一边是人死了保险却不主动来赔付

一边是人死了银行会来催款,一边是人死了保险却不主动来赔付

林中木白
2026-04-28 18:08:29
CCTV5直播乒乓球!伦敦世乒赛!5月11日-17日乒乓球节目预告

CCTV5直播乒乓球!伦敦世乒赛!5月11日-17日乒乓球节目预告

好乒乓
2026-05-11 12:30:14
马斯克硬刚法国司法:用法语爆粗辱骂法官,这次真闹大了!

马斯克硬刚法国司法:用法语爆粗辱骂法官,这次真闹大了!

新欧洲
2026-05-10 16:06:11
新任山西省副省长常书铭、徐朝锋,工作分工明确

新任山西省副省长常书铭、徐朝锋,工作分工明确

澎湃新闻
2026-05-11 13:56:30
侯英超说大实话!女队3:2拼下日乒夺冠,一句话把所有人都夸了

侯英超说大实话!女队3:2拼下日乒夺冠,一句话把所有人都夸了

兰亭墨未干
2026-05-11 15:59:21
人社部最新动态,2026年养老金有好消息,企退人员补发700元难吗

人社部最新动态,2026年养老金有好消息,企退人员补发700元难吗

浪子阿邴聊体育
2026-05-11 12:25:59
2026-05-11 16:32:49
像素与芯片
像素与芯片
有态度网友ytd
3594文章数 24关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

头条要闻

媒体:中美元首即将北京会晤 美方一细节耐人寻味

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

"手搓汽车"曝光:伪造证件、电池以旧代新

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

艺术
数码
游戏
公开课
军事航空

艺术要闻

陆抑非写竹,笔力遒劲

数码要闻

努比亚推出GT Buds耳机:支持35dB降噪,269元

红色沙漠又双叒叕更新了!新坐骑新技能还有海量优化

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:伊朗的回应“完全不可接受”

无障碍浏览 进入关怀版