网易首页 > 网易号 > 正文 申请入驻

强化学习的两个「大坑」,终于被两篇ICLR论文给解决了

0
分享至

机器之心报道

编辑:陈陈

实时强化学习来了!AI 再也不怕「卡顿」。

设想这样一个未来场景:多个厨师机器人正在协作制作煎蛋卷。虽然我们希望这些机器人能使用最强大可靠的智能模型,但更重要的是它们必须跟上瞬息万变的节奏 —— 食材需要在精准时机添加,煎蛋过程需要实时监控以确保受热均匀。只要机器人动作稍有延迟,蛋卷必定焦糊。它们还必须应对协作伙伴动作的不确定性,并做出即时适应性调整。



实时强化学习

然而,现有的强化学习算法多基于一种理想化的交互模式:环境与智能体轮流「暂停」以等待对方完成计算或响应。具体表现为:

环境暂停假设:当智能体进行计算决策和经验学习时,环境状态保持静止;

智能体暂停假设:当环境状态发生转移时,智能体暂停其决策过程。

这种类似「回合制游戏」的假设,严重脱离现实,难以应对持续变化、延迟敏感的真实环境。



下图突出显示了智能体在实时环境中出现的两个关键困难,而这些在标准的回合制 RL 研究中是不会遇到的。

首先,由于动作推理时间较长,智能体可能不会在环境的每一步都采取动作。这可能导致智能体采用一种新的次优性策略,称之为无动作遗憾(inaction regret)。

第二个困难是,动作是基于过去的状态计算的,因而动作会在环境中产生延迟影响。这导致另一个新的次优性来源,这在随机环境中尤为突出,称之为延迟遗憾(delay regret)。

在这样的背景下,Mila 实验室两篇 ICLR 2025 论文提出了一种全新的实时强化学习框架,旨在解决当前强化学习系统在部署过程中面临的推理延迟和动作缺失问题,使得大模型也能在高频、连续的任务中实现即时响应。

第一篇论文提出了一种最小化无动作遗憾的解决方案,第二篇提出了一种最小化延迟遗憾的解决方案。



最小化无动作:交错推理

第一篇论文基于这样一个事实:在标准的回合制强化学习交互范式中,随着模型参数数量的增加,智能体无动作的程度也会随之增加。因此,强化学习社区必须考虑一种新的部署框架,以便在现实世界中实现基础模型规模化的强化学习。为此,本文提出了一个用于异步多过程推理和学习的框架。



  • 论文地址:https://openreview.net/pdf?id=fXb9BbuyAD
  • 代码地址 https://github.com/CERC-AAI/realtime_rl
  • 论文标题: ENABLING REALTIME REINFORCEMENT LEARNING AT SCALE WITH STAGGERED ASYNCHRONOUS INFERENCE



在该框架中,允许智能体充分利用其可用算力进行异步推理与学习。具体而言,本文提出了两种交错式推理算法,其核心思想是通过自适应调整并行推理过程的时序偏移,使智能体能够以更快的固定间隔在环境中执行动作。

本文证明:只要计算资源足够,无论模型有多大、推理时间有多长,使用任意一种算法都可以做到在每一个环境步都执行动作,从而完全消除无动作遗憾。

本文在 Game Boy 和 Atari 实时模拟中测试了提出的新框架,这些模拟的帧率和交互协议与人类在主机上实际玩这些游戏时所体验到的帧率和交互协议同步。

论文重点介绍了异步推理和学习在《宝可梦:蓝》游戏中使用一个拥有 1 亿参数的模型成功捕捉宝可梦时所展现的卓越性能。需要注意的是,智能体不仅必须快速行动,还必须不断适应新的场景才能取得进展。



此外,论文还重点介绍了该框架在像俄罗斯方块这样注重反应时间的实时游戏中的表现。结果证明,在使用异步推理和学习时,模型规模越大,性能下降的速度就越慢。然而,大模型性能下降的根本原因是延迟遗憾效应尚未得到解决。

用单个神经网络最小化无动作和延迟遗憾



  • 论文地址:https://openreview.net/pdf?id=YOc5t8PHf2
  • 项目地址:https://github.com/avecplezir/realtime-agent
  • 论文标题: HANDLING DELAY IN REAL-TIME REINFORCEMENT LEARNING

第二篇论文提出了一种架构解决方案,用于在实时环境中部署神经网络时最大限度地减少无响应和延迟,因为在实时环境中,交错推理并非可行。顺序计算在深度网络中效率低下,因为深度网络中每一层的执行时间大致相同。因此,总延迟会随着网络深度的增加而成比例增加,从而导致响应缓慢。

这一局限性与早期 CPU 架构的缺陷如出一辙 —— 当指令只能串行处理时,会导致计算资源利用率低下且执行时间延长。现代 CPU 采用 pipelining 技术成功解决了这一问题,该技术允许多条指令的不同阶段并行执行。

受此启发,本文在神经网络中引入了并行计算机制:通过一次计算所有网络层,有效降低了无动作遗憾。

为了进一步减少延迟,本文引入了时序跳跃连接(temporal skip connections),使得新的观测信息可以更快地传递到更深的网络层,而无需逐层传递。

该研究的核心贡献在于:将并行计算与时序跳跃连接相结合,从而在实时系统中同时降低无动作遗憾和延迟遗憾。

下图对此进行了说明。图中纵轴表示网络层的深度,从初始观测开始,依次经过第一层、第二层的表示,最终到达动作输出;横轴表示时间。因此,每一条箭头代表一层的计算过程,所需时间为 δ 秒。

在基线方法中(左图),一个新的观测必须依次穿过全部 N 层网络,因此动作的输出需要 N × δ 秒才能获得。

通过对各层进行并行计算(中图),可以将推理吞吐量从每 Nδ 秒一次提高到每 δ 秒一次,从而减少无动作遗憾。

最终,时序跳跃连接(如右图所示)将总延迟从 Nδ 降低至 δ—— 其机制是让最新观测值仅需单次 δ 延迟即可传递至输出层。从设计理念来看,该方案通过在网络表达能力与时效信息整合需求之间进行权衡,从根本上解决了延迟问题。



此外,用过去的动作 / 状态来增强输入可以恢复马尔可夫特性,即使在存在延迟的情况下也能提高学习稳定性。正如结果所示,这既减少了延迟,也减少了与优化相关的遗憾。



两者结合使用

交错式异步推理与时序跳跃连接是彼此独立的技术,但具有互补性。时序跳跃连接可减少模型内部从观测到动作之间的延迟,而交错推理则确保即使在使用大模型时,也能持续稳定地输出动作。

两者结合使用,可以将模型规模与交互延迟解耦,从而使在实时环境中部署既具有强表达能力、又响应迅速的智能体成为可能。这对于机器人、自动驾驶、金融交易等高度依赖响应速度的关键领域具有重要意义。

通过使大模型在不牺牲表达能力的前提下实现高频率决策,这些方法为强化学习在现实世界的延迟敏感型应用中落地迈出了关键一步。

https://mila.quebec/en/article/real-time-reinforcement-learning

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
11月16日晚间,多家上市公司发布重大利好利空好消息

11月16日晚间,多家上市公司发布重大利好利空好消息

A股数据表
2025-11-16 18:24:32
G7集体对华发难,要求中国做出承诺,话音刚落,中方直接反将一军

G7集体对华发难,要求中国做出承诺,话音刚落,中方直接反将一军

阿七说史
2025-11-15 17:58:40
三峡大坝有可能报废?淤泥堆积超18亿吨,究竟该如何治理?

三峡大坝有可能报废?淤泥堆积超18亿吨,究竟该如何治理?

文雅笔墨
2025-11-14 00:13:42
高市早苗挑衅之际,中国海警赴钓鱼岛领海巡航 专家解读来了

高市早苗挑衅之际,中国海警赴钓鱼岛领海巡航 专家解读来了

环球网资讯
2025-11-16 20:10:06
局势再升级!日方召见我驻日大使,高市早苗危言要“核武力介入”

局势再升级!日方召见我驻日大使,高市早苗危言要“核武力介入”

云鹏叙事
2025-11-15 13:09:29
震惊!杨兰兰案第四次庭审,惊爆全网

震惊!杨兰兰案第四次庭审,惊爆全网

热点菌本君
2025-11-16 17:48:30
著名表演艺术家在表演时突然倒地,被送医后经全力抢救无效去世

著名表演艺术家在表演时突然倒地,被送医后经全力抢救无效去世

极目新闻
2025-11-16 16:38:13
内蒙古包头举办“躺平大赛”,54人已躺超24小时,主办方:比赛无截止时间,有人穿纸尿裤参赛

内蒙古包头举办“躺平大赛”,54人已躺超24小时,主办方:比赛无截止时间,有人穿纸尿裤参赛

极目新闻
2025-11-16 13:37:28
苏丹一地发生屠城,血迹太空可见

苏丹一地发生屠城,血迹太空可见

大风新闻
2025-11-16 16:06:05
韩国政府宣布:中国排日本前面

韩国政府宣布:中国排日本前面

环球时报国际
2025-11-16 15:34:27
61岁林雪被曝倾家荡产,欠百亿巨债逃离香港,本人发声:有的是钱

61岁林雪被曝倾家荡产,欠百亿巨债逃离香港,本人发声:有的是钱

天天热点见闻
2025-11-16 15:58:36
不被报道的伊拉克,现在究竟怎么样?

不被报道的伊拉克,现在究竟怎么样?

难得君
2025-11-16 12:23:41
山西狗咬人事件,邻居家的监控帮申某家大忙了!对方轮番上去打砸

山西狗咬人事件,邻居家的监控帮申某家大忙了!对方轮番上去打砸

火山诗话
2025-11-16 08:12:14
高市收辞职通牒,官宅已被围,一个时代或结束,中方向钓鱼岛派人

高市收辞职通牒,官宅已被围,一个时代或结束,中方向钓鱼岛派人

时时有聊
2025-11-16 16:12:42
全运会乒乓球:大爆冷!奥运冠军马龙2:3输球无缘胜利,王楚钦3:0

全运会乒乓球:大爆冷!奥运冠军马龙2:3输球无缘胜利,王楚钦3:0

国乒二三事
2025-11-16 12:06:06
哪位网友没事做竟然给金晨P胸?直接破坏了排骨胸的美感

哪位网友没事做竟然给金晨P胸?直接破坏了排骨胸的美感

喜欢历史的阿繁
2025-11-16 16:04:17
释永信被正式批捕!挖出哪些不为人知的秘密?私下里他和谁在一起

释永信被正式批捕!挖出哪些不为人知的秘密?私下里他和谁在一起

刚哥说法365
2025-11-16 14:35:38
雷军刚刚连发多条微博

雷军刚刚连发多条微博

每日经济新闻
2025-11-16 14:58:06
全运会女子50米蝶泳:张雨霏25秒61夺冠,斩获个人单项第2金

全运会女子50米蝶泳:张雨霏25秒61夺冠,斩获个人单项第2金

全景体育V
2025-11-16 19:09:41
上海寒潮预警:骤降9-11℃!近期很多人中招,还有人发烧硬扛致双目失明!重要提醒

上海寒潮预警:骤降9-11℃!近期很多人中招,还有人发烧硬扛致双目失明!重要提醒

环球网资讯
2025-11-16 21:13:20
2025-11-16 21:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11720文章数 142505关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

日高层:高市早苗今后应该不会再有此类发言

头条要闻

日高层:高市早苗今后应该不会再有此类发言

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

家居
手机
旅游
教育
公开课

家居要闻

现代简逸 寻找生活的光

手机要闻

手机电源键,你真的会用吗?

旅游要闻

白金圣诞树点亮山城!重庆用一场暖冬盛宴,解锁城市文旅新密码

教育要闻

速递!绵阳实高、科一发布秋假放假安排

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版