网易首页 > 网易号 > 正文 申请入驻

强化学习的两个「大坑」,终于被两篇ICLR论文给解决了

0
分享至

机器之心报道

编辑:陈陈

实时强化学习来了!AI 再也不怕「卡顿」。

设想这样一个未来场景:多个厨师机器人正在协作制作煎蛋卷。虽然我们希望这些机器人能使用最强大可靠的智能模型,但更重要的是它们必须跟上瞬息万变的节奏 —— 食材需要在精准时机添加,煎蛋过程需要实时监控以确保受热均匀。只要机器人动作稍有延迟,蛋卷必定焦糊。它们还必须应对协作伙伴动作的不确定性,并做出即时适应性调整。



实时强化学习

然而,现有的强化学习算法多基于一种理想化的交互模式:环境与智能体轮流「暂停」以等待对方完成计算或响应。具体表现为:

环境暂停假设:当智能体进行计算决策和经验学习时,环境状态保持静止;

智能体暂停假设:当环境状态发生转移时,智能体暂停其决策过程。

这种类似「回合制游戏」的假设,严重脱离现实,难以应对持续变化、延迟敏感的真实环境。



下图突出显示了智能体在实时环境中出现的两个关键困难,而这些在标准的回合制 RL 研究中是不会遇到的。

首先,由于动作推理时间较长,智能体可能不会在环境的每一步都采取动作。这可能导致智能体采用一种新的次优性策略,称之为无动作遗憾(inaction regret)。

第二个困难是,动作是基于过去的状态计算的,因而动作会在环境中产生延迟影响。这导致另一个新的次优性来源,这在随机环境中尤为突出,称之为延迟遗憾(delay regret)。

在这样的背景下,Mila 实验室两篇 ICLR 2025 论文提出了一种全新的实时强化学习框架,旨在解决当前强化学习系统在部署过程中面临的推理延迟和动作缺失问题,使得大模型也能在高频、连续的任务中实现即时响应。

第一篇论文提出了一种最小化无动作遗憾的解决方案,第二篇提出了一种最小化延迟遗憾的解决方案。



最小化无动作:交错推理

第一篇论文基于这样一个事实:在标准的回合制强化学习交互范式中,随着模型参数数量的增加,智能体无动作的程度也会随之增加。因此,强化学习社区必须考虑一种新的部署框架,以便在现实世界中实现基础模型规模化的强化学习。为此,本文提出了一个用于异步多过程推理和学习的框架。



  • 论文地址:https://openreview.net/pdf?id=fXb9BbuyAD
  • 代码地址 https://github.com/CERC-AAI/realtime_rl
  • 论文标题: ENABLING REALTIME REINFORCEMENT LEARNING AT SCALE WITH STAGGERED ASYNCHRONOUS INFERENCE



在该框架中,允许智能体充分利用其可用算力进行异步推理与学习。具体而言,本文提出了两种交错式推理算法,其核心思想是通过自适应调整并行推理过程的时序偏移,使智能体能够以更快的固定间隔在环境中执行动作。

本文证明:只要计算资源足够,无论模型有多大、推理时间有多长,使用任意一种算法都可以做到在每一个环境步都执行动作,从而完全消除无动作遗憾。

本文在 Game Boy 和 Atari 实时模拟中测试了提出的新框架,这些模拟的帧率和交互协议与人类在主机上实际玩这些游戏时所体验到的帧率和交互协议同步。

论文重点介绍了异步推理和学习在《宝可梦:蓝》游戏中使用一个拥有 1 亿参数的模型成功捕捉宝可梦时所展现的卓越性能。需要注意的是,智能体不仅必须快速行动,还必须不断适应新的场景才能取得进展。



此外,论文还重点介绍了该框架在像俄罗斯方块这样注重反应时间的实时游戏中的表现。结果证明,在使用异步推理和学习时,模型规模越大,性能下降的速度就越慢。然而,大模型性能下降的根本原因是延迟遗憾效应尚未得到解决。

用单个神经网络最小化无动作和延迟遗憾



  • 论文地址:https://openreview.net/pdf?id=YOc5t8PHf2
  • 项目地址:https://github.com/avecplezir/realtime-agent
  • 论文标题: HANDLING DELAY IN REAL-TIME REINFORCEMENT LEARNING

第二篇论文提出了一种架构解决方案,用于在实时环境中部署神经网络时最大限度地减少无响应和延迟,因为在实时环境中,交错推理并非可行。顺序计算在深度网络中效率低下,因为深度网络中每一层的执行时间大致相同。因此,总延迟会随着网络深度的增加而成比例增加,从而导致响应缓慢。

这一局限性与早期 CPU 架构的缺陷如出一辙 —— 当指令只能串行处理时,会导致计算资源利用率低下且执行时间延长。现代 CPU 采用 pipelining 技术成功解决了这一问题,该技术允许多条指令的不同阶段并行执行。

受此启发,本文在神经网络中引入了并行计算机制:通过一次计算所有网络层,有效降低了无动作遗憾。

为了进一步减少延迟,本文引入了时序跳跃连接(temporal skip connections),使得新的观测信息可以更快地传递到更深的网络层,而无需逐层传递。

该研究的核心贡献在于:将并行计算与时序跳跃连接相结合,从而在实时系统中同时降低无动作遗憾和延迟遗憾。

下图对此进行了说明。图中纵轴表示网络层的深度,从初始观测开始,依次经过第一层、第二层的表示,最终到达动作输出;横轴表示时间。因此,每一条箭头代表一层的计算过程,所需时间为 δ 秒。

在基线方法中(左图),一个新的观测必须依次穿过全部 N 层网络,因此动作的输出需要 N × δ 秒才能获得。

通过对各层进行并行计算(中图),可以将推理吞吐量从每 Nδ 秒一次提高到每 δ 秒一次,从而减少无动作遗憾。

最终,时序跳跃连接(如右图所示)将总延迟从 Nδ 降低至 δ—— 其机制是让最新观测值仅需单次 δ 延迟即可传递至输出层。从设计理念来看,该方案通过在网络表达能力与时效信息整合需求之间进行权衡,从根本上解决了延迟问题。



此外,用过去的动作 / 状态来增强输入可以恢复马尔可夫特性,即使在存在延迟的情况下也能提高学习稳定性。正如结果所示,这既减少了延迟,也减少了与优化相关的遗憾。



两者结合使用

交错式异步推理与时序跳跃连接是彼此独立的技术,但具有互补性。时序跳跃连接可减少模型内部从观测到动作之间的延迟,而交错推理则确保即使在使用大模型时,也能持续稳定地输出动作。

两者结合使用,可以将模型规模与交互延迟解耦,从而使在实时环境中部署既具有强表达能力、又响应迅速的智能体成为可能。这对于机器人、自动驾驶、金融交易等高度依赖响应速度的关键领域具有重要意义。

通过使大模型在不牺牲表达能力的前提下实现高频率决策,这些方法为强化学习在现实世界的延迟敏感型应用中落地迈出了关键一步。

https://mila.quebec/en/article/real-time-reinforcement-learning

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
22岁女生跳河轻生,生前因未请假离校与辅导员在微信上有争执

22岁女生跳河轻生,生前因未请假离校与辅导员在微信上有争执

红星新闻
2025-11-18 16:58:27
被员工吐槽后,俞敏洪连发数条南极游视频,此前在南极旅游发全员信引争议

被员工吐槽后,俞敏洪连发数条南极游视频,此前在南极旅游发全员信引争议

红星新闻
2025-11-18 12:21:08
女神刘亦菲字迹

女神刘亦菲字迹

微微热评
2025-11-18 15:34:34
东部战区重磅发布!

东部战区重磅发布!

新京报
2025-11-18 16:23:55
九地政府主要领导调整

九地政府主要领导调整

上观新闻
2025-11-18 18:08:07
破防了!狗咬人事件追踪:李律师发近20条作品,为申某良无罪辩护

破防了!狗咬人事件追踪:李律师发近20条作品,为申某良无罪辩护

火山诗话
2025-11-17 12:50:06
长荣货轮入天津港被拒?帮美运坦克入台!损失惨重苦不堪言

长荣货轮入天津港被拒?帮美运坦克入台!损失惨重苦不堪言

云舟史策
2025-11-18 07:30:28
里子面子都丢了,森林北公布体检结果,把汪峰的体面撕个粉碎

里子面子都丢了,森林北公布体检结果,把汪峰的体面撕个粉碎

鋭娱之乐
2025-11-18 12:44:19
假存款单租奔驰,连父母都是演员!湖北小伙被骗婚案一审开庭,被女方一句话“气笑了”

假存款单租奔驰,连父母都是演员!湖北小伙被骗婚案一审开庭,被女方一句话“气笑了”

潇湘晨报
2025-11-18 12:30:17
“内部信”风波后,俞敏洪连发10条南极旅游视频,旅行社:该行程20天人均花费30万元

“内部信”风波后,俞敏洪连发10条南极旅游视频,旅行社:该行程20天人均花费30万元

极目新闻
2025-11-18 14:06:30
全运会乒乓:女团全国冠军2-3出局!王曼昱爆发连赢蒯曼、钱天一

全运会乒乓:女团全国冠军2-3出局!王曼昱爆发连赢蒯曼、钱天一

全言作品
2025-11-18 12:48:28
任泽平:未来10年的财富主线,都写在十五五规划里

任泽平:未来10年的财富主线,都写在十五五规划里

泽平宏观展望
2025-11-18 07:06:21
深挖 | 骑摩托、玩摇滚、猜拳赢了让老公跟自己姓……高市早苗,要多野有多野!

深挖 | 骑摩托、玩摇滚、猜拳赢了让老公跟自己姓……高市早苗,要多野有多野!

新民周刊
2025-11-18 13:07:03
中日关系紧张之下,大量中国游客依然选择赴日!这又是为什么呢?

中日关系紧张之下,大量中国游客依然选择赴日!这又是为什么呢?

翻开历史和现实
2025-11-18 10:14:27
为啥没人报道伊拉克?变化之大,颠覆你的三观

为啥没人报道伊拉克?变化之大,颠覆你的三观

吃瓜局
2025-11-17 15:44:49
养老金大调整!2026年1月起,养老金差别将如何体现?官方回应!

养老金大调整!2026年1月起,养老金差别将如何体现?官方回应!

李博世财经
2025-11-18 14:14:24
惹怒中国后,高市早苗又放话:要收回韩国领土,韩民称中国骂轻了

惹怒中国后,高市早苗又放话:要收回韩国领土,韩民称中国骂轻了

古事寻踪记
2025-11-18 07:18:01
多人退订日本环球影城门票,平台:有相关政策,预计退款时间为60个工作日

多人退订日本环球影城门票,平台:有相关政策,预计退款时间为60个工作日

极目新闻
2025-11-18 14:06:30
高市早苗开始认错,若中方发起反制,将对日本经济带来怎样的危机

高市早苗开始认错,若中方发起反制,将对日本经济带来怎样的危机

北向财经
2025-11-18 09:19:32
54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

小徐讲八卦
2025-11-17 07:29:28
2025-11-18 18:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11747文章数 142507关注度
往期回顾 全部

科技要闻

马斯克破防了!贝索斯62亿美金入局"实体AI"

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

头条要闻

孟加拉国前总理哈西娜被判死刑 中方回应

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

刚刚,中美机器人爆发了一场论战

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

教育
时尚
本地
数码
亲子

教育要闻

思辨性阅读与表达任务群的模型建构——语文组第四届学术节观课评课交流

从百元到大牌,《新闻女王2》的职场穿搭,每种预算都能找到参考

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

数码要闻

VAIO推出迪士尼联名F16 / F14笔记本,A面激光雕刻IP插画

亲子要闻

宝蓝和叔叔一起玩充气小汽车,还放了很多彩色小球,玩的很开心!

无障碍浏览 进入关怀版