强化学习的两个「大坑」，终于被两篇ICLR论文给解决了|算法|动作|智能体|大模型|神经网络

强化学习的两个「大坑」，终于被两篇ICLR论文给解决了

2025-07-17 18:17:19　来源: 机器之心Pro

河北举报

分享至

机器之心报道

编辑：陈陈

实时强化学习来了！AI 再也不怕「卡顿」。

设想这样一个未来场景：多个厨师机器人正在协作制作煎蛋卷。虽然我们希望这些机器人能使用最强大可靠的智能模型，但更重要的是它们必须跟上瞬息万变的节奏 —— 食材需要在精准时机添加，煎蛋过程需要实时监控以确保受热均匀。只要机器人动作稍有延迟，蛋卷必定焦糊。它们还必须应对协作伙伴动作的不确定性，并做出即时适应性调整。

实时强化学习

然而，现有的强化学习算法多基于一种理想化的交互模式：环境与智能体轮流「暂停」以等待对方完成计算或响应。具体表现为：

环境暂停假设：当智能体进行计算决策和经验学习时，环境状态保持静止；

智能体暂停假设：当环境状态发生转移时，智能体暂停其决策过程。

这种类似「回合制游戏」的假设，严重脱离现实，难以应对持续变化、延迟敏感的真实环境。

下图突出显示了智能体在实时环境中出现的两个关键困难，而这些在标准的回合制 RL 研究中是不会遇到的。

首先，由于动作推理时间较长，智能体可能不会在环境的每一步都采取动作。这可能导致智能体采用一种新的次优性策略，称之为无动作遗憾（inaction regret）。

第二个困难是，动作是基于过去的状态计算的，因而动作会在环境中产生延迟影响。这导致另一个新的次优性来源，这在随机环境中尤为突出，称之为延迟遗憾（delay regret）。

在这样的背景下，Mila 实验室两篇 ICLR 2025 论文提出了一种全新的实时强化学习框架，旨在解决当前强化学习系统在部署过程中面临的推理延迟和动作缺失问题，使得大模型也能在高频、连续的任务中实现即时响应。

第一篇论文提出了一种最小化无动作遗憾的解决方案，第二篇提出了一种最小化延迟遗憾的解决方案。

最小化无动作：交错推理

第一篇论文基于这样一个事实：在标准的回合制强化学习交互范式中，随着模型参数数量的增加，智能体无动作的程度也会随之增加。因此，强化学习社区必须考虑一种新的部署框架，以便在现实世界中实现基础模型规模化的强化学习。为此，本文提出了一个用于异步多过程推理和学习的框架。

论文地址：https://openreview.net/pdf?id=fXb9BbuyAD
代码地址 https://github.com/CERC-AAI/realtime_rl
论文标题： ENABLING REALTIME REINFORCEMENT LEARNING AT SCALE WITH STAGGERED ASYNCHRONOUS INFERENCE

在该框架中，允许智能体充分利用其可用算力进行异步推理与学习。具体而言，本文提出了两种交错式推理算法，其核心思想是通过自适应调整并行推理过程的时序偏移，使智能体能够以更快的固定间隔在环境中执行动作。

本文证明：只要计算资源足够，无论模型有多大、推理时间有多长，使用任意一种算法都可以做到在每一个环境步都执行动作，从而完全消除无动作遗憾。

本文在 Game Boy 和 Atari 实时模拟中测试了提出的新框架，这些模拟的帧率和交互协议与人类在主机上实际玩这些游戏时所体验到的帧率和交互协议同步。

论文重点介绍了异步推理和学习在《宝可梦：蓝》游戏中使用一个拥有 1 亿参数的模型成功捕捉宝可梦时所展现的卓越性能。需要注意的是，智能体不仅必须快速行动，还必须不断适应新的场景才能取得进展。

此外，论文还重点介绍了该框架在像俄罗斯方块这样注重反应时间的实时游戏中的表现。结果证明，在使用异步推理和学习时，模型规模越大，性能下降的速度就越慢。然而，大模型性能下降的根本原因是延迟遗憾效应尚未得到解决。

用单个神经网络最小化无动作和延迟遗憾

论文地址：https://openreview.net/pdf?id=YOc5t8PHf2
项目地址：https://github.com/avecplezir/realtime-agent
论文标题： HANDLING DELAY IN REAL-TIME REINFORCEMENT LEARNING

第二篇论文提出了一种架构解决方案，用于在实时环境中部署神经网络时最大限度地减少无响应和延迟，因为在实时环境中，交错推理并非可行。顺序计算在深度网络中效率低下，因为深度网络中每一层的执行时间大致相同。因此，总延迟会随着网络深度的增加而成比例增加，从而导致响应缓慢。

这一局限性与早期 CPU 架构的缺陷如出一辙 —— 当指令只能串行处理时，会导致计算资源利用率低下且执行时间延长。现代 CPU 采用 pipelining 技术成功解决了这一问题，该技术允许多条指令的不同阶段并行执行。

受此启发，本文在神经网络中引入了并行计算机制：通过一次计算所有网络层，有效降低了无动作遗憾。

为了进一步减少延迟，本文引入了时序跳跃连接（temporal skip connections），使得新的观测信息可以更快地传递到更深的网络层，而无需逐层传递。

该研究的核心贡献在于：将并行计算与时序跳跃连接相结合，从而在实时系统中同时降低无动作遗憾和延迟遗憾。

下图对此进行了说明。图中纵轴表示网络层的深度，从初始观测开始，依次经过第一层、第二层的表示，最终到达动作输出；横轴表示时间。因此，每一条箭头代表一层的计算过程，所需时间为 δ 秒。

在基线方法中（左图），一个新的观测必须依次穿过全部 N 层网络，因此动作的输出需要 N × δ 秒才能获得。

通过对各层进行并行计算（中图），可以将推理吞吐量从每 Nδ 秒一次提高到每 δ 秒一次，从而减少无动作遗憾。

最终，时序跳跃连接（如右图所示）将总延迟从 Nδ 降低至 δ—— 其机制是让最新观测值仅需单次 δ 延迟即可传递至输出层。从设计理念来看，该方案通过在网络表达能力与时效信息整合需求之间进行权衡，从根本上解决了延迟问题。

此外，用过去的动作 / 状态来增强输入可以恢复马尔可夫特性，即使在存在延迟的情况下也能提高学习稳定性。正如结果所示，这既减少了延迟，也减少了与优化相关的遗憾。

两者结合使用

交错式异步推理与时序跳跃连接是彼此独立的技术，但具有互补性。时序跳跃连接可减少模型内部从观测到动作之间的延迟，而交错推理则确保即使在使用大模型时，也能持续稳定地输出动作。

两者结合使用，可以将模型规模与交互延迟解耦，从而使在实时环境中部署既具有强表达能力、又响应迅速的智能体成为可能。这对于机器人、自动驾驶、金融交易等高度依赖响应速度的关键领域具有重要意义。

通过使大模型在不牺牲表达能力的前提下实现高频率决策，这些方法为强化学习在现实世界的延迟敏感型应用中落地迈出了关键一步。

https://mila.quebec/en/article/real-time-reinforcement-learning

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.