网易首页 > 网易号 > 正文 申请入驻

强化学习的两个「大坑」,终于被两篇ICLR论文给解决了

0
分享至

机器之心报道

编辑:陈陈

实时强化学习来了!AI 再也不怕「卡顿」。

设想这样一个未来场景:多个厨师机器人正在协作制作煎蛋卷。虽然我们希望这些机器人能使用最强大可靠的智能模型,但更重要的是它们必须跟上瞬息万变的节奏 —— 食材需要在精准时机添加,煎蛋过程需要实时监控以确保受热均匀。只要机器人动作稍有延迟,蛋卷必定焦糊。它们还必须应对协作伙伴动作的不确定性,并做出即时适应性调整。



实时强化学习

然而,现有的强化学习算法多基于一种理想化的交互模式:环境与智能体轮流「暂停」以等待对方完成计算或响应。具体表现为:

环境暂停假设:当智能体进行计算决策和经验学习时,环境状态保持静止;

智能体暂停假设:当环境状态发生转移时,智能体暂停其决策过程。

这种类似「回合制游戏」的假设,严重脱离现实,难以应对持续变化、延迟敏感的真实环境。



下图突出显示了智能体在实时环境中出现的两个关键困难,而这些在标准的回合制 RL 研究中是不会遇到的。

首先,由于动作推理时间较长,智能体可能不会在环境的每一步都采取动作。这可能导致智能体采用一种新的次优性策略,称之为无动作遗憾(inaction regret)。

第二个困难是,动作是基于过去的状态计算的,因而动作会在环境中产生延迟影响。这导致另一个新的次优性来源,这在随机环境中尤为突出,称之为延迟遗憾(delay regret)。

在这样的背景下,Mila 实验室两篇 ICLR 2025 论文提出了一种全新的实时强化学习框架,旨在解决当前强化学习系统在部署过程中面临的推理延迟和动作缺失问题,使得大模型也能在高频、连续的任务中实现即时响应。

第一篇论文提出了一种最小化无动作遗憾的解决方案,第二篇提出了一种最小化延迟遗憾的解决方案。



最小化无动作:交错推理

第一篇论文基于这样一个事实:在标准的回合制强化学习交互范式中,随着模型参数数量的增加,智能体无动作的程度也会随之增加。因此,强化学习社区必须考虑一种新的部署框架,以便在现实世界中实现基础模型规模化的强化学习。为此,本文提出了一个用于异步多过程推理和学习的框架。



  • 论文地址:https://openreview.net/pdf?id=fXb9BbuyAD
  • 代码地址 https://github.com/CERC-AAI/realtime_rl
  • 论文标题: ENABLING REALTIME REINFORCEMENT LEARNING AT SCALE WITH STAGGERED ASYNCHRONOUS INFERENCE



在该框架中,允许智能体充分利用其可用算力进行异步推理与学习。具体而言,本文提出了两种交错式推理算法,其核心思想是通过自适应调整并行推理过程的时序偏移,使智能体能够以更快的固定间隔在环境中执行动作。

本文证明:只要计算资源足够,无论模型有多大、推理时间有多长,使用任意一种算法都可以做到在每一个环境步都执行动作,从而完全消除无动作遗憾。

本文在 Game Boy 和 Atari 实时模拟中测试了提出的新框架,这些模拟的帧率和交互协议与人类在主机上实际玩这些游戏时所体验到的帧率和交互协议同步。

论文重点介绍了异步推理和学习在《宝可梦:蓝》游戏中使用一个拥有 1 亿参数的模型成功捕捉宝可梦时所展现的卓越性能。需要注意的是,智能体不仅必须快速行动,还必须不断适应新的场景才能取得进展。



此外,论文还重点介绍了该框架在像俄罗斯方块这样注重反应时间的实时游戏中的表现。结果证明,在使用异步推理和学习时,模型规模越大,性能下降的速度就越慢。然而,大模型性能下降的根本原因是延迟遗憾效应尚未得到解决。

用单个神经网络最小化无动作和延迟遗憾



  • 论文地址:https://openreview.net/pdf?id=YOc5t8PHf2
  • 项目地址:https://github.com/avecplezir/realtime-agent
  • 论文标题: HANDLING DELAY IN REAL-TIME REINFORCEMENT LEARNING

第二篇论文提出了一种架构解决方案,用于在实时环境中部署神经网络时最大限度地减少无响应和延迟,因为在实时环境中,交错推理并非可行。顺序计算在深度网络中效率低下,因为深度网络中每一层的执行时间大致相同。因此,总延迟会随着网络深度的增加而成比例增加,从而导致响应缓慢。

这一局限性与早期 CPU 架构的缺陷如出一辙 —— 当指令只能串行处理时,会导致计算资源利用率低下且执行时间延长。现代 CPU 采用 pipelining 技术成功解决了这一问题,该技术允许多条指令的不同阶段并行执行。

受此启发,本文在神经网络中引入了并行计算机制:通过一次计算所有网络层,有效降低了无动作遗憾。

为了进一步减少延迟,本文引入了时序跳跃连接(temporal skip connections),使得新的观测信息可以更快地传递到更深的网络层,而无需逐层传递。

该研究的核心贡献在于:将并行计算与时序跳跃连接相结合,从而在实时系统中同时降低无动作遗憾和延迟遗憾。

下图对此进行了说明。图中纵轴表示网络层的深度,从初始观测开始,依次经过第一层、第二层的表示,最终到达动作输出;横轴表示时间。因此,每一条箭头代表一层的计算过程,所需时间为 δ 秒。

在基线方法中(左图),一个新的观测必须依次穿过全部 N 层网络,因此动作的输出需要 N × δ 秒才能获得。

通过对各层进行并行计算(中图),可以将推理吞吐量从每 Nδ 秒一次提高到每 δ 秒一次,从而减少无动作遗憾。

最终,时序跳跃连接(如右图所示)将总延迟从 Nδ 降低至 δ—— 其机制是让最新观测值仅需单次 δ 延迟即可传递至输出层。从设计理念来看,该方案通过在网络表达能力与时效信息整合需求之间进行权衡,从根本上解决了延迟问题。



此外,用过去的动作 / 状态来增强输入可以恢复马尔可夫特性,即使在存在延迟的情况下也能提高学习稳定性。正如结果所示,这既减少了延迟,也减少了与优化相关的遗憾。



两者结合使用

交错式异步推理与时序跳跃连接是彼此独立的技术,但具有互补性。时序跳跃连接可减少模型内部从观测到动作之间的延迟,而交错推理则确保即使在使用大模型时,也能持续稳定地输出动作。

两者结合使用,可以将模型规模与交互延迟解耦,从而使在实时环境中部署既具有强表达能力、又响应迅速的智能体成为可能。这对于机器人、自动驾驶、金融交易等高度依赖响应速度的关键领域具有重要意义。

通过使大模型在不牺牲表达能力的前提下实现高频率决策,这些方法为强化学习在现实世界的延迟敏感型应用中落地迈出了关键一步。

https://mila.quebec/en/article/real-time-reinforcement-learning

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山姆会员店回应选品像普通超市

山姆会员店回应选品像普通超市

界面新闻
2025-11-18 00:05:03
高市早苗开始认错,若中方发起反制,将对日本经济带来怎样的危机

高市早苗开始认错,若中方发起反制,将对日本经济带来怎样的危机

北向财经
2025-11-18 09:19:32
著名药物化学家李敏勇教授突发疾病逝世,年仅49岁

著名药物化学家李敏勇教授突发疾病逝世,年仅49岁

极目新闻
2025-11-18 09:42:29
“内部信”风波后,俞敏洪连发10条南极旅游视频,旅行社:该行程20天人均花费30万元

“内部信”风波后,俞敏洪连发10条南极旅游视频,旅行社:该行程20天人均花费30万元

极目新闻
2025-11-18 14:06:30
又轰下36+18+13!抱歉罗伯特森:你要从历史第一变历史第二了

又轰下36+18+13!抱歉罗伯特森:你要从历史第一变历史第二了

篮球大视野
2025-11-18 15:32:31
东部战区重磅发布!

东部战区重磅发布!

新京报
2025-11-18 16:23:55
合肥市委副书记、合肥理工学院党委书记路军被查

合肥市委副书记、合肥理工学院党委书记路军被查

澎湃新闻
2025-11-18 15:44:27
中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

新浪财经
2025-11-18 12:46:38
紫牛问政|智能燃气表自身耗电费用,该谁买单?南京市民起诉港华燃气案开庭

紫牛问政|智能燃气表自身耗电费用,该谁买单?南京市民起诉港华燃气案开庭

扬子晚报
2025-11-18 12:06:53
日本外务省官员离开中国外交部

日本外务省官员离开中国外交部

财联社
2025-11-18 14:34:09
假存款单租奔驰,连父母都是演员!湖北小伙被骗婚案一审开庭,被女方一句话“气笑了”

假存款单租奔驰,连父母都是演员!湖北小伙被骗婚案一审开庭,被女方一句话“气笑了”

潇湘晨报
2025-11-18 12:30:17
俄媒爆料:一“破坏小组”受乌克兰情报机构指使,曾计划暗杀绍伊古

俄媒爆料:一“破坏小组”受乌克兰情报机构指使,曾计划暗杀绍伊古

环球网资讯
2025-11-18 15:40:51
广东模特冠军诞生!你还敢嘲笑辽宁吗?

广东模特冠军诞生!你还敢嘲笑辽宁吗?

麦杰逊
2025-11-18 11:33:20
外交部回应美国驻日大使涉华言论:纯属别有用心的政治作秀

外交部回应美国驻日大使涉华言论:纯属别有用心的政治作秀

环球网资讯
2025-11-18 15:31:04
全国首家烧烤学院正式开班:首届26名学员都是烧烤店老板,半脱产两年半读大专

全国首家烧烤学院正式开班:首届26名学员都是烧烤店老板,半脱产两年半读大专

红星新闻
2025-11-18 16:58:26
台湾退役少校怒怼日本:这次千万别投降

台湾退役少校怒怼日本:这次千万别投降

扬子晚报
2025-11-18 12:25:32
俞敏洪在南极给员工写信翻车上热搜!员工:23点我还在打电话续费

俞敏洪在南极给员工写信翻车上热搜!员工:23点我还在打电话续费

柴狗夫斯基
2025-11-17 21:16:32
狗主人赵某晖照片遭曝光:家住三层小洋房,不是差钱的人没法调解

狗主人赵某晖照片遭曝光:家住三层小洋房,不是差钱的人没法调解

汉史趣闻
2025-11-17 22:02:58
惹怒中国后,高市早苗又放话:要收回韩国领土,韩民称中国骂轻了

惹怒中国后,高市早苗又放话:要收回韩国领土,韩民称中国骂轻了

古事寻踪记
2025-11-18 07:18:01
哈登28+6+5丢绝杀迎28000分里程碑 快船遭76人逆转马克西39+6

哈登28+6+5丢绝杀迎28000分里程碑 快船遭76人逆转马克西39+6

醉卧浮生
2025-11-18 10:37:32
2025-11-18 17:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11747文章数 142507关注度
往期回顾 全部

科技要闻

OPPO Reno15系列深评:实况封神+颜值暴击

头条要闻

燃气公司未告知让用户承担燃气表电池费 遭业主起诉

头条要闻

燃气公司未告知让用户承担燃气表电池费 遭业主起诉

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

旅游
本地
时尚
公开课
军事航空

旅游要闻

确山北泉古寺披金甲

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

大风降温,就穿羊羔毛!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版