网易首页 > 网易号 > 正文 申请入驻

强化学习的两个「大坑」,终于被两篇ICLR论文给解决了

0
分享至

机器之心报道

编辑:陈陈

实时强化学习来了!AI 再也不怕「卡顿」。

设想这样一个未来场景:多个厨师机器人正在协作制作煎蛋卷。虽然我们希望这些机器人能使用最强大可靠的智能模型,但更重要的是它们必须跟上瞬息万变的节奏 —— 食材需要在精准时机添加,煎蛋过程需要实时监控以确保受热均匀。只要机器人动作稍有延迟,蛋卷必定焦糊。它们还必须应对协作伙伴动作的不确定性,并做出即时适应性调整。



实时强化学习

然而,现有的强化学习算法多基于一种理想化的交互模式:环境与智能体轮流「暂停」以等待对方完成计算或响应。具体表现为:

环境暂停假设:当智能体进行计算决策和经验学习时,环境状态保持静止;

智能体暂停假设:当环境状态发生转移时,智能体暂停其决策过程。

这种类似「回合制游戏」的假设,严重脱离现实,难以应对持续变化、延迟敏感的真实环境。



下图突出显示了智能体在实时环境中出现的两个关键困难,而这些在标准的回合制 RL 研究中是不会遇到的。

首先,由于动作推理时间较长,智能体可能不会在环境的每一步都采取动作。这可能导致智能体采用一种新的次优性策略,称之为无动作遗憾(inaction regret)。

第二个困难是,动作是基于过去的状态计算的,因而动作会在环境中产生延迟影响。这导致另一个新的次优性来源,这在随机环境中尤为突出,称之为延迟遗憾(delay regret)。

在这样的背景下,Mila 实验室两篇 ICLR 2025 论文提出了一种全新的实时强化学习框架,旨在解决当前强化学习系统在部署过程中面临的推理延迟和动作缺失问题,使得大模型也能在高频、连续的任务中实现即时响应。

第一篇论文提出了一种最小化无动作遗憾的解决方案,第二篇提出了一种最小化延迟遗憾的解决方案。



最小化无动作:交错推理

第一篇论文基于这样一个事实:在标准的回合制强化学习交互范式中,随着模型参数数量的增加,智能体无动作的程度也会随之增加。因此,强化学习社区必须考虑一种新的部署框架,以便在现实世界中实现基础模型规模化的强化学习。为此,本文提出了一个用于异步多过程推理和学习的框架。



  • 论文地址:https://openreview.net/pdf?id=fXb9BbuyAD
  • 代码地址 https://github.com/CERC-AAI/realtime_rl
  • 论文标题: ENABLING REALTIME REINFORCEMENT LEARNING AT SCALE WITH STAGGERED ASYNCHRONOUS INFERENCE



在该框架中,允许智能体充分利用其可用算力进行异步推理与学习。具体而言,本文提出了两种交错式推理算法,其核心思想是通过自适应调整并行推理过程的时序偏移,使智能体能够以更快的固定间隔在环境中执行动作。

本文证明:只要计算资源足够,无论模型有多大、推理时间有多长,使用任意一种算法都可以做到在每一个环境步都执行动作,从而完全消除无动作遗憾。

本文在 Game Boy 和 Atari 实时模拟中测试了提出的新框架,这些模拟的帧率和交互协议与人类在主机上实际玩这些游戏时所体验到的帧率和交互协议同步。

论文重点介绍了异步推理和学习在《宝可梦:蓝》游戏中使用一个拥有 1 亿参数的模型成功捕捉宝可梦时所展现的卓越性能。需要注意的是,智能体不仅必须快速行动,还必须不断适应新的场景才能取得进展。



此外,论文还重点介绍了该框架在像俄罗斯方块这样注重反应时间的实时游戏中的表现。结果证明,在使用异步推理和学习时,模型规模越大,性能下降的速度就越慢。然而,大模型性能下降的根本原因是延迟遗憾效应尚未得到解决。

用单个神经网络最小化无动作和延迟遗憾



  • 论文地址:https://openreview.net/pdf?id=YOc5t8PHf2
  • 项目地址:https://github.com/avecplezir/realtime-agent
  • 论文标题: HANDLING DELAY IN REAL-TIME REINFORCEMENT LEARNING

第二篇论文提出了一种架构解决方案,用于在实时环境中部署神经网络时最大限度地减少无响应和延迟,因为在实时环境中,交错推理并非可行。顺序计算在深度网络中效率低下,因为深度网络中每一层的执行时间大致相同。因此,总延迟会随着网络深度的增加而成比例增加,从而导致响应缓慢。

这一局限性与早期 CPU 架构的缺陷如出一辙 —— 当指令只能串行处理时,会导致计算资源利用率低下且执行时间延长。现代 CPU 采用 pipelining 技术成功解决了这一问题,该技术允许多条指令的不同阶段并行执行。

受此启发,本文在神经网络中引入了并行计算机制:通过一次计算所有网络层,有效降低了无动作遗憾。

为了进一步减少延迟,本文引入了时序跳跃连接(temporal skip connections),使得新的观测信息可以更快地传递到更深的网络层,而无需逐层传递。

该研究的核心贡献在于:将并行计算与时序跳跃连接相结合,从而在实时系统中同时降低无动作遗憾和延迟遗憾。

下图对此进行了说明。图中纵轴表示网络层的深度,从初始观测开始,依次经过第一层、第二层的表示,最终到达动作输出;横轴表示时间。因此,每一条箭头代表一层的计算过程,所需时间为 δ 秒。

在基线方法中(左图),一个新的观测必须依次穿过全部 N 层网络,因此动作的输出需要 N × δ 秒才能获得。

通过对各层进行并行计算(中图),可以将推理吞吐量从每 Nδ 秒一次提高到每 δ 秒一次,从而减少无动作遗憾。

最终,时序跳跃连接(如右图所示)将总延迟从 Nδ 降低至 δ—— 其机制是让最新观测值仅需单次 δ 延迟即可传递至输出层。从设计理念来看,该方案通过在网络表达能力与时效信息整合需求之间进行权衡,从根本上解决了延迟问题。



此外,用过去的动作 / 状态来增强输入可以恢复马尔可夫特性,即使在存在延迟的情况下也能提高学习稳定性。正如结果所示,这既减少了延迟,也减少了与优化相关的遗憾。



两者结合使用

交错式异步推理与时序跳跃连接是彼此独立的技术,但具有互补性。时序跳跃连接可减少模型内部从观测到动作之间的延迟,而交错推理则确保即使在使用大模型时,也能持续稳定地输出动作。

两者结合使用,可以将模型规模与交互延迟解耦,从而使在实时环境中部署既具有强表达能力、又响应迅速的智能体成为可能。这对于机器人、自动驾驶、金融交易等高度依赖响应速度的关键领域具有重要意义。

通过使大模型在不牺牲表达能力的前提下实现高频率决策,这些方法为强化学习在现实世界的延迟敏感型应用中落地迈出了关键一步。

https://mila.quebec/en/article/real-time-reinforcement-learning

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“全网最听劝妈妈”30天涨粉超62万,1分钟视频报价3万

“全网最听劝妈妈”30天涨粉超62万,1分钟视频报价3万

大象新闻
2026-01-17 13:09:19
张家港一股民5.8元抄底*ST岩石,躺平2个月如今只剩下2.61元

张家港一股民5.8元抄底*ST岩石,躺平2个月如今只剩下2.61元

财经智多星
2026-01-16 17:55:53
杜兰特39分7助攻火箭险胜森林狼,申京25分14板兰德尔39分

杜兰特39分7助攻火箭险胜森林狼,申京25分14板兰德尔39分

湖人崛起
2026-01-17 13:26:39
疑局长和女下属存“不正当关系”,跟踪偷拍以检举,科长等三人涉侵犯个人信息罪被逮捕起诉

疑局长和女下属存“不正当关系”,跟踪偷拍以检举,科长等三人涉侵犯个人信息罪被逮捕起诉

红星新闻
2026-01-17 14:42:10
他们的救命药,退出了中国市场

他们的救命药,退出了中国市场

经济观察报
2026-01-15 11:36:29
40岁董方卓:我没踢出来?中国还有谁?全亚洲有几个去曼联的?

40岁董方卓:我没踢出来?中国还有谁?全亚洲有几个去曼联的?

念洲
2026-01-17 10:19:31
英媒披露“谁让特朗普垂涎格陵兰岛”

英媒披露“谁让特朗普垂涎格陵兰岛”

新华社
2026-01-17 10:40:06
重磅!中央明确养老金改革方向,2026年起公平养老迈出关键一步

重磅!中央明确养老金改革方向,2026年起公平养老迈出关键一步

来科点谱
2026-01-17 08:52:21
价格雪崩!近300元跌至35元,曾经的网红“卖不动了”

价格雪崩!近300元跌至35元,曾经的网红“卖不动了”

深圳晚报
2026-01-16 23:18:24
聂卫平家中装修曝光,住复式楼碗碟价格不菲,酒水看出其商业版图

聂卫平家中装修曝光,住复式楼碗碟价格不菲,酒水看出其商业版图

古希腊掌管松饼的神
2026-01-17 12:31:27
威少时隔7年26+6+6三分!国王灭奇才首次4连胜 小萨时隔27场复出

威少时隔7年26+6+6三分!国王灭奇才首次4连胜 小萨时隔27场复出

醉卧浮生
2026-01-17 13:34:50
独家对话贾国龙:我们不想被冤死

独家对话贾国龙:我们不想被冤死

中国新闻周刊
2026-01-16 19:33:24
足球女网红街头现组奶奶战队,挑战不可能的足球

足球女网红街头现组奶奶战队,挑战不可能的足球

极果酷玩
2026-01-16 18:34:59
太丢人了!王中磊上海的艾灸馆开业,无明星无红毯,夫妻二人剪彩

太丢人了!王中磊上海的艾灸馆开业,无明星无红毯,夫妻二人剪彩

小娱乐悠悠
2026-01-16 09:20:08
山西一洗护店充值活动捆绑“嫣然天使儿童医院”,充500元就给医院捐25元,院方称未与任何商家合作,律师:此举涉嫌违法

山西一洗护店充值活动捆绑“嫣然天使儿童医院”,充500元就给医院捐25元,院方称未与任何商家合作,律师:此举涉嫌违法

极目新闻
2026-01-17 16:25:26
追觅科技CEO俞浩发声:怼人的员工早就提出离职,我有肚量,不会在意

追觅科技CEO俞浩发声:怼人的员工早就提出离职,我有肚量,不会在意

红星新闻
2026-01-17 14:02:10
郁亮一辞职,万科突然就有钱了

郁亮一辞职,万科突然就有钱了

李丹Fintalk
2026-01-17 14:57:41
比日本还硬核?全球第四人口大国,现役48万大军开始悄然发力

比日本还硬核?全球第四人口大国,现役48万大军开始悄然发力

Hi科普啦
2026-01-16 15:08:45
车臣领导人卡德罗夫之子遭遇车祸,伤势严重,已送往莫斯科治疗

车臣领导人卡德罗夫之子遭遇车祸,伤势严重,已送往莫斯科治疗

山河路口
2026-01-17 11:13:03
江苏省常州市政协党组副书记、副主席张春福接受审查调查

江苏省常州市政协党组副书记、副主席张春福接受审查调查

界面新闻
2026-01-17 11:03:46
2026-01-17 18:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12134文章数 142544关注度
往期回顾 全部

科技要闻

8亿周活扛不住烧钱 ChatGPT终向广告"低头"

头条要闻

媒体:加拿大总理访华时称"世界变了" 这番话耐人寻味

头条要闻

媒体:加拿大总理访华时称"世界变了" 这番话耐人寻味

体育要闻

三巨头走了俩,联盟笑柄却起飞了

娱乐要闻

徐家还是爱孩子的,在马筱梅生产前选择和解

财经要闻

保不准,人民币会闪击6.8!

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

教育
时尚
本地
数码
游戏

教育要闻

五年级求面积,缺少条件? - 副本

岁月不败美人,50岁她们比20岁更好看

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

数码要闻

英特尔酷睿Ultra 9 290HX Plus笔记本处理器PassMark跑分曝光

《真三起源》发售一周年!是否可称为系列最佳?

无障碍浏览 进入关怀版