网易首页 > 网易号 > 正文 申请入驻

<span class="js_title_inner">探索最先进的强化学习算法

0
分享至

Discovering state-of-the-art reinforcement learning algorithms

探索最先进的强化学习算法

https://www.nature.com/articles/s41586-025-09761-x


人类和其他动物使用强大的强化学习(RL)机制,这些机制是通过进化在许多代的试错过程中发现的。相比之下,人工智能体通常使用手工设计的学习规则进行学习。尽管数十年来人们对此抱有浓厚兴趣,但自主发现强大RL算法的目标一直难以实现¹⁻⁶。本文表明,机器有可能发现一种最先进的RL规则,其性能优于手工设计的规则。这一成果是通过对大量复杂环境中智能体群体的累积经验进行元学习而实现的。具体而言,我们的方法发现了用于更新智能体策略和预测的RL规则。在我们的大规模实验中,所发现的规则在公认的Atari基准测试上超越了所有现有规则,并且在发现过程中未曾见过的具有挑战性的基准测试上,其表现也优于多种最先进的RL算法。我们的研究结果表明,先进人工智能所需的RL算法可能很快将能够从智能体的经验中自动发现,而非依赖于手工设计。

人工智能的主要目标是设计出能够像人类一样在复杂环境中进行预测并采取行动以实现目标的智能体。许多最成功的智能体基于强化学习(RL),即智能体通过与环境交互进行学习。数十年的研究产生了日益高效的RL算法,从而在人工智能领域取得众多里程碑式成果,包括掌握围棋⁷、国际象棋⁸、《星际争霸》⁹和《我的世界》¹⁰等复杂竞技游戏、发明新的数学工具¹¹,以及控制复杂的物理系统¹²。

与人类不同——人类的学习机制是通过生物进化自然发现的——RL算法通常由人工手动设计。这一过程通常缓慢而费力,并受限于对人类知识与直觉的依赖。尽管已有若干尝试致力于自动发现学习算法¹⁻⁶,但尚无方法被证明具备足够的效率与通用性以取代手工设计的RL系统。

在本研究中,我们提出了一种自主发现RL规则的方法,该方法仅通过多代智能体与各类环境交互所积累的经验实现(图1a)。所发现的RL规则在多种具有挑战性的RL基准测试上达到了最先进性能。我们的方法相较于先前工作在两个维度上形成对比:第一,先前方法通常在狭窄的RL规则空间中进行搜索(例如超参数¹³,¹⁴或策略损失¹,⁶),而我们的方法允许智能体探索表达能力更强的潜在RL规则空间;第二,先前工作聚焦于在简单环境(例如网格世界³,¹⁵)中进行元学习,而我们的方法则在更复杂多样且规模更大的环境中进行元学习。


为选择一个通用的发现空间,我们观察到标准RL算法的核心组成部分是一条更新规则,该规则将一个或多个预测以及策略本身朝着某些目标进行更新,而这些目标是未来奖励与未来预测等量的函数。基于不同目标的RL规则示例包括时序差分学习¹⁶、Q学习¹⁷、近端策略优化(PPO)¹⁸、辅助任务¹⁹、后继特征²⁰以及分布强化学习²¹。在每种情况下,目标的选择决定了预测的本质,例如它们是否成为价值函数、模型或后继特征。

在我们的框架中,一条RL规则由一个元网络(meta-network)表示,该网络决定智能体应将其预测与策略朝向哪些目标进行更新(图1c)。这使得系统能够在没有预定义语义的情况下发现有用的预测,以及这些预测的使用方式。原则上,该系统可能重新发现以往的RL规则,但其灵活的函数形式也允许智能体发明可能专门适应特定兴趣环境的新RL规则。

在发现过程中,我们实例化一个智能体群体,其中每个智能体与其自身所处的环境实例进行交互,这些环境取自一组多样化的挑战性任务。每个智能体的参数根据当前的RL规则进行更新。随后我们采用元梯度方法¹³逐步改进该RL规则,使其能够引导产生性能更优的智能体。

我们的大规模实证结果表明,我们所发现的RL规则(我们称之为DiscoRL)在元学习所用的环境中超越了所有现有RL规则。值得注意的是,这包括Atari游戏²²——这或许是RL领域最成熟且信息量最丰富的基准测试。此外,DiscoRL在发现过程中从未接触过的其他若干挑战性基准测试(例如ProcGen²³)上也达到了最先进性能。我们还证明,随着发现过程中使用更多样化和更复杂的环境,DiscoRL的性能与通用性会进一步提升。最后,我们的分析表明,DiscoRL发现了独特的预测语义,这些语义不同于价值函数等现有RL概念。据我们所知,这是首次提供实证证据表明:在通用性与效率两方面超越手工设计的RL算法的目标终于触手可及。

发现方法

我们的发现方法涉及两种类型的优化:智能体优化(agent optimization)与元优化(meta-optimization)。智能体参数通过将其策略与预测朝向RL规则所产生的目标进行更新而得到优化;与此同时,RL规则的元参数则通过更新其目标以最大化智能体的累积奖励而得到优化。

智能体网络

大量强化学习研究关注智能体应当做出何种预测(例如价值),以及应使用何种损失函数来学习这些预测(例如时序差分(TD)学习)并改进策略(例如策略梯度)。我们并未手工设计这些要素,而是定义了一个无预定义语义的、表达能力丰富的预测空间,并通过元网络(meta-network)来表示并元学习智能体所需优化的内容。理想情况下,该设计应既能保留表达现有RL算法核心思想的能力,又能支持大量新颖算法可能性的探索。

为此,我们令由参数 θ 参数化的智能体在输出策略(π)之外,还输出两类预测:一个以观测为条件的向量预测 y(s) ∈ ℝⁿ(维度 n 任意)和一个以动作为条件的向量预测 z(s, a) ∈ ℝᵐ(维度 m 任意),其中 s 与 a 分别表示观测与动作(图1b)。这些预测的形式源于预测与控制之间的根本性区分¹⁶。例如,价值函数通常被划分为用于预测的状态价值函数 v(s) 与用于控制的动作价值函数 q(s, a);RL中的许多其他概念,如奖励与后继特征,同样具有以观测为条件的版本与以动作为条件的版本。因此,预测 (y, z) 的函数形式具有足够的通用性,能够表示(但不限于此)RL中众多既有的基本概念。

除待发现的预测外,在我们的大多数实验中,智能体还会生成具有预定义语义的预测。具体而言,智能体会输出一个动作价值函数 q(s, a) 以及一个以动作为条件的辅助策略预测 p(s, a)⁸。这一设计促使发现过程聚焦于通过 y 与 z 发掘新的概念。

元网络

现代强化学习规则中有很大一部分采用强化学习的前向视角(forward view)¹⁶。在此视角下,RL规则接收从时间步 t 到 t + n 的轨迹,并利用该信息更新智能体的预测或策略。它们通常将预测或策略朝向自举(bootstrapped)目标进行更新,即朝向未来的预测进行更新。

相应地,我们的RL规则采用一个元网络(图1c)作为函数,用以确定智能体应将其预测与策略朝向哪些目标进行更新。为在时间步 t 生成目标,元网络接收从时间步 t 到 t + n 的智能体预测与策略轨迹,以及奖励和回合终止信号作为输入。元网络使用标准的长短期记忆网络(LSTM)²⁴处理这些输入,尽管也可采用其他架构(扩展数据图3)。

元网络的输入与输出设计保留了手工设计RL规则的若干理想特性。第一,元网络能够处理任意观测以及任意规模的离散动作空间。这之所以可能,是因为元网络并不直接接收观测作为输入,而仅通过预测间接接收;此外,它通过对动作维度共享权重来处理与动作相关的输入与输出,从而能够泛化至截然不同的环境。第二,元网络对智能体网络的设计保持中立,因为它仅“看到”智能体网络的输出。只要智能体网络产生所需形式的输出(π, y, z),所发现的RL规则即可泛化至任意的智能体架构或规模。第三,元网络所定义的搜索空间包含了自举(bootstrapping)这一重要的算法思想。第四,由于元网络同时处理策略与预测,它不仅能够元学习辅助任务²⁵,还能直接利用预测来更新策略(例如,为方差缩减提供基线)。最后,输出目标在表达能力上严格强于输出标量损失函数,因为该设计将Q学习等半梯度方法也纳入了搜索空间。

在继承标准RL算法这些特性的基础上,丰富的参数化神经网络使所发现的规则能够实现潜在效率更高、上下文适应性更强的算法。

智能体优化

智能体的参数(θ)通过最小化其预测与策略同元网络所生成目标之间的距离来进行更新。智能体的损失函数可表示为:



元优化



实证结果

我们在一组复杂环境中,利用大规模智能体群体实现了所提出的发现方法。我们将所发现的RL规则命名为DiscoRL。在评估中,对于包含多个任务的基准测试,我们采用归一化得分的四分位均值(interquartile mean, IQM)来衡量综合性能,该指标已被证明具有统计可靠性²⁹。

Atari

Atari基准测试²²是强化学习历史上研究最为广泛的基准之一,包含57款Atari 2600游戏。这些游戏要求复杂的策略、规划能力以及长期信用分配,对人工智能体而言掌握它们并非易事。过去十年间,已有数百种RL算法在该基准上接受评估,其中包括MuZero⁸与Dreamer¹⁰。

为探究直接从该基准中发现的规则所能达到的性能强度,我们对一条RL规则Disco57进行了元训练,并在同一组57款游戏上对其进行评估(图2a)。在此评估中,我们采用的网络架构参数量与MuZero所用规模相当,大于发现过程中所使用的网络;因此,所发现的RL规则必须能够泛化至该设置。Disco57取得了13.86的IQM得分,在Atari基准上超越了所有现有RL规则⁸,¹⁰,¹⁴,³⁰,且相较于最先进的MuZero具有显著更高的实际运行效率(扩展数据图4)。


这一结果表明,我们的方法能够从如此具有挑战性的环境中自动发现出强大的RL规则。

泛化能力

我们进一步通过在多种保留基准测试(held-out benchmarks)上评估Disco57,来探究其泛化能力。这些基准测试包含智能体在发现过程中从未接触过的观测与动作空间、多样的环境动态、各异的奖励结构以及未曾见过的智能体网络架构。元训练的超参数仅在训练环境(即Atari)上进行调优,以防止该规则被隐式地针对保留基准测试进行优化。

在ProcGen²³基准测试上的结果(图2b及扩展数据表2)表明,尽管Disco57在发现过程中从未与ProcGen环境交互,其性能仍优于所有已发表的现有方法,包括MuZero⁸与PPO¹⁸。该基准测试包含16款程序生成的二维游戏。此外,Disco57在Crafter³¹任务上取得了具有竞争力的性能(图2d及扩展数据表5),在该任务中智能体需要学习广泛的能力以求生存。在NetHack NeurIPS 2021挑战赛³²中(超过40支队伍参赛),Disco57位列排行榜第三名(图2e及扩展数据表4)。与竞赛中提交的顶尖智能体³³不同,Disco57未使用任何领域特定知识来定义子任务或进行奖励塑形。为进行公平比较,我们使用与Disco57相同的设置训练了一个基于重要性加权演员-学习者架构(IMPALA)算法³⁴的智能体。IMPALA的性能明显更弱,这表明Disco57发现了一种比标准方法更高效的RL规则。除环境外,Disco57对多种智能体特定设置(如网络规模、回放比例及评估中的超参数)也表现出稳健性(扩展数据图1)。

复杂且多样的环境

为理解复杂多样环境对发现过程的重要性,我们进一步扩展了元学习的规模,引入了更多环境。具体而言,我们利用包含Atari、ProcGen和DMLab-30³⁵基准测试在内的103个更具多样性的环境,发现了另一条规则Disco103。该规则在Atari基准测试上表现与Disco57相当,同时在图2中所有其他已见与未见的基准测试上均提升了得分。特别是,Disco103在Crafter上达到了人类水平性能,并在Sokoban³⁶上接近MuZero的最先进性能。这些结果表明,用于发现的环境集合越复杂多样,所发现的规则就越强大且泛化能力越强,即使在发现过程中未曾见过的保留环境中亦是如此。与发现Disco57相比,发现Disco103仅需更换环境集合,无需对发现方法本身进行任何改动。这表明发现过程本身具有稳健性、可扩展性与通用性。

为进一歩验证使用复杂环境的重要性,我们在57个网格世界任务上运行了我们的发现过程,这些任务是对先前工作³的扩展,并采用与Disco57相同的元学习设置。新发现的规则在Atari基准测试上表现显著更差(图3c)。这验证了我们关于直接从复杂且具挑战性的环境中进行元学习重要性的假设。尽管使用此类环境至关重要,但无需精心筛选“正确”的环境集合;我们仅使用了文献中流行的基准测试。


效率与可扩展性

为深入理解我们方法的可扩展性与效率,我们在发现过程中不同阶段评估了多个Disco57版本(图3a)。最佳规则在每款Atari游戏约6亿步交互内即被发现,总计仅需在57款Atari游戏上进行3次实验。这或许比手工发现RL规则更为高效,后者通常需要执行更多实验,外加研究人员投入的时间成本。

此外,随着用于发现的Atari游戏数量增加,DiscoRL在未见的ProcGen基准测试上的表现也持续提升(图3b),表明所发现的RL规则能够随用于发现的环境数量与多样性良好扩展。换言之,所发现规则的性能是数据(即环境)与计算资源的函数。

发现新预测的作用

为研究所发现预测语义(图1b中的y, z)的影响,我们通过改变智能体的输出类型(包含或不包含某些类型的预测)来比较不同规则。图3c的结果表明,价值函数的使用显著改善了发现过程,这凸显了这一RL基础概念的重要性。然而,图3c的结果同时也表明,发现超越预定义预测的新预测语义(y与z)同样至关重要。总体而言,相较于先前工作¹⁻⁶,扩大发现范围是取得成功的关键。在下一节中,我们将提供进一步分析以揭示所发现的语义本质。

分析

定性分析我们以Disco57为案例研究了所发现规则的特性(图4)。从定性角度看,所发现的预测会在显著事件(如获得奖励或策略熵变化)发生前产生明显峰值(图4a)。我们还通过测量观测各部分对应的梯度范数,探究了哪些观测特征会引发元学习预测的强烈响应。图4b的结果表明,元学习预测倾向于关注未来可能相关的物体,这与策略和价值函数的关注点存在差异。这些结果表明,DiscoRL已学会在适度时间范围内识别并预测显著事件,从而对策略和价值函数等现有概念形成有效补充。


信息分析为验证定性发现,我们进一步研究了预测中包含的信息内容。首先,我们从DiscoRL智能体在10款Atari游戏中的数据中提取样本,训练神经网络分别从所发现的预测、策略或价值函数中预测关键量。图4c的结果显示,相较于策略和价值函数,所发现的预测包含更多关于未来大额奖励和策略熵的信息。这表明所发现的预测可能捕获了策略与价值函数未能有效表征的独特任务相关信息。

自举机制的涌现


先前工作

人工智能体中的元学习(meta-learning)或“学会学习”(learning to learn)思想可追溯至20世纪80年代³⁷,当时已有利用梯度反向传播训练元学习系统的提议³⁸。利用较慢的元学习过程对快速学习或适应过程进行元优化这一核心思想³⁹,⁴⁰已在多种应用场景中得到广泛研究,包括迁移学习⁴¹、持续学习⁴²、多任务学习⁴³、超参数优化⁴⁴以及自动化机器学习⁴⁵。

早期将元学习应用于强化学习智能体的尝试主要集中于元学习信息搜寻行为⁴⁶。后续许多工作聚焦于对现有RL算法的少量超参数进行元学习¹³,¹⁴。此类方法虽取得了一定成果,但无法显著突破底层手工设计算法的框架。另一研究方向试图摒弃归纳偏置,通过元学习完全黑盒的算法实现,例如以循环神经网络⁴⁷或突触学习规则⁴⁸的形式。尽管在概念上颇具吸引力,但这些方法容易对元训练中见过的任务产生过拟合⁴⁹。

利用更广泛类别预测来表示知识的思想最早在时序差分网络(temporal-difference networks)⁵⁰中被提出,但未结合任何元学习机制。类似思想亦被用于元学习辅助任务²⁵。我们的工作将这一思想拓展至有效发现智能体所优化的完整损失函数,覆盖了范围远为广阔的潜在RL规则。此外,与先前工作不同,所发现的知识能够泛化至未见过的环境。

近期,学界对发现通用RL规则的兴趣日益增长¹,³⁻⁶,¹⁵。然而,大多数研究受限于小型智能体与简单任务,或发现范围仅限于部分RL规则。因此,其规则未能在具有挑战性的基准测试上与最先进规则进行充分比较。相比之下,我们在更大的规则空间中进行搜索(包括全新的预测形式),并将发现过程扩展至大量复杂环境。结果表明,发现一种在挑战性基准测试上超越多种最先进规则的通用RL规则是可行的。

结论

使机器能够自主发现学习算法,是人工智能领域最具前景的方向之一,因其具备开放式自我改进的潜力。本工作朝着机器设计的RL算法迈出了重要一步——此类算法不仅能在复杂环境中与顶尖手工设计算法竞争,甚至在某些情况下实现超越。我们还证明,随着所接触环境的多样性增加,所发现的规则将变得更强大且更具泛化能力。这表明,未来先进人工智能所需的RL算法设计,或将由能够随数据与算力有效扩展的机器来主导。

原文链接:https://www.nature.com/articles/s41586-025-09761-x

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一颗螺丝钉都不留给巴拿马,港澳办警告是给其最后的改错机会

一颗螺丝钉都不留给巴拿马,港澳办警告是给其最后的改错机会

聚焦真实瞬间
2026-02-05 00:06:05
金银惊魂72小时!给我们投资者哪些启发?

金银惊魂72小时!给我们投资者哪些启发?

雪球
2026-02-03 21:32:28
普京真急了,派两员大将访华不放心,突然会晤中方,有大事发生?

普京真急了,派两员大将访华不放心,突然会晤中方,有大事发生?

东极妙严
2026-02-04 20:31:25
恋情实锤?金刻羽曾给前美国财政部长发邮件:你给了我任何女性都需要的安全感与保障

恋情实锤?金刻羽曾给前美国财政部长发邮件:你给了我任何女性都需要的安全感与保障

小萝卜丝
2026-02-03 12:00:15
哈登换队并非习惯性叛逃!他追逐的不是总冠军 而是一份续约合同

哈登换队并非习惯性叛逃!他追逐的不是总冠军 而是一份续约合同

罗说NBA
2026-02-04 19:57:37
爱泼斯坦“自缢”后照片首度公开:脖子有血色勒痕,喉部甲状软骨断裂

爱泼斯坦“自缢”后照片首度公开:脖子有血色勒痕,喉部甲状软骨断裂

红星新闻
2026-02-04 13:50:19
Shams:独行侠将浓眉等4人交易至奇才,换来4名球员+5个选秀权

Shams:独行侠将浓眉等4人交易至奇才,换来4名球员+5个选秀权

懂球帝
2026-02-05 05:24:03
今夜!暴跌了...

今夜!暴跌了...

中国基金报
2026-02-05 00:13:43
江西一地女干部晋升公示年龄变小4岁,当地通报

江西一地女干部晋升公示年龄变小4岁,当地通报

界面新闻
2026-02-04 22:31:21
许家印上诉申请被驳回,香港高院下达最后通牒:支付120万港元诉讼费!许家印一方辩解:其被内地有关部门拘留,仅能作出一般性指示

许家印上诉申请被驳回,香港高院下达最后通牒:支付120万港元诉讼费!许家印一方辩解:其被内地有关部门拘留,仅能作出一般性指示

每日经济新闻
2026-02-04 12:30:07
别再迷信金条保值了!北京阿姨卖光13年存货,一句话点醒无数人

别再迷信金条保值了!北京阿姨卖光13年存货,一句话点醒无数人

复转这些年
2026-02-04 23:36:41
特朗普气炸!亲手提名的美联储主席,先把黄金砸崩数百美元

特朗普气炸!亲手提名的美联储主席,先把黄金砸崩数百美元

流苏晚晴
2026-02-04 20:12:30
荣耀否认抄袭iPhone,客服:独立设计

荣耀否认抄袭iPhone,客服:独立设计

观察者网
2026-02-04 15:58:45
瓜达尔港发生恐袭惨案,中国必须强力打击

瓜达尔港发生恐袭惨案,中国必须强力打击

凤眼论
2026-02-03 22:35:39
工信部发布新能源汽车强制性国标:将动力电池安全要求提升至“不起火、不爆炸”

工信部发布新能源汽车强制性国标:将动力电池安全要求提升至“不起火、不爆炸”

封面新闻
2026-02-04 17:24:12
爱泼斯坦死前48小时,签信托文件豪掷遗产,最后一通电话打给女友

爱泼斯坦死前48小时,签信托文件豪掷遗产,最后一通电话打给女友

红星新闻
2026-02-04 16:21:41
立陶宛活成了笑话!6国排队访华,立陶宛疯狂求和,惨遭无视

立陶宛活成了笑话!6国排队访华,立陶宛疯狂求和,惨遭无视

东极妙严
2026-02-04 16:42:52
今年29省区市将全面开展二轮土地延包试点

今年29省区市将全面开展二轮土地延包试点

极目新闻
2026-02-04 12:05:59
爱泼斯坦案档案公布,回看30年8.2万中国儿童被美收养,细思极恐

爱泼斯坦案档案公布,回看30年8.2万中国儿童被美收养,细思极恐

今朝牛马
2026-02-04 17:34:09
乒乓球亚洲杯:向鹏开门黑!首局1-6落后逆转失败,4-11失利!

乒乓球亚洲杯:向鹏开门黑!首局1-6落后逆转失败,4-11失利!

刘姚尧的文字城堡
2026-02-04 13:27:39
2026-02-05 06:15:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1199文章数 18关注度
往期回顾 全部

科技要闻

太烦人遭投诉!元宝红包链接被微信屏蔽

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

头条要闻

女子痛斥爱泼斯坦:我一次又一次被强奸 他禽兽不如

体育要闻

哈登回应交易:不想让自己拖累快船的未来

娱乐要闻

春晚主持人阵容曝光,5位都是老面孔

财经要闻

白银,突然暴涨

汽车要闻

综合续航1730km 5座中级电混SUV吉利银河M7官图发布

态度原创

艺术
亲子
游戏
家居
本地

艺术要闻

快过年了,送大家49张图片!谁看谁幸福!

亲子要闻

麻腮风疫苗到底要不要给孩子打?听听儿科医生怎么说

游戏动力×ATK 联动福利红包封面随机掉落!

家居要闻

灰白意境 光影奏鸣曲

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

无障碍浏览 进入关怀版