如何为强化学习设计“元学习”算法？|高维|新算法|正则化|神经网络

分享至

How Should We Meta-Learn Reinforcement Learning Algorithms?

如何为强化学习设计“元学习”算法？

https://arxiv.org/pdf/2507.17668

摘要
从数据中元学习算法，而非依赖人工设计，正作为一种提升机器学习系统性能的范式而日益流行。元学习在强化学习（RL）领域尤其具有前景，因为当前的强化学习算法常常是从监督学习或无监督学习中借鉴而来，尽管它们在强化学习中并非最优。然而，迄今为止，不同元学习算法之间（例如使用进化方法优化黑箱函数，或使用大语言模型提出代码）仍严重缺乏比较。本文对应用于不同强化学习流程部分的多种元学习算法进行了实证比较。除了元训练和元测试性能外，我们还考察了每种元学习算法的可解释性、样本成本和训练时间等因素。基于这些发现，我们提出了若干指导原则，用于元学习新的强化学习算法，以帮助确保未来所学习的算法尽可能高效。

1 引言
机器学习算法的改进通常依赖于人工设计，这一过程繁琐，受限于人类直觉，并且极少产生突破性成果。另一种新兴范式则是从数据中元学习学习算法。在此设定下，算法通过计算被发现，仅需在元学习过程设计中进行有限的人工干预。这种方法在强化学习（Sutton & Barto, 2020，RL）中尤其具有潜力，因为强化学习容易出现不稳定性（Van Hasselt 等，2018；Achiam 等，2019；Tang & Berseth，2024），且经常借用监督学习和无监督学习中的算法，这些算法需要针对强化学习进行调整（例如，Parisotto 等，2020；Obando Ceron 等，2023；Ellis 等，2024）。

存在多种元学习算法，例如使用进化方法优化神经网络以构建黑箱算法、提示语言模型以代码形式提出算法，或从预训练黑箱算法蒸馏出符号函数。然而，尽管许多论文会将自己元学习得到的算法与手工设计的基线算法进行比较，却鲜有对算法学习方法本身进行直接比较的研究。因此，不同元学习算法各自的优缺点尚不明确，也难以判断它们最适合哪些应用场景。

本文旨在通过实证分析不同元学习算法来弥补这一不足。我们考察了若干元学习算法——即替代强化学习训练中某些组件的学习型算法——并为每种算法寻找最佳的元学习方法——即训练这些学习型算法的方式。这一区别如图1所示，该图改编自Goldie等（2024）。我们选择的元学习算法具有不同特性，例如使用递归结构或具有大量输入，以覆盖一系列可能的算法特征。这些算法包括学习型优化器和学习型漂移函数（Kuba等，2024）。

我们的分析聚焦于不同元学习算法之间的权衡。主要地，我们考察每种方法的性能，既包括其在元训练领域内的表现，也包括其向新环境的泛化能力。在强化学习中，这一点尤为重要，因为算法通常表现出有限的迁移能力（例如，Jackson 等，2023）。此外，由于元学习实验成本高昂，可能需要数千个TPU月的计算资源（Metz 等，2022b），并且强化学习需要环境模拟，而监督学习和无监督学习则不需要，因此我们还考虑了训练所需的时间和计算成本。最后，我们讨论了所学算法的可解释性，这对于分析算法行为及其对应的安全性影响具有重要意义。

在我们的实验结果中，我们发现：只要存在一个良好的算法作为元训练的启动基础，语言模型就能以样本高效的方式找到有效的强化学习算法；将所学算法蒸馏到其他网络中有时可以在不增加样本量的情况下提升性能；而符号化表示在递归算法或具有大量输入的算法上难以良好扩展。基于这些发现，我们提出了若干关于如何更好地元学习新强化学习算法的建议，例如建议许多系统可以受益于在循环中使用大语言模型（LLMs），或建议通常值得尝试将黑箱算法蒸馏到另一个网络中，以获得潜在的低成本性能提升。我们希望这些指导原则能够帮助降低元强化学习研究的成本，同时确保元学习得到的算法尽可能强大。

2 相关工作

2.1 学习型算法元学习算法

的实践在强化学习（Beck 等，2024）和整个机器学习领域正日益流行。在监督学习和无监督学习中，已有许多学习型优化算法（例如，Andrychowicz 等，2016；Metz 等，2019b；2020；Almeida 等，2021）。与这些提出新元学习算法的工作不同，我们关注的是元学习算法如何影响强化学习中的多个因素，如泛化能力。这一点尤其重要，因为强化学习本身具有不稳定性（Van Hasselt 等，2018；Igl 等，2021a），且环境间的迁移能力至关重要（Finn 等，2017；Duan 等，2016；Jia 等，2022）。

不同于用神经网络表示的黑箱算法的元学习，一些方法致力于发现以可解释数学函数定义的符号化算法。符号化算法天然适合基于大语言模型（LLM）的流程，因为它们易于用代码表示。符号程序可通过符号进化发现（例如 Lion（Chen 等，2023）），或通过提示大语言模型在元训练过程中改进算法（例如（Lehman 等，2022；Lu 等，2024；Romera-Paredes 等，2024））。在本文部分工作中，我们探索了 Chen 等（2023）所建议的情形——即何时符号化算法优于黑箱算法。

在强化学习中，开创性的元学习算法是“学习策略梯度”（Oh 等，2020，LPG），它替代了演员-评论家更新，尽管目前已有许多学习型强化学习算法（例如（Kirsch 等，2020；Jackson 等，2023；Kirsch & Schmidhuber，2022；Lan 等，2024））。除 LPG 外，我们还聚焦于“学习策略优化”（Lu 等，2022，LPO），它是近端策略优化（Schulman 等，2017，PPO）的学习型替代方案；以及“面向可塑性、探索与非平稳性的优化”（Goldie 等，2024，OPEN），这是一种利用特征工程进行元学习的学习型优化器。与这些提出新强化学习元学习算法的论文不同，我们旨在理解元学习算法本身如何影响性能。

元训练后的泛化能力对于学习型算法在新场景中的应用至关重要。Jackson 等（2023）探索了基于无监督环境设计（Dennis 等，2021；Parker-Holder 等，2022）的课程学习用于元训练，以提升 LPG 的泛化能力。在本工作中，我们研究不同元学习算法如何影响泛化能力。作为元训练过程的一个独立组成部分，我们的研究与 Jackson 等（2023）的工作形成互补。

2.2 蒸馏

蒸馏是指训练一个学生模型模仿教师模型（Hinton 等，2015），与许多元学习算法密切相关。蒸馏常应用于策略（Rusu 等，2016；Jia 等，2022）、数据集（Wang 等，2020；Lupu 等，2024）、手工设计的算法（Laskin 等，2023；Son 等，2025）以及推理型语言模型（DeepSeek-AI 等，2025）。从一个网络到另一个网络的蒸馏，称为黑箱蒸馏，通常训练一个比教师更小的学生模型（Hinton 等，2015），以降低推理成本和过拟合；或者训练与教师相同规模的学生模型（Furlanello 等，2018），因为蒸馏本身即起到正则化作用（Zhang & Sabuncu，2020；Mobahi 等，2020）。与这些论文不同，我们的分析探讨将黑箱蒸馏应用于学习型算法时，是否能获得与其他场景类似的收益。

与从一个网络蒸馏到另一个网络不同，符号蒸馏旨在学习一个符号程序（Cranmer 等，2020），使其映射关系与神经网络教师相似。符号蒸馏通常因可解释性原因应用于物理系统（例如（Cranmer 等，2020；Mengel 等，2023；Lemos 等，2023）），但也已扩展到学习型优化器（Zheng 等，2022；Song 等，2024a）。类似地，Lu 等（2022）手动将 LPO（一种黑箱算法）蒸馏为“发现策略优化”。在本文中，我们试图理解符号蒸馏何时适用于元学习强化学习算法。虽然可解释性是我们分析的一部分，我们也考察符号蒸馏是否能提升学习型算法的泛化能力。

3 背景

4.1 黑箱元学习

黑箱算法通常以神经网络的形式表示。例如，一个黑箱学习优化器可能会用一个将梯度映射为参数更新的神经网络来替代梯度下降。大多数黑箱算法通过进化或元梯度进行元训练。

元梯度通常通过对时间的反向传播（BPTT）相对于强化学习目标计算得到，其中算法本身被视为一个智能体（Oh 等，2020），并在算法固定长度的展开（rollouts）之后应用更新。展开通常会被截断，以防止梯度爆炸或消失，从而引入偏差（Metz 等，2022a；Wu 等，2018）。尽管 Jackson 等（2024）表明进化方法通常比元梯度能学习到更好的算法，但为了在本研究中提供多样性，我们使用元梯度来学习 LPG（如 Oh 等，2020 所提出），并使用进化策略（Evolution Strategies, ES）作为其他算法的进化算法（Wierstra 等，2011；Salimans 等，2017；Rechenberg，1973）。

ES 是一种基于种群的优化方法，其中网络的参数 θ̃ 通过使用适应度 F(·) 的自然梯度估计迭代更新。该梯度计算为 ∇θε∼N(0,I)F(θ + σε) = (1/σ)ε∼N(0,I){εF(θ + σε)}，使用 N 组随机化参数的样本平均值，均值为 θ̃。θ̃ 通过梯度上升更新以最大化 F(·)，而 F(·) 通常定义为智能体的最终回报（Lu 等，2022；Goldie 等，2024）。与符号进化不同（符号进化由于每个程序都有独立的计算轨迹而难以向量化，参见第 4.3 节），ES 的结构可以轻松利用 GPU 向量化实现并行化（Lu 等，2022；Lange，2022b）。

4.2 黑箱蒸馏
提升黑箱算法性能的一种方法可能是将其蒸馏到另一个神经网络中，如第2.2节所述。在我们的分析中，我们考虑两种类型的黑箱蒸馏：蒸馏到相同架构的网络中（同尺寸蒸馏）；或蒸馏到更小的网络中（小尺寸蒸馏），我们通过将所有层的宽度减半来实现后者，使学生网络对教师网络欠拟合。如果教师网络已对原始元训练分布过拟合，则欠拟合可能有助于泛化，同时蒸馏本身也可提供学习正则化效果（Zhang & Sabuncu, 2020；Mobahi 等, 2020）。

我们通过 L2 回归，使学生网络的输出匹配教师网络在合成生成输入上的输出，而不从环境中采样。该方法不需要额外的环境交互，并且相比从强化学习训练中采样（可能导致偏斜分布），能引入更多样化的数据。我们定期在原始元训练环境中评估学生网络的强化学习性能，并选择表现最佳的检查点作为最终的蒸馏算法。

4.3 符号发现
进化算法结合了变异（随机改变种群中的个体）、交叉（混合种群中两个个体）和选择（从种群中挑选个体传递至下一代）。当进化抽象语法树（AST，用于表示符号程序）时，变异操作会添加或修改树节点中的变量、常量或函数，交叉操作则在两个 AST 之间交换节点，有时也包括其子节点。

Lion（Chen 等，2023）是一种通过符号进化发现的可解释符号化学习优化器。然而，符号搜索效率低下，需要评估大量函数（即使从手工设计的优化器热启动，Lion 单次种子运行仍需评估 30,000 个函数），虽然在监督学习中计算适应度很快，但在强化学习中通常需要昂贵的环境模拟。

尽管进化策略（ES）可通过 GPU 并行化，因为种群中成员的追踪计算图是相同的，但符号程序的向量化更加困难，因为不同程序具有不同的计算图。复杂的硬编码分支逻辑或许可以克服这一问题，但这会导致严重的性能下降和显著的效率损失。因此，我们在实证分析中排除了直接的符号发现方法，此处仅出于完整性目的加以介绍。

5 元学习算法

在本节中，我们介绍了我们在第4节中引入的元学习算法的应用集合。由于元学习实验的成本，我们对包含哪些算法既具有选择性又经过深思熟虑。我们根据以下标准选择算法：它们依赖多少输入；它们是否具有递归性；以及它们影响的RL训练组件。

面向可塑性损失、探索与非平稳性的优化（OPEN）
OPEN（Goldie 等，2024）是一种用于强化学习的元学习优化器，其输入不仅包括典型学习型优化器的输入（Metz 等，2020），还包含用于衡量强化学习优化中某些困难特征的条件特征。其设计考虑了以下三个方面：

可塑性损失（Abbas 等，2023；Lyle 等，2023；Dohare 等，2024）：指智能体丧失学习新事物的能力。OPEN 通过以神经元休眠状态（Sokar 等，2023）为条件，并允许其在智能体的深层网络中表现不同行为来克服这一问题；
探索（Cesa-Bianchi 等，2017；Burda 等，2018；Aubret 等，2023；Sukhija 等，2025）：防止智能体陷入局部极小值。OPEN 通过使更新过程略带随机性来增强探索能力，类似于噪声网络（Fortunato 等，2019）或参数空间噪声（Plappert 等，2018）；
非平稳性（Igl 等，2021b）：根据训练已进行的时长（类似 Jackson 等，2024）以及在给定数据批次上已进行的优化迭代次数（类似于 Ellis 等，2024）进行度量

完整的输入集合为：

6 评估

对于元学习算法，并不存在单一的成功衡量标准。例如，某些用户可能为了可解释性而选择牺牲部分回报。因此，在比较不同元学习算法时，我们考虑多个性能指标。在第8节中，我们提出了若干针对未来元学习算法的设计建议，考虑以下特性：

分布内（i.d.）回报：在元训练任务或任务上评估算法的性能；
分布外（o.o.d.）回报：在训练分布之外的环境中评估算法的元测试泛化能力；
元学习的样本成本：训练过程在达到分布内性能峰值时停止；
元训练运行时间（墙钟时间）：用于学习算法的时间；
元测试运行时间（墙钟时间）；以及
算法的可解释性，主观判断为低、中或高。

对于前馈算法，我们从单个环境（Brax 中的 Ant，Freeman 等，2021；Todorov 等，2012）和 MinAtar 中的多个环境（Lange，2022a；Young & Tian，2019）进行元学习，遵循 Goldie 等（2024）的方法。这些设置的选择是为了实现快速元学习，同时避免不同元训练分布之间的重叠。对于 OPEN 的循环实现，我们使用 Goldie 等（2024）提供的预训练优化器，而非自行进行元训练，以便与公开可用的基线进行比较。此处我们仅关注多环境设置，以限制蒸馏的成本，因为循环算法的蒸馏成本更高。我们在一组多样化的环境中对这些算法进行元测试：来自 MinAtar 的 Freeway、Space Invaders、Asterix 和 Breakout（Lange，2022a；Young & Tian，2019）²；来自 Brax 的 Humanoid、Hopper、Walker 和 Ant（Freeman 等，2021；Todorov 等，2012）；来自 OpenAI gym 的 Cartpole（Lange，2022a；Brockman 等，2016）；以及 Craftax-Classic（Matthews 等，2024；Hafner，2021）。对于 LPG，为了与先前研究保持一致，我们遵循 Oh 等（2020）的方法，在随机分布的网格世界中进行元训练，并像 Jackson 等（2023）一样探索向 MinAtar 的迁移。所有超参数均在附录 A 中列出，包括为每个环境分别调优的 LLM 提出函数所需的超参数，这些超参数在元训练前已针对热启动算法进行调整。我们不采用标准化的评估集合，而是认为我们的方法更贴近每种元学习算法的实际应用场景。

由于符号蒸馏成本高昂且失败风险大，我们未将其应用于循环算法。尽管 Zheng 等（2022）使用固定输入窗口蒸馏了一个具有单个输入的循环学习优化器，但 LPG 有 19 个输入，OPEN 有 20 个。若窗口大小为 20（如 Zheng 等，2022），则需要超过 380 个符号变量。这种高维问题对符号回归来说极难求解，且会要求大量抽象语法树（AST）节点，导致计算不可行，因为搜索空间随树的规模呈指数增长。

在绘制结果时，我们对每个环境的回报独立进行归一化处理，即除以该环境的平均黑箱学习得分。结果根据元训练分布分为“分布内”和“分布外”，除非另有说明，否则显示 16 个环境种子的回报中间四分位数均值（IQM），并附带 95% 分层自举置信区间，遵循 Agarwal 等（2021）的方法。除了理解各方法在分布内和分布外的表现外，我们的分布内蒸馏结果还用于验证蒸馏是否成功。

我们将在附录 B 中提供未归一化和未聚合的结果，附录 C 中包含符号和 LLM 提出的算法，附录 D 中展示所有初始 LLM 提示，附录 E 中提供一个 LLM 讨论示例，附录 F 中提供网格世界元训练的额外结果。

由于元学习成本较高，我们遵循文献中的标准流程，对每个算法仅使用一个种子进行元学习（Goldie 等，2024；Metz 等，2022b；Lan 等，2024；Metz 等，2019a），且不进行元超参数调优。

7 结果

在本节中，我们展示第6节中所有实验的结果。

7.1 学习策略优化（LPO）

我们首先考察 LPO，结果如图2所示。我们发现，所有蒸馏示例的表现均相似，通常在不损害分布内（i.d.）性能的前提下带来轻微的泛化提升。尽管大语言模型（LLM）提出的算法在分布内表现显著差于其他方法，但其在分布外（o.o.d.）表现最佳。这并不意外：附录C中为每个任务提供的LLM提议算法彼此高度相似，且均与热启动函数PPO相关，因此预期其能在广泛的任务分布上实现良好泛化。基于这些结果，如果优先考虑泛化能力，LLM提议是最佳方法；而对于在分布内和分布外均表现良好的算法，对黑箱算法进行同尺寸蒸馏可能是最佳选择。

我们按照 Lu 等（2022）的方法，在附录G中可视化了所有 LPO 函数的梯度。

7.2 前馈无特征优化器

图3展示了“无特征”优化器的性能。在 Ant 环境中，黑箱优化器未能学习；根据 Goldie 等（2024）的研究，“无特征”是强化学习中一个非常弱的学习型算法，因此该失败并不意外。但这确实突显了蒸馏的一个明显局限：如果原始算法性能不佳，蒸馏不太可能改善它。符号蒸馏同样表现困难，可能是因为8个输入变量使该问题对符号进化而言维度相对较高。总体而言，无论在分布内还是泛化方面，LLM 提议方法都是目前最强的基线。

大语言模型（LLM）表现良好的原因可能有以下几点：基于梯度的优化方法在其训练语料中覆盖充分；优化器的所有输入都易于理解；并且LLM可以访问针对其SGD初始化单独调优的每个环境的学习率，这实际上依赖于少量样本的元测试评估。超参数的使用可被视为一种优势，因其提供了灵活性；但如果元测试阶段的样本获取成本高昂，则也可能成为劣势。

7.3 前馈 OPEN

在图4中，我们展示了在 Ant 和 MinAtar 上进行元训练后，前馈版本 OPEN 的性能表现。OPEN 比之前分析的其他算法具有更多的输入，这可能是导致大语言模型（LLM）和符号蒸馏方法出现灾难性失败的原因。从经验上看，我们发现符号蒸馏无法在高维空间中有效搜索，而是收敛到相对简单、近乎常数的算法；而语言模型即使在对其输入含义进行解释的情况下，也无法正确使用这些额外的输入特征。事实上，尽管我们向 LLM 提供了所有输入的形状和取值范围，但在训练过程中，它提出的许多算法仍然会产生错误。

与“无特征”情况类似，蒸馏到更小的模型可能会恶化性能。然而，对于在 MinAtar 上训练的模型，同尺寸蒸馏带来了一定的泛化收益。这很可能是因为较小模型的表征能力过低，而同尺寸蒸馏的正则化效应有助于提升泛化能力。

7.4循环液化石油气

在图5中，我们探讨了仅使用黑箱学习和蒸馏方法在网格世界（gridworlds）中对LPG进行元训练时的泛化性能。由于LPG中将 yθ 定义为一个分类分布，因此很难找到一个基于文献的算法来作为LLM提议的热启动基础，而这一点在DiscoPOP中是必需的。因此，除了排除对LPG进行符号蒸馏（因其为循环算法）之外，我们也省略了LLM提议方法，并强调这是LLM提议的一个关键局限：它需要一个起点，而这在某些情况下可能并不实际。

在这些结果中，无论学生模型更小还是与教师同尺寸，蒸馏均带来了改进的IQM泛化性能，尽管当学生模型与教师同尺寸时，置信区间存在重叠。考虑到LPG使用的是一个较大的网络（约20万参数，而OPEN仅为约1千参数），蒸馏带来的正则化效应可能有助于降低方差，从而提升泛化能力。

7.5 循环 OPEN

与 LPG（每次仅展开 20 步）不同，OPEN 在整个强化学习训练过程中展开，可能长达数万步。因此，出于稳定性和计算效率的考虑，我们无法使用与强化学习训练长度相当的数据序列进行蒸馏。取而代之的是，我们对一个预训练的 OPEN 优化器在“长展开”（Long Rollouts）和“短展开”（Short Rollouts）上进行蒸馏：前者在 100 步长的序列上训练，后者则使用 20 步长的生成序列。

图6显示，循环 OPEN 的蒸馏效果较差，表明对具有长展开过程的算法进行蒸馏过于困难。这与前馈 OPEN 形成对比——在前馈情况下，蒸馏偶尔能带来帮助，且很少损害性能。LLM 提议方法以 Adam 作为初始化（优于用于初始化前馈 LLM 提议优化器的 SGD），在分布外（o.o.d.）环境中生成了一个比黑箱学习更强的优化器。这很可能是因为表现最佳的 LLM 算法与 Adam 非常相似，且在训练早期即被发现。它还使用了为 Adam 调优的逐环境学习率，并仅利用额外特征实现逐层学习率；后续尝试引入更多特征反而导致性能显著下降。总体而言，在此设定下，黑箱学习算法学到了一个性能良好但过拟合的优化器，而 LLM 则学到了一个简单但更具泛化能力的优化器，尽管它与初始状态相比变化不大。

7.6 其他指标

在本节中，我们对不同元学习算法进行更全面的评估，结果汇总于表1。

黑箱学习具有较高的样本成本，因为它需要在在线环境中进行多次迭代学习；但从该黑箱算法进行蒸馏则无需额外样本，因为蒸馏使用的是合成数据。由于大语言模型（LLM）提议仅评估语言模型生成的单个算法，它所需的在线交互次数相对较少，因此具有较高的样本效率。

在速度方面，符号蒸馏可能是所有技术中最慢的，因为其元训练时间随抽象语法树（AST）最大节点数呈指数增长，尽管对于较简单的算法可能更快。这与黑箱蒸馏方法形成对比——无论被蒸馏函数的复杂度如何，其速度基本保持稳定。使用LLM速度快，一方面因为搜索从已知算法热启动，另一方面因为它只需评估少量高质量算法，而不像符号进化那样进行更随机的搜索。

黑箱算法几乎完全不可解释，而符号蒸馏、尤其是LLM所生成的算法则具有高度可解释性。这种差异源于：LLM在生成时以自然语言解释其提议，而符号蒸馏通常会在方程中引入大量常数，从而掩盖算法行为。

我们发现，符号蒸馏无法扩展到输入数量稍多的函数。虽然LLM提议表现更好，因为它能提出智能建议而非随机搜索，但我们发现它无法将OPEN的所有特征整合进一个高性能算法中，且仍需热启动。因此，作为唯一能够在具有大量特征的长展开序列上进行元训练的算法，我们认为黑箱学习是目前最具可扩展性的元学习算法。

8 设计建议

基于第7节的结果，我们为未来的元学习流程提出一组设计建议。这些建议反映了当前领域的技术水平，意味着随着元学习算法和能力的进步，可能需要相应调整。具体建议如下：

对于输入数量较少，或输入易于理解（即LLM能够解释它们）的元学习算法，通过提示LLM来生成新算法是一种样本高效的方法，有助于发现具有良好泛化能力的新算法。但需注意三点限制：必须存在一个易于定义且性能良好的函数作为搜索起点；必须能够在元测试环境中对该算法进行超参数调优；且该算法在分布内的性能很可能不如直接学习黑箱函数（尤其是在拥有大量元样本的情况下）。
只要能够定义一个热启动的初始化函数，几乎总是优于使用符号蒸馏，而应优先选择提示语言模型生成算法提案。事实上，除了能产生可解释的函数外，符号蒸馏不太可能提升性能——这与Chen等（2023）所提出的“符号函数应具有更好泛化能力”的观点相反。
黑箱蒸馏通常（但并非总是）能改善泛化性能。我们建议对所有前馈结构或具有短循环展开的黑箱学习算法，均尝试将其蒸馏到相同尺寸的网络中；鉴于无需增加样本成本且训练速度快，这种方法偶尔能带来低成本的性能提升。相比之下，小尺寸蒸馏可能导致性能显著下降，而潜在收益却较小。
黑箱算法实际上是唯一可行的、可用于元学习具有大量特征算法的方法。如果元学习算法拥有大量输入（如OPEN），那么LLM不太可能提出一个既高性能又能有效利用所有输入特征的算法。

9 局限性与未来工作

未来研究存在多个可能的方向。首先，虽然我们讨论了LLM提议算法对超参数的依赖性，但值得进一步探索这些算法对超参数选择的敏感程度，以及它们是否比手工设计的算法更敏感，可参考Probst等（2019）和Adkins等（2025）的方法进行研究。

其次，本研究尚未探索黑箱蒸馏中表示方式对性能的影响。例如，虽然我们考虑了改变黑箱网络层宽度，但并未全面研究架构变化对性能的影响。受算法蒸馏相关工作（Laskin等，2023；Son等，2025）启发，测试从循环或前馈算法蒸馏到Transformer架构（Vaswani等，2023）的效果可能具有启发意义。

最后，我们认为本文的发现可通过融合不同元学习算法进一步拓展。例如，可以探索：若先通过黑箱网络对输入进行编码，符号蒸馏是否能在高维问题上表现更好；或者LLM是否可以从符号蒸馏得到的算法进行热启动。类似地，理解不同提示风格或智能体框架的影响，也将是本研究有价值的补充。

10 结论

本研究对多种用于强化学习的元学习算法进行了大规模实证比较，包括：学习黑箱算法；将算法蒸馏到相同尺寸或更小的网络中；将算法蒸馏为符号函数；或提示语言模型提出新算法。基于我们的结果，我们提出了若干关于如何元学习强化学习算法的建议。这些建议包括：在搜索能从高性能算法初始化且可调优超参数的前提下，通常推荐使用语言模型来发现新算法；并建议尝试同尺寸黑箱蒸馏，以潜在提升泛化能力。这些设计建议可用于确保所学算法在强化学习中尽可能高效，同时希望减少不必要的实验需求。

原文链接：https://arxiv.org/pdf/2507.17668

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.