网易首页 > 网易号 > 正文 申请入驻

超大规模进化策略 Evolution Strategies at the Hyperscale

0
分享至

超大规模进化策略

Evolution Strategies at the Hyperscale

https://arxiv.org/pdf/2511.16652


摘要



1 引言

进化策略(ES)(Rechenberg, 1978;Beyer, 1995;Beyer & Schwefel, 2002)是相对于基于梯度反向传播的一阶方法的一个有吸引力的替代方案,原因有几点。首先,ES 不需要可微性,因此可以优化更广泛的模型类别,例如具有离散参数化空间的模型(元胞自动机),并且可以优化梯度不可用或带有噪声的目标,如大语言模型微调中的仅结果奖励(Qiu et al., 2025)。其次,ES 对噪声和病态优化景观更具鲁棒性(Wierstra et al., 2011;Xue et al., 2021)。与梯度不同,基于种群的探索可以平滑不规则性(Salimans et al., 2017),容忍不连续性,并缓解长期或循环设置中的病态曲率或梯度消失和爆炸等问题(Hansen, 2023)。第三,ES 非常易于通过并行化进行扩展,因为适应度评估在种群成员之间是独立的,且仅需通信标量适应度,这清晰地映射到现代推理基础设施,并在大型集群上实现近线性加速(Salimans et al., 2017)。相比之下,反向传播需要在设备间通信和聚合梯度,带来高昂的内存和计算成本。此外,在使用低精度数据类型训练模型时,反向传播需要特别小心,而 ES 可以直接优化任何在推理时使用相同数据类型的模型。这些特性共同使 ES 成为训练大型、离散或混合架构以及具有不可微组件的端到端系统(包括大语言模型(LLMs)(Brown et al., 2020;Chowdhery et al., 2023;Du et al., 2022;Fedus et al., 2022))的潜在强大基础。

尽管具有这些潜力,但大规模应用 ES 存在实际障碍。在深度学习架构(Goodfellow et al., 2016)中,大部分可训练参数形成了由矩阵表示的线性映射(Rosenblatt, 1962;Hochreiter & Schmidhuber, 1996;Bengio et al., 2000;Krizhevsky et al., 2012;Goodfellow et al., 2014;Kingma & Welling, 2014;Vaswani et al., 2017);因此朴素地应用 ES 需要生成全秩矩阵扰动,为每个种群成员复制整个参数集。这膨胀了内存成本,并迫使大型权重张量频繁移动。评估这些扰动然后需要为每个成员分别进行矩阵乘法序列,因此总计算量和挂钟时间大致随种群规模和序列长度扩展。在十亿参数规模下,这两项成本占主导地位,使得将 ES 扩展到小模型或小种群之外变得困难(Qiu et al., 2025;Korotyshova et al., 2025)。



2 预备知识

本文所有理论结果的证明见附录。

2.1 低秩矩阵逼近



2.2 高斯矩阵分布与矩阵范数




2.3 进化策略



2.4 高斯矩阵 ES



我们指出,对于高斯种群分布,式(4)中的进化策略(ES)更新与自然进化策略(NES)更新仅相差一个σ²因子。NES(Wierstra et al., 2008; 2011)的更新遵循式(1)中目标函数的自然梯度(Amari, 1998; Kakade, 2001)。这意味着在我们的问题设定中,当σ被视为固定并被吸收进式(2)的学习率时,高斯矩阵ES与NES是等价的。自然梯度的一个关键优势在于:在更新搜索分布时,它考虑了底层参数空间的局部几何结构,从而使更新对参数化的选择具有不变性。

3 相关工作

3.1 进化算法

进化算法长期以来一直是基于反向传播训练方法的一种引人注目的替代方案。尽管涵盖广泛的算法类别(例如遗传算法(Such et al., 2018)或符号进化(Koza, 1994)),当代关于进化的多数研究已转向更适用于大规模神经网络参数的算法(Jaderberg et al., 2017; Hansen & Ostermeier, 2001; Salimans et al., 2017)。

我们的工作聚焦于对预定义架构的权重进行进化,其基础源于NES(Wierstra et al., 2011)方法族。自Salimans等人(2017)将NES应用于传统强化学习环境中的策略学习以缓解策略梯度方法面临的挑战(如长视野环境)以来,此类方法的影响力日益增长。此后,进化算法被广泛应用于其他领域,包括元学习(如Lu et al., 2022; Metz et al., 2022; Lange et al., 2023; Goldie et al., 2024; 2025)、超参数调优(如Parker-Holder et al., 2021; Tani et al., 2021; Vincent & Jidesh, 2023)以及药物发现(Towers et al., 2025)。本文关注将进化策略应用于超大规模场景时的局限性与解决方案,超越了前述工作所涉及的小型网络与种群规模,重点聚焦于策略学习。特别地,Salimans et al. (2017)使用的最大种群规模为1440,而我们的最大种群规模可达数十万量级。

进化策略受限于其对适应度函数进行完整(可能代价高昂)评估的需求,这源于在长视野环境中模拟策略以及潜在的高内存占用。持久进化策略(Persistent Evolution Strategies, Vicol et al., 2021)通过在线更新网络(即在展开过程中更新)实现了显著加速,后续工作进一步提供了方差缩减方法(Li et al., 2023b; Vicol et al., 2023)。我们指出,这些工作与我们关注扩大进化策略种群规模的目标正交;将这些技术与EGGROLL结合应用留待未来研究。

3.2 大语言模型中的进化策略

尽管梯度反向传播通常用于大语言模型的训练与微调,先前研究已探索进化策略变体在微调中的应用。特别是,零阶优化(Zhang et al., 2024)——其等价于种群规模为1的进化策略——被Malladi等人(2023)用于实现内存高效的大语言模型微调。Yu et al. (2025)通过将扰动投影至低秩子空间,改进了零阶优化的收敛性。Jin et al. (2024)则直接在LoRA矩阵上执行进化策略。这些工作聚焦于监督微调场景,在性能上可与完整微调相媲美,但未确定零阶方法是否适用于预训练;我们发现预训练性能需要大规模种群,这表明零阶优化方法可能不适用于预训练。

近期研究也探索了进化策略在大语言模型推理中的应用。Korotyshova et al. (2025)首先通过监督微调(SFT)训练LoRA适配器,随后将其分解为固定的SVD基与通过CMA-ES训练的奇异值,在数学推理基准测试上以显著更短的时钟时间达到与GRPO(Shao et al., 2024)相当的性能。Qiu et al. (2025)则直接使用进化策略优化大语言模型的全部参数进行推理,在倒计时推理任务上表现优于GRPO。然而,这两种方法均采用相对较小的种群规模(每次更新约百量级的独特扰动),并通过为每个扰动收集数百条轨迹采样以高效利用GPU。相比之下,我们的方法允许所有生成过程使用不同扰动,使得每次更新的最大种群规模提升数个数量级(等于最大推理批处理大小),同时不牺牲token生成吞吐量。

4 EGGROLL

我们现在介绍并阐述我们的方法EGGROLL,该方法在算法1中给出。在第4.1节中,我们推导了一种低秩进化策略更新,用以近似全秩进化策略梯度。使用低秩矩阵近似的一个实际问题是,除退化情形外,其分布与得分函数均无解析解;因此在第4.2节中,我们从极限高秩高斯分布出发推导出一个替代得分函数,并将其作为近似方案提出。

4.1 低秩进化策略





4.2 得分函数逼近





我们指出,EGGROLL并不局限于任何特定的得分函数近似器;我们在附录B中推导并探索了一组均场近似器作为替代方案。然而,我们的实验表明,高斯近似器在所评估的任务集合上具有最佳的整体性能。我们使用Nworkers个样本对式(5)中的期望进行蒙特卡洛估计,并通过(近似的)随机梯度上升法优化参数μ,从而得到高斯EGGROLL更新:



4.3 硬件高效的 EGGROLL 实现

使用 EGGROLL 而非标准 ES 的一个关键原因是,由于低秩扰动,大规模种群可以在 GPU 上并行模拟。为了便于阐述,我们从单个工作者 i 的角度撰写方程,并在文本中解释这如何对应于批量 GPU 操作。



5 逼近分析

我们现在分析公式(7)中的高斯得分逼近以多快的速度收敛到公式(4)中的真实高斯 ES 矩阵梯度。我们对适应度函数引入以下形式正则性假设:



6 实验

6.1 RNN语言模型的纯整数预训练

为展示EGGROLL作为通用优化方法的潜力,我们研究了EGGROLL是否可用于语言模型预训练。由于EGGROLL不依赖梯度,我们可以专门设计语言模型架构以提高推理效率和硬件友好性。具体而言,我们在以下约束条件下构建模型,以强调EGGROLL的灵活性:

  1. 纯整数训练:在H100系统上,int8是最快速的数据类型,其中int8矩阵乘法配合int32累加是最快的张量核心操作。此外,整数数据类型在硬件中实现更为简单,为高吞吐量系统提供巨大的能源节省(Horowitz, 2014)。因此,我们在整个训练过程中将所有权重保持在int8格式,所有激活值保持在整数格式,绝不进行任何浮点转换。
  2. 非线性RNN:现代语言模型使用Transformer和SSM等序列并行架构,因为它们能够在不通过时间反向传播的情况下实现稳定的梯度。然而,大多数此类序列并行架构无法处理简单的状态跟踪(Merrill et al., 2024),而LSTM和GRU等经典循环网络只需单层即可处理这些问题。由于EGGROLL不需要通过时间反向传播,我们可以使用更广泛复杂线性RNN在无界序列长度上进行训练(Li et al., 2023a)。具体而言,我们开发了minGRU模型(Heck & Salem, 2017)的一个变体,该变体在整数格式下执行所有操作。
  3. 移除所有激活函数:受Foerster (2017)启发,我们移除了所有激活函数(如修正线性单元和双曲正切),这是由于int8数据类型本身已存在非线性。具体而言,int8值的饱和加法提供了足够的非线性,这源于值隐式裁剪到int8动态范围,而进化策略可以利用这一特性。

我们将最终得到的语言模型称为EGG(Evolved Generative GRU),一种对EGGROLL友好的架构。其架构类似于标准的预层归一化transformer解码器模型,但我们在以下方面进行了修改:(1) 使用L1归一化的变体替代L2归一化以避免平方根计算;(2) 用自定义GRU替换自注意力机制;(3) 所有操作均在整数数据类型下执行。有关架构的更多细节请参见附录C。

我们在minipile数据集(Kaddour, 2023)上训练一个具有6层和256隐藏维度的EGG模型进行字符级预测。每个种群成员在处理100个token后更新参数,通过保留隐藏状态并在文档边界重置来应用截断ES。我们在图2b中绘制了不同种群规模下训练步骤的测试损失,其中最佳测试损失为3.41 bits/byte。我们发现训练过程稳定,损失曲线相对平滑,尤其是在大规模种群情况下,避免了基于反向传播训练在低精度数据类型下常见的损失尖峰、NaN值和其他不稳定性。


值得注意的是,我们最大的种群规模为比Salimans等人(2017)进行的最大实验规模大两个数量级,而仅需单个GPU进行训练。我们观察到,将种群规模乘以8会使损失在测试的种群值范围内降低约0.4,尽管这种模式最终会因损失必须严格为正而中断。我们在附录E中进行了更多消融实验,确定如何通过EGGROLL实现数据高效的训练,并验证了大批量规模的重要性。

6.2 强化学习任务

在本组实验中,我们将EGGROLL与Salimans等人(2017)实现的标准OpenES在强化学习任务上的性能进行对比。鉴于网络规模较小,此尺度下可使用OpenES;但我们指出,随着网络规模增大,标准OpenES的使用将变得不可行。我们采用标准设定,即仅优化环境中的最终回报。对于EGGROLL与OpenES,我们分别为每个环境单独进行超参数优化(HPO)。针对每种算法–环境组合,我们基于先前工作与初步实验为所有关键超参数定义合理范围,随后执行20次随机搜索试验,每次试验对应一次采用随机采样超参数配置的独立训练运行。每种配置根据训练结束时均值策略参数所达到的最终回报进行评估。完成所有试验后,我们选择产生最高最终回报的配置,并基于该最优配置运行10次独立随机种子以评估性能,报告这些种子的均值与均值标准误。

我们使用包含3层、每层256个神经元的策略网络,并在一系列展示不同能力的环境中进行评估。评估涵盖Navix(Pignatelli et al., 2024)、Craftax(Matthews et al., 2024)、Brax(Freeman et al., 2021)、Kinetix(Matthews et al., 2025)与Jumanji(Bonnet et al., 2024)环境套件,共计16个环境。环境选择标准为:根据原始论文,该环境对PPO而言既非平凡可解亦非完全不可解;同时在条件允许时,我们选择属于不同类别的环境(例如Kinetix中的环境尺寸或Jumanji中的类别)。

我们在图4中展示了部分评估环境的结果,其余环境结果见附录G.1。研究发现,EGGROLL在16个环境中与OpenES性能相当者占7个,表现逊色者占2个,表现更优者占7个。此比较尚未计入相较于OpenES(全秩更新)的速度提升。我们推测性能提升的原因在于:大规模网络对OpenES而言难以优化,而低秩更新对此类网络更为适用。所有超参数配置细节见附录G.1。


6.3 大语言模型推理任务微调

我们将EGGROLL应用于RWKV-7(Peng et al., 2025)模型在两类推理任务上的微调:倒计时(countdown)与GSM8K。RWKV架构是一种循环模型,相较于Transformer,其特别适合并行化——原本用于KV缓存的内存可转而用于评估种群成员。图5a展示了倒计时任务中EGGROLL与GRPO的训练曲线。在相同硬件与实际运行时间下,基于RWKV-7 1.5B模型的EGGROLL微调在倒计时任务上收敛至更高的验证准确率(35%,对比GRPO的23%)。类似地,图5b表明EGGROLL在GSM8K微调任务上亦优于GRPO。我们的得分函数与GRPO的组相对优势具有相似性。具体而言,为对一组扰动方向E ≡ {E₁, ..., Eₙ}进行评分,我们首先计算其在|q| = m个问题上的准确率{s₁,ᵠᵢ, ..., sₙ,ᵠᵢ},形成得分矩阵。随后按问题计算z分数,主要区别在于我们使用全局方差σ̄,并对所有问题取平均以计算扰动方向Eᵢ的最终得分:



该得分函数的目的是使同一批次内所有问题在不同种群成员间获得同等权重。

7 结论

本文提出EGGROLL,一种强大的黑盒优化方法,通过低秩搜索矩阵将进化策略扩展至十亿参数规模及以上的模型。实验表明,EGGROLL在秩低至r = 1时仍保持有效性,相较于全秩ES更新,仅带来可忽略的性能下降,却实现了显著的计算与内存节省。实证结果显示,EGGROLL在白板式(tabula rasa)与多智能体强化学习任务中相比朴素ES带来大幅加速,并可支撑大语言模型的端到端训练流程。我们的理论分析表明,低秩EGGROLL更新随秩r快速收敛,但当r = 1时方法仍取得成功的原因尚需进一步理论阐释。

展望未来,我们正致力于将EGGROLL应用于现代基于梯度的技术难以触及的其他问题。特别是,EGGROLL可赋能大规模端到端神经符号系统的训练(Sarker et al., 2021),此类系统包含不可微分组件。例如,我们可以训练能与符号模块直接交互的神经网络,以执行记忆或计算等专用功能;亦可优化由语言模型构成的端到端系统,使其在训练阶段即具备对推理时工具链及复杂系统中与其他智能体交互的认知能力。

原文链接:https://arxiv.org/pdf/2511.16652

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三分7中0,正负值-26,原来是你坑了伦纳德的全明星MVP,无语了!

三分7中0,正负值-26,原来是你坑了伦纳德的全明星MVP,无语了!

林子说事
2026-02-17 13:32:50
2赛季8次受伤缺阵40场!阿森纳飞翼变玻璃人 或今夏被扫地出门

2赛季8次受伤缺阵40场!阿森纳飞翼变玻璃人 或今夏被扫地出门

雪狼侃体育
2026-02-17 14:15:29
1900年,八国联军把“黄莲圣母”当成玩物,凌辱后运往欧洲展览?

1900年,八国联军把“黄莲圣母”当成玩物,凌辱后运往欧洲展览?

谈史论天地
2026-02-08 12:00:10
柯庆施到底是一个怎样的人?马达同志坦言:他的这个优点不能否定

柯庆施到底是一个怎样的人?马达同志坦言:他的这个优点不能否定

明月清风阁
2026-02-17 14:30:04
梅西情人节送巨型泰迪熊,低调浪漫引球迷热议

梅西情人节送巨型泰迪熊,低调浪漫引球迷热议

星耀国际足坛
2026-02-16 22:55:36
48岁保洁阿姨睡在公司1个月,老板打开了监控,第2天送给她20万

48岁保洁阿姨睡在公司1个月,老板打开了监控,第2天送给她20万

秀秀情感课堂
2025-12-12 14:20:05
西方专家集体懵圈!一年时间,中国怎么就成了“看不懂的奇迹”?

西方专家集体懵圈!一年时间,中国怎么就成了“看不懂的奇迹”?

青梅侃史啊
2026-02-16 09:28:20
高岗身亡多年,周总理为其妻子安排工作,毛主席为何表态:不同意

高岗身亡多年,周总理为其妻子安排工作,毛主席为何表态:不同意

大运河时空
2026-01-18 07:10:03
央视春晚被Papi酱提前剧透引关注,Papi酱:再加100个机器人

央视春晚被Papi酱提前剧透引关注,Papi酱:再加100个机器人

韩小娱
2026-02-17 08:04:54
毛主席向放羊大爷借火,大爷道:同志好福相,起码是个工作队队长

毛主席向放羊大爷借火,大爷道:同志好福相,起码是个工作队队长

优趣纪史记
2026-02-17 13:16:20
落槌!全部划归国资!追随许家印6年,江苏第一包工头赔得精光

落槌!全部划归国资!追随许家印6年,江苏第一包工头赔得精光

小嶯说故事
2026-02-17 15:16:59
易烊千玺揭秘境外间谍渗透套路:以登山等为掩护,非法测绘军事管理区,刺探敏感信息,将数据传往境外

易烊千玺揭秘境外间谍渗透套路:以登山等为掩护,非法测绘军事管理区,刺探敏感信息,将数据传往境外

都市快报橙柿互动
2026-02-16 17:06:53
想跑没门!新疆富豪夫妇套现7亿,没等钱到账,老板娘先被带走了

想跑没门!新疆富豪夫妇套现7亿,没等钱到账,老板娘先被带走了

白浅娱乐聊
2026-01-30 16:29:01
这根绳子是设计师的耻辱。︱刘德科

这根绳子是设计师的耻辱。︱刘德科

德科在屋顶
2026-01-21 21:43:38
有儿子的家庭集体觉醒:宁让儿子单着,不娶“祖宗”进门

有儿子的家庭集体觉醒:宁让儿子单着,不娶“祖宗”进门

青苹果sht
2026-02-08 05:48:26
人活在世上,要大胆一些,不要害怕任何人任何事,越害怕越被欺负

人活在世上,要大胆一些,不要害怕任何人任何事,越害怕越被欺负

木言观
2026-02-16 18:47:10
在一派喜庆祥和当中,漏了一把凶光

在一派喜庆祥和当中,漏了一把凶光

美第奇效应
2026-02-17 08:01:36
看1小时就关电视!我给春晚提9条实在建议,全是老百姓心里话

看1小时就关电视!我给春晚提9条实在建议,全是老百姓心里话

老吴教育课堂
2026-02-17 02:52:13
周建军、李建国被查,叶露中主动投案

周建军、李建国被查,叶露中主动投案

上观新闻
2025-12-16 07:07:09
林孝埈41.242秒获得小组第二 顺利晋级1/4决赛

林孝埈41.242秒获得小组第二 顺利晋级1/4决赛

环球体坛啄木鸟
2026-02-17 15:33:44
2026-02-17 20:55:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1225文章数 18关注度
往期回顾 全部

科技要闻

春晚这些机器人是怎样做到的?

头条要闻

企业家给全村70岁以上老人发红包 老人:他比亲儿子还亲

头条要闻

企业家给全村70岁以上老人发红包 老人:他比亲儿子还亲

体育要闻

谷爱凌:'不小心"拿到了银牌 祝大家马年大吉

娱乐要闻

春节档电影首波口碑出炉!

财经要闻

大年初一,这三件事很不寻常

汽车要闻

问界M6更多信息:乾崑智驾ADS4.0+鸿蒙座舱5.0

态度原创

健康
教育
亲子
艺术
家居

转头就晕的耳石症,能开车上班吗?

教育要闻

高中生开始获得省自然科学基金某项目资助

亲子要闻

宝蓝买了一个凯迪猫的玩具车,还可以做滑滑梯,太好玩了~

艺术要闻

名家笔下话过年,别有风味!

家居要闻

中古雅韵 乐韵伴日常

无障碍浏览 进入关怀版