一种简单高效的批量贝叶斯优化方法
A Simple and Efficient Approach to Batch Bayesian Optimization
https://www.arxiv.org/pdf/2411.16206v2
摘要
将贝叶斯优化扩展到批量评估(batch evaluation) ,可以使设计者充分利用并行计算技术 。然而,目前大多数的批量方法在面对较大批量规模时并不具备良好的可扩展性,即当批量大小增加时,其性能会显著下降。
为了解决这一问题,本文提出了一种简单且高效的方法 ,用于将贝叶斯优化扩展到大规模批量评估。与现有的批量方法不同,新方法的核心思想是:从原始问题中抽取一组轴对齐的子空间(axis-aligned subspaces) ,并在每个子空间中选择一个采集点。
为了实现这一目标,我们提出了期望子空间改进准则(expected subspace improvement criterion) ,用于衡量候选点在其所属子空间中可能带来的改进量。通过同时优化这些期望子空间改进函数,我们可以一次性获得一批用于并行评估的查询点。
数值实验表明,与顺序贝叶斯优化算法 相比,所提出的方法能够显著加快收敛速度;在与七种批量贝叶斯优化算法 的对比中,也表现出非常具有竞争力的性能。
该方法的 Matlab 实现已公开,地址为:
https://github.com/zhandawei/Expected-Subspace-Improvement-Batch-Bayesian-Optimization
关键词 :贝叶斯优化,批量评估,并行计算,期望改进,昂贵优化
1. 引言
贝叶斯优化(Bayesian Optimization)[1],也被称为高效全局优化(Efficient Global Optimization, EGO)[2],是一种解决昂贵黑箱优化问题的强大工具。与基于梯度的算法和进化算法不同,贝叶斯优化使用一个统计模型来近似原始目标函数,并利用获取函数(acquisition function)来决定在其搜索过程中何处进行采样。
贝叶斯优化在机器学习 [3]、机器人控制 [4] 和工程设计 [5] 等领域取得了广泛应用。关于贝叶斯优化的发展情况已在文献 [6, 7] 中进行了综述。
标准的贝叶斯优化算法一次选择并评估一个新点。当有并行计算资源可用时,这种顺序选择和评估过程效率较低。因此,开发能够同时评估一批样本的批量贝叶斯优化算法具有重要意义。
贝叶斯优化通常采用顺序方式进行的主要原因在于:优化获取函数往往只能提供一个采样点。因此,开发批量贝叶斯优化算法的关键在于设计批量获取函数 。目前,贝叶斯优化中最常用的获取函数包括期望改进(Expected Improvement, EI)[1]、改进概率 (Probability of Improvement, PI)[8] 和下置信界(Lower Confidence Bound, LCB)[9]。其中,EI 准则 可以说是应用最广泛的。因此,本文主要研究 EI 准则的并行扩展。
用于批量评估的 EI 函数最直接的扩展是多点期望改进 ,通常称为 q-EI ,其中 q 表示批量中的样本数量 [10]。q-EI 准则衡量了在考虑一批样本时的期望改进值。尽管 q-EI 在理论上非常严谨,但当批量大小 q 较大时,其精确计算非常耗时 。已有研究尝试加速 q-EI 的计算过程 [11, 12, 13, 14]。然而,目前的方法仅适用于批量大小小于 10 的情况。
虽然可以使用近似方法 [11] 或 快速多点期望改进 (Fast Multi-Point Expected Improvement, Fq-EI)[15] 来降低计算成本,但在批量较大时,优化 q-EI 函数仍然具有挑战性。q-EI 准则的维度为 d × q ,其中 d 是原始优化问题的维度。随着批量大小 q 的增加,内部优化器寻找获取函数全局最优解的难度呈指数级增长。因此,q-EI 及其变体通常不适用于大批量的情况。
为了避免 q-EI 准则的“维数灾难”,一些启发式批量方法被提出。克里金说谎者 (Kriging Believer, KB)和常数说谎者 (Constant Liar, CL)方法 [11] 首先使用标准 EI 准则选择第一个查询点,然后使用虚假值(fake values)指定该获取点的目标函数值,并用这些虚假点更新高斯过程模型以获得第二个查询点。这一过程重复进行,直到得到一个包含 q 个查询点的批次。KB 方法使用高斯过程预测值作为虚假值,而 CL 方法则使用当前最小目标函数值作为虚假值 [11]。
KB 和 CL 方法能够在不评估目标函数值的情况下,在一次迭代中定位出一个批次的点。然而,随着批量的增大,由于越来越多的虚假点被加入,高斯过程模型的准确性会逐渐下降,这可能会误导搜索方向,进一步影响优化效率。
人们观察到,在使用新点更新高斯过程模型后,EI 函数在更新点附近会显著下降,而在远离更新点的位置变化较小。因此,我们可以设计一个人工函数来模拟更新点对 EI 函数的影响,并利用它来选择与顺序 EI 所选点相似的一批点。
这一思想已被应用于 局部惩罚 (Local Penalization, LP)[16]、期望改进与互信息 (Expected Improvement and Mutual Information, EIMI)[17] 和 伪期望改进 (Pseudo Expected Improvement, PEI)[18] 等方法中。
LP 方法使用“1 减去当前研究点属于已选点球体的概率”作为人工函数 [16];
EIMI 方法使用当前研究点与已选点之间的互信息作为人工函数 [17];
PEI 准则使用“1 减去当前研究点与已选点之间的相关系数”作为人工函数 [18]。
通过依次优化这些修改后的 EI 函数,这些方法可以逐个选择一批样本,然后并行评估它们。但由于使用了人工函数,模拟的 EI 函数将变得越来越不准确,因此所选样本的质量也会随着批量的增大而逐渐下降。
另一种在一个循环中生成一批样本的想法是使用多目标优化方法 [19]。这些方法同时考虑多个获取函数,并将填充选择问题转化为一个多目标优化问题。通过求解这个多目标填充选择问题,可以获得一组帕累托最优解(Pareto optimal points),然后从中选出一个样本批次。
基于多目标优化的高效全局优化方法 [20] 将 EI 函数的两个部分视为两个目标,并使用基于分解的多目标进化算法 [21] 求解双目标优化问题;
在 多目标获取集成 (Multi-objective ACquisition Ensemble, MACE)方法 [22] 中,EI、PI 和 LCB 被选为三个目标,并使用基于差分进化的多目标优化方法 [23] 解决三目标优化问题;
通过多目标优化的自适应批量获取函数 [24] 方法考虑多个获取函数,但只根据目标降维方法选择其中两个进行求解。
对于基于多目标优化的方法,批量样本的数量受限于所采用的多目标进化算法的种群大小。此外,从获得的帕累托前沿中识别出需要进行昂贵评估的重要点,对这些多目标方法来说仍是一个具有挑战性的任务。
如上所述,目前大多数批量 EI 方法主要是为小批量设计的。为了充分利用大规模并行计算资源,进一步加速贝叶斯优化过程,设计适用于大批量的批量 EI 准则既具有吸引力又具有重要意义。
在本研究中,我们提出了一种基于期望子空间改进 (Expected SubSpace Improvement, ESSI)的批量贝叶斯优化算法来填补这一研究空白。所提出的方法简单而高效。其核心思想是在多个不同的轴对齐子空间中定位一批样本。实验结果表明,我们的算法在性能上显著优于当前的批量 EI 方法。
本文其余部分的结构如下:
第 2 节介绍贝叶斯优化的基本背景知识;
第 3 节详细介绍我们提出的期望子空间改进准则及批量贝叶斯优化方法;
第 4 节给出数值实验结果;
第 5 节总结本研究的主要结论。
2. 背景知识
在本研究中,我们尝试求解一个昂贵、单目标、有界约束且是黑箱的优化问题:
2.1 高斯过程模型
高斯过程模型(Gaussian Process Models)[27],也被称为克里金模型(Kriging models)[2],是贝叶斯优化中最常用的统计模型。它们被用于根据已有的观测样本近似昂贵的目标函数。高斯过程模型将未知的目标函数视为一个高斯过程的实现 [27]:
其中,m是随机过程的均值函数,k是任意两点 x和 x′之间的协方差函数,也称为核函数(kernel function)。在先验分布下,所有点组合的目标函数值服从一个多元正态分布 [27]。高斯过程中常用的均值函数包括常数值或多项式函数;常用的协方差函数包括平方指数函数(squared exponential function)和 Matérn 函数 [27]。
假设我们已经获得了一组 n个样本
先验分布中的超参数可以通过最大化 n个观测样本的似然函数来估计。关于高斯过程模型的更多细节,可参见文献 [27]。
2.2 获取函数
贝叶斯优化的第二个核心组成部分是获取函数(acquisition function)。在训练完高斯过程模型之后,下一步就是决定下一个采样点的位置,以便尽可能快地找到原始函数的全局最优解。
在贝叶斯优化中,这一目标是通过最大化一个设计良好的获取函数来实现的。为了在全局搜索和局部搜索之间取得平衡,获取函数一方面应选择靠近当前最优观测点的位置,另一方面也应选择那些采样较为稀疏的区域。针对高斯过程模型,常用的获取函数包括:期望改进(expected improvement)[1]、改进概率(probability of improvement)[8]、下置信界(lower confidence bound)[9]、知识梯度(knowledge gradient)[28, 29] 和熵搜索(entropy search)[30, 31]。
其中,期望改进(Expected Improvement, EI)准则由于其数学上的可处理性和良好的实际表现 [26, 32],可以说是最广泛使用的一种获取函数。因此,本研究重点围绕 EI 获取函数展开。
其中,Φ和 ϕ分别表示标准正态分布的累积分布函数(CDF)和概率密度函数(PDF)。从该公式可以看出,EI 函数是高斯过程均值和方差的一个非线性组合。
图 1(b) 展示了该一维示例中的 EI 函数,其中实线表示 EI 获取函数,空心圆圈表示采样点。我们可以看到,在已采样点处 EI 函数值为零,因为在这些已经评估过的点上进行采样不会带来任何改进。我们还可以观察到,在高斯过程均值较低且方差较高的区域,EI 函数值较高。
2.3 贝叶斯优化
通常情况下,贝叶斯优化是以顺序方式进行的。算法 1 展示了贝叶斯优化的计算框架。
3. 提出的方法
标准的贝叶斯优化在每次迭代中只选择一个查询点进行昂贵的评估。当有多个计算资源(worker)可用时,它无法利用并行计算技术。目前的批量贝叶斯优化方法主要是为小批量大小设计的,当批量变大时,它们的性能会显著下降。
在本研究中,我们提出了一种新的批量贝叶斯优化方法,能够在大批量情况下表现良好。与当前批量方法所采用的思路不同,我们的方法尝试在多个不同的子空间中选择多个查询样本。这一新思路易于理解,且所提出的算法实现简单。接下来,我们将详细介绍所提出的方法。
3.1 期望子空间改进
我们提出了一种新的获取函数,命名为期望子空间改进 (Expected SubSpace Improvement, ESSI),用于衡量候选点在特定子空间中的改进程度。在本研究中,我们仅考虑轴对齐子空间 (axis-aligned subspaces)。假设原始的 d维设计空间为:
3.2 计算框架
基于所提出的 ESSI 准则,我们提出了一种新的批量贝叶斯优化算法。该方法的思路非常简单:在每一次迭代中,我们使用 ESSI 获取函数在 q 个不同的子空间 中定位 q 个采样点 ,然后并行地对这 q 个查询点 进行评估。所提出方法的计算框架如 算法 2 所示。该算法的步骤如下所述:
6. 最优解更新 :在每次迭代结束时,我们需要将新评估的样本加入数据集中,并对数据集进行更新。同时,我们还需要更新当前最优解,因为它将在后续的迭代中被使用。更新完成后,算法返回模型训练步骤,开始下一次迭代。当达到最大函数评估次数时,迭代过程终止。
我们所提出的批量贝叶斯优化算法与标准贝叶斯优化算法之间的主要区别在于:标准方法在每次迭代中仅在原始设计空间中选择一个查询点,而我们的批量方法则在多个不同的子空间中选择多个查询点。因此,标准方法只能逐个评估查询点,而我们提出的批量方法可以并行地对这些查询点进行评估。
子空间选择和获取函数优化是我们所提出批量贝叶斯优化算法的两个关键步骤,因此将在以下部分中进行详细讨论。
3.3 子空间选择
在子空间选择过程中,我们采用了最直接的方法,即随机选择轴对齐子空间 。这种随机选择策略避免了设置超参数 s(子空间的维度),并且实践证明非常高效。
与其直接从全部 N个轴对齐子空间中抽取 q个子空间,我们采用的方法是:首先随机生成一个整数,然后根据该整数随机生成一个变量组合来选取子空间,如算法 2 中的第 6 步和第 7 步所示。这样做的原因是,当 d较大时,直接枚举所有 N个子空间在计算上是非常昂贵的。我们的策略非常高效,但在进行 q次选择时可能会重复选中相同的子空间。可以通过在每次选择后检查候选子空间是否已经被选中来避免重复。如果该子空间已被选中,则可以拒绝此次选择,并重新进行一次抽取。
3.4 获取函数优化
在获取函数优化过程中,我们对第 i个子空间中的变量进行优化,同时将其他变量固定在当前最优解 的取值上。优化完成后,我们将 中对应于该子空间的变量替换为优化后的结果,从而得到第 i个查询点:
4. 数值实验
在本节中,我们进行了两组实验来验证所提出的 ESSI 方法的有效性。
在第一组实验中,我们将所提出的批量方法与顺序 EI 方法进行对比,以观察所提出方法的加速效果。
在第二组实验中,我们将所提出的 ESSI 方法与七种现有的批量 EI 方法进行比较,以评估我们的方法在面对当前最先进方法时的表现如何。
4.1 实验设置
所有实验运行 30 次,以获得可靠的结果。30 次运行中的初始样本集各不相同,并且对于不同对比算法是相同的。
所有实验运行在一台配备 128 核 AMD EPYC 9754 CPU 和 128 GB 内存的 Windows 10 机器上,使用 MATLAB R2023b 进行实现。
4.2 与顺序贝叶斯优化算法的比较
我们首先将所提出的 ESSI 方法与顺序 EI 方法进行对比,以研究所提出方法的加速效果。我们将批量大小 q分别设置为 2、4、8、16、32、64 和 128,以测试该方法在不同批量下的性能表现。由于获取函数的优化样本总数固定为 512,因此对应的批量算法最大迭代次数分别为 256、128、64、32、16、8 和 4。
表 1 中展示了标准 EI 方法和所提出的 ESSI 方法在 10 维和 30 维问题上的简单遗憾值(simple regret)。简单遗憾值是指找到的最小值与全局最优值之间的差异。表中显示的是 30 次独立运行的平均结果。我们使用 Wilcoxon 符号秩检验来判断所提出的 ESSI 方法与标准 EI 方法的结果是否存在显著差异。检验的显著性水平设为 α=0.05。我们用“+”、“−”和“≈”分别表示 ESSI 方法相对于顺序 EI 方法取得了显著更好、显著更差和结果相似的表现。
从表 1 可以看出,在完成 512 次额外函数评估后,所提出的批量 ESSI 方法在大多数测试问题上都显著优于顺序 EI 方法。通过在低维子空间中定位新样本,ESSI 方法相比在原始空间中寻找新样本的标准 EI 方法,降低了获取函数优化的难度。显著性检验结果显示,当批量大小分别为 2、4、8、16、32、64 和 128 时,ESSI 方法分别在 48、49、48、48、46、39 和 24 个测试问题上优于标准 EI 方法。我们还可以看到,随着批量增大,ESSI 方法的性能略有下降,但仍与顺序 EI 方法相当。当 q=128时,ESSI 在 24 个问题上表现更好,在 16 个问题上表现更差,其余 18 个问题两者表现相似。
从这些曲线可以看出,所提出的 ESSI 方法在测试问题上的收敛速度明显快于顺序 EI 方法。批量方法每次迭代评估 q个点,因此只需要 512/q次迭代即可完成所有函数评估。通过将这些评估任务分配到多个核心或机器上执行,批量方法相比顺序方法可以减少 q倍的实际运行时间(wall-clock time)。我们还可以看到,随着批量大小从 2 增加到 128,所提出 ESSI 方法的收敛速度也逐步提升,这表明该方法在批量大小方面具有良好的可扩展性。在 512 次额外函数评估结束时,ESSI 方法在大多数测试问题上找到了比标准 EI 更优的解。这意味着所提出的 ESSI 方法不仅能够减少实际运行时间,还能提升优化效果。
所提出的批量贝叶斯优化方法与标准贝叶斯优化方法的主要区别在于获取函数的优化过程。接下来,我们对所提出的 ESSI 方法与顺序 EI 方法的获取函数优化时间进行了比较。顺序 EI 每次只选择一个获取点,而 ESSI 方法在每次迭代中选择 q个获取点。由于额外获取样本的总数固定为 512,顺序 EI 需要 512 次迭代才能完成整个过程,而所提出的 ESSI 方法需要 512/q次迭代。对于所提出的 ESSI 获取函数,我们使用 MATLAB 的 parfor 函数将 q个获取函数优化任务分配到 q个 CPU 核心上,并行执行。
图 5 展示了两种方法的获取函数优化时间,其中纵轴表示 30 次运行的平均运行时间(单位为秒)。我们可以看到,所提出的 ESSI 方法相比标准 EI 方法显著减少了获取函数优化的时间。随着批量大小 q的增加,ESSI 的优化时间逐渐减少。在 10 维问题中,当 q=2,4,8,16,32,64,128时,ESSI 相对于顺序 EI 的加速比分别为约 2.4、4.2、7.8、14.8、37.4、51.1 和 73.5。在 30 维问题中,相应的加速比分别为 1.6、2.7、4.8、8.7、15.8、26.7 和 32.2。所提出 ESSI 方法的加速效果是亚线性的,主要原因在于 MATLAB 在将计算任务分配到不同 CPU 核心时需要额外开销,因此难以实现理想的线性加速。需要注意的是,优化昂贵问题最耗时的部分通常是目标函数的评估过程。我们的 ESSI 方法通过并行评估 q个获取点,能够实现接近线性的加速效果。
4.3 与批量方法的比较
在第二组实验中,我们将所提出的 ESSI 方法与七种现有的批量贝叶斯优化(Batch Bayesian Optimization)方法进行了比较。这些被比较的算法包括:
- 多点期望改进
(Multi-Point Expected Improvement, q-EI)方法 [12],
- 快速多点期望改进
(Fast Multi-Point Expected Improvement, Fq-EI)方法 [15],
- 多尺度多推荐
(Multi-Scale Multi-Recommendations, MSMR)方法 [35],
- 多目标获取集成
(Multi-objective ACquisition Ensemble, MACE)方法 [22],
- 伪期望改进
(Pseudo Expected Improvement, PEI)方法 [18],
- 期望改进与互信息
(Expected Improvement and Mutual Information, EIMI)方法 [17],
- 克里金说谎者
(Kriging Believer, KB)方法 [11]。
下面介绍这些对比批量 EI 方法的具体设置:
q-EI :q-EI [12] 是贝叶斯优化中最经典的批量获取函数之一。它衡量的是当考虑一批样本时的整体期望改进值。由于当批量较大时,精确计算 q-EI 的成本过高,因此我们在实验中使用具有 1000 个样本的蒙特卡洛近似方法来计算 q-EI 值。我们使用遗传算法来优化 q-EI 函数以获取采样点。遗传算法的种群大小设为 min(2qd,1000),最大进化代数设为 100。
Fq-EI :Fq-EI [15] 是一种近期提出的批量期望改进获取函数,旨在解决经典 q-EI 获取函数计算成本高的问题。Fq-EI 方法使用协同进化的方法将获取函数分解为 q个子问题,每个子问题处理一个采样点。在实验中,我们使用协同遗传算法来优化 Fq-EI 获取函数。每个子问题的种群大小设为 10d,最大进化代数设为 100。
MSMR :MSMR 方法 [35] 使用多个核函数的长度尺度来训练多个高斯过程模型,并利用这些不同的模型生成一组候选解。然后,使用 k-medoid 聚类方法从候选解中选择一个包含 q个点的批次。在实验中,我们设置的长度尺度数量为 2q。我们同样使用种群大小为 10d、进化代数为 100 的遗传算法来优化这些不同的 EI 函数。
MACE :MACE 方法 [22] 是一种典型的用于批量贝叶斯优化的多目标方法。它将最常用的 EI、PI 和 LCB 函数作为三个目标,并使用多目标进化算法对这三个获取函数进行优化。随后,从获得的帕累托前沿近似中随机选择一个包含 q个点的批次。在实验中,我们使用流行的 NSGA-II 算法 [36] 来求解多目标优化问题。NSGA-II 的种群大小设为 20d,最大进化代数设为 100。
PEI :PEI 方法 [18] 是一种典型的顺序-批量方法。它使用影响函数来模拟新获取样本对期望改进函数的影响。PEI 方法通过依次将之前所选样本的影响函数相乘,来生成下一个获取样本。在实验中,我们也使用种群大小为 10d、最大进化代数为 100 的遗传算法来最大化 PEI 函数。
EIMI :EIMI 方法 [17] 同样是一种顺序-批量方法。它使用互信息准则来衡量所选点之间的相似性,并通过最大化 EI 函数与 MI 函数的乘积来避免选择过于相似的解。在实验中,我们也使用种群大小为 10d、进化代数为 100 的遗传算法来最大化 EIMI 函数。
KB :最后,我们将流行的 KB 方法 [11] 作为基准算法纳入比较。KB 方法旨在缓解 q-EI 函数的高计算成本问题。在获得第一个获取点后,KB 方法会为该获取点分配一个虚假的目标函数值,其取值为克里金模型的预测值。在实验中,我们同样使用种群大小为 10d、最大进化代数为 100 的遗传算法来最大化 KB 获取函数。
所有对比算法都采用相同的方法训练高斯过程模型。这八种批量 EI 方法之间的唯一区别在于它们选择 q个获取点的方式不同。我们分别将批量大小设置为 q=4、16和 128,以测试这些算法在小、中、大批量规模下的性能表现。
首先,我们在小批量设置下将所提出的 ESSI 方法与七种批量 EI 方法进行比较。当批量大小 q=4时,表 2 展示了各批量 EI 方法所达到的简单遗憾值。表中展示了 30 次运行的平均结果。我们同样使用威尔科逊符号秩检验(Wilson signed rank test)来判断所提出的 ESSI 方法的结果是否显著优于对比方法,并使用“+”、“−”和“≈”分别表示 ESSI 显著更好、显著更差或结果相似。
图 6 展示了在 10 维和 30 维的问题上,各批量 EI 方法的收敛曲线,其中展示了 30 次运行结果的中位数、第一四分位数和第三四分位数。
从实验结果可以看出,在大多数测试问题上,我们所提出的 ESSI 方法能够找到明显优于对比批量 EI 方法的解。从收敛曲线中可以看出,在大多数所示问题上,所提出的 ESSI 方法收敛速度更快,并能找到更优的解。
q-EI 和 Fq-EI 都是通过考虑一批点的整体期望改进来进行选择的。它们的获取函数维度为 d×q,即原始问题维度的 q倍。尽管我们可以使用分解方法来缓解维度灾难问题,但优化这些高维获取函数仍然非常具有挑战性。实验结果表明,与 q-EI 和 Fq-EI 相比,所提出的 ESSI 方法分别在 55 和 51 个问题上表现显著更好。
MSMR 方法通过训练多个高斯过程模型,并利用这些差异模型选择不同的获取样本。实验结果表明,在总共 58 个测试问题中,所提出的 ESSI 方法在其中 54 个问题上的表现优于 MSMR 方法。这表明,从多个子空间中选择样本比从多个高斯过程模型中选择更为高效。
MACE 是一种典型的多目标方法。结果显示,当 q=4时,所提出的 ESSI 方法在 56 个问题上的表现优于 MACE 方法。这表明,从多个子空间中选择获取样本比从帕累托前沿近似中选择更具前景。
最后,PEI、EIMI 和 KB 是三种顺序-批量方法。它们在一个迭代内依次选择获取样本,然后并行评估。结果显示,所提出的 ESSI 方法在这三个方法上分别在 51、48 和 47 个问题上表现显著更好。
综上所述,当使用小批量 q=4时,所提出的 ESSI 方法在大多数测试问题上的表现显著优于各种类型的批量 EI 方法。实验结果可以实证地证明所提出 ESSI 方法在小批量设置下的有效性。
接下来,我们使用中等批量大小 q=16对这些批量 EI 方法进行比较。表 3 展示了对比批量 EI 方法的实验结果,图 7 展示了八类测试问题上的收敛曲线。类似地,我们可以从表中看出,所提出的 ESSI 方法在大多数测试问题上都能找到明显优于其他七种批量 EI 方法的结果。
在总共 58 个测试问题中,所提出的 ESSI 方法在其中 56、51、53、57、52、54 和 50 个问题上相比 q-EI、Fq-EI、MSMR、MACE、PEI、EIMI 和 KB 表现得显著更好。
从收敛曲线可以看出,所提出的 ESSI 方法在大多数对比批量 EI 方法中具有更快的收敛速度。在经过 32 次迭代后,所提出的 ESSI 方法也能够定位出比其他批量 EI 方法更优的解。
从图 7 可以看出,所提出的 ESSI 方法在 30 维问题上的优势略大于在 10 维问题上的优势。其原因可能是 ESSI 方法的平均维度约为原始问题的一半,而优化这样一个低维获取函数通常比那些维度等于或高于原始问题的获取函数更容易。因此,在 30 维问题上降低一半维度所带来的收益比在 10 维问题上更为显著。
总之,当使用中等批量大小 q=16时,所提出的 ESSI 方法在测试问题上表现出非常有竞争力的性能。
最后,我们在大批量设置 q=128的情况下将所提出的 ESSI 方法与各种批量 EI 方法进行比较。实验结果见表 4,收敛曲线如图 8 所示。由于额外的目标函数评估次数固定为 512 次,在 q=128的情况下,批量 EI 方法只需迭代 4 次即可完成整个优化过程。
从表 4 中可以看出,即使在使用大批量的情况下,所提出的 ESSI 方法在测试问题上仍然表现非常出色。在最终优化结果方面,它在大多数测试问题上都优于对比的批量 EI 方法。具体来说,与 q-EI、Fq-EI、MSMR、MACE、PEI、EIMI 和 KB 方法相比,ESSI 分别在 53、46、47、56、46、53 和 48 个问题上表现更优。从图 8 可以看出,在使用大批量时,所提出的 ESSI 方法仍比大多数对比方法具有更快的收敛速度。q=128的实验结果表明,我们所提出的 ESSI 方法在批量大小方面具有非常好的可扩展性。
5. 结论
将贝叶斯优化扩展到并行计算环境是一项既有趣又有意义的任务。在本研究中,我们提出了一种开发批量贝叶斯优化算法的新思路。与现有方法不同,新提出的期望子空间改进(Expected SubSpace Improvement, ESSI)方法尝试在多个不同的子空间中选择多个查询点。在获得一个批次的点之后,我们可以并行地对它们进行评估。
所提出的 ESSI 方法没有额外参数,易于理解且实现简单。通过数值实验表明,无论是在计算成本还是优化效率方面,所提出的 ESSI 方法在与标准贝叶斯优化方法以及七种批量 EI 方法的对比中都展现出非常有竞争力的表现。
然而,我们的工作尚未考虑昂贵约束条件。因此,将该思想扩展到带有昂贵约束的优化问题,可能是未来研究的一个有趣方向。
https://www.arxiv.org/pdf/2411.16206v2
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.