面向高维优化的记忆引导信任域贝叶斯优化（MG-TuRBO）|算法|自适应|新论文|turbo

分享至

面向高维优化的记忆引导信任域贝叶斯优化（MG-TuRBO）

Memory-Guided Trust-Region Bayesian Optimization (MG-TuRBO) for High Dimensions

https://arxiv.org/pdf/2604.08569

摘要

交通仿真与数字孪生标定是一个在有限仿真预算下具有挑战性的优化问题。每次试验都需要一次成本高昂的仿真运行，且校准输入与模型误差之间的关系通常是非凸且含噪的。随着校准参数数量的增加，该问题变得更加困难。我们将一种常用的自动标定方法——遗传算法（GA），与贝叶斯优化方法（BOMs）进行了比较：包括经典贝叶斯优化（BO）、信任域贝叶斯优化（TuRBO）、Multi-TuRBO，以及本文提出的记忆引导型TuRBO（MG-TuRBO）方法。我们在两个具有14和84个决策变量的真实交通仿真标定问题上对比了性能，分别代表低维与高维（14D和84D）设置。针对BOMs，我们研究了两种采集策略：汤普森采样与一种新颖的自适应策略。我们采用最终标定质量、收敛行为以及多次运行间的一致性来评估性能。结果表明，在低维问题中，BOMs达到良好标定目标的速度远快于GA。MG-TuRBO在我们的14D设置中表现相当，但在84D问题中展现出显著优势，尤其是在与我们的自适应策略结合时。我们的结果表明，MG-TuRBO特别适用于高维交通仿真标定，并可能普遍适用于一般的高维问题。

I. 引言

随着传感技术、网联基础设施和数据管线的持续改进，交通仿真模型在交通运行、规划与安全分析中变得日益重要[1]。其价值取决于模型反映现实的程度，即针对实际观测交通条件进行校准的匹配程度。若未知交通流入量、转向比或行为相关参数等关键输入未得到妥善校准，数字孪生将产生存在偏差的网络状态与不可靠的决策。在此，我们将交通仿真校准视为一项计算成本高昂的黑盒优化问题展开研究。

交通微观仿真校准之所以困难，是因为其目标函数具有随机性、非凸性，且评估成本高昂。在实践中，校准通常采用适应度指标，通过其与观测交通流量及速度的吻合程度来进行评估[2]。既往研究与实践指南已为主流仿真平台确立了校准工作流程，同时也表明：随着网络规模、拥堵程度及参数维度的增加，校准难度亦随之上升[3]。有限的仿真预算使得搜索效率成为一项关键挑战。

元启发式方法在交通仿真校准中仍被广泛使用，因其在梯度不可获取时具备灵活性、鲁棒性与实用性[4], [5]。其中，遗传算法（GA）尤为常见，并在多种校准场景中展现出实际应用价值[4]。然而，由于这些方法未对响应面进行显式建模，通常需要大量的仿真器评估调用。这促使学界针对此类高成本校准问题，对样本效率更高的方法产生兴趣。贝叶斯优化方法（BOMs）在此类设定中颇具吸引力，因其利用高斯过程（GP）结合采集函数，引导评估向搜索空间内更具潜力的区域推进[6]。BOMs在交通仿真校准领域亦已展现出良好潜力[7]。

然而，随着维度升高，标准的全局贝叶斯优化（BO）往往效果下降，原因在于在大范围搜索空间内构建代理模型与优化采集函数愈发困难[8]。信任域贝叶斯优化（TuRBO）通过将搜索限制于局部信任域内提升了算法的可扩展性；Multi-TuRBO则通过并行运行多个信任域扩展了这一思想，以增强搜索多样性[9]。此类方法采用汤普森采样（基于后验样本的候选点选择）作为采集策略[10]。它们非常契合交通仿真校准的场景，因为该场景下的目标函数具有噪声与多峰特性，且评估预算有限。尽管如此，在信任域收缩（collapse）后，重启决策仍可能使搜索返回至存在相似局部极小值的区域，从而在高维设定下降低搜索效率。

我们提出了记忆引导型TuRBO（MG-TuRBO）与一种自适应采集策略，两者以互补的方式对TuRBO进行了扩展。MG-TuRBO利用评估历史，将归一化设计空间中的采样点聚类为候选吸引盆（basins），基于观测目标值计算各吸引盆的质量与访问频次统计量，并据此从有潜力但探索不足的吸引盆中选取重启中心，同时剔除明显较弱的吸引盆。这种具备吸引盆感知的重启策略，有效减少了信任域收缩后对相似局部最优值的重复发现。我们的自适应策略采用改进量与预测不确定性随时间动态变化的加权组合形式。该策略在搜索过程中实现了对探索-利用权衡的显式控制。

II. 作为黑盒优化问题的交通仿真校准

A. 问题表述

我们将交通仿真校准表述为一个计算代价高昂的黑盒优化问题。校准质量是通过使用 Geoffrey E. Havers (GEH) 统计量比较仿真交通流量与观测流量来评估的，这是一种广泛使用的交通模型校准指标 [11]。令表示观测计数，表示在仿真器实现 ω （例如给定的随机种子）下，对应于候选参数向量 x 的仿真计数。对于每个目标，GEH 的计算公式如下：

在每次迭代中，我们在归一化搜索空间中使用有限 Sobol 候选集 [14] 来近似公式 (4)，在该集合上评估采集策略，并选择得分最高的候选点进行评估。在进行 GP 拟合之前，校准参数和目标值被标准化为均值 0、方差 1，以提高数值稳定性。

D. 记忆引导型 TuRBO (Memory-Guided TuRBO)

MG-TuRBO 通过仅修改重启步骤来扩展 Multi-TuRBO。在正常搜索期间，每个信任域遵循与 Multi-TuRBO 相同的基于局部采集的更新和信任域自适应规则。区别出现在当信任域收缩至其最小尺寸时。MG-TuRBO 并非从随机位置重启，而是利用历史评估来识别有希望的吸引盆，并在那些既具有高质量又探索不足的区域进行重启。算法 1 总结了该过程。

即在该吸引盆中发现的最佳目标函数值，以及吸引盆规模 n k = ∣ B k ∣ ，用于统计当前有多少个已评估点属于吸引盆 k 。

当信任域收缩时，MG-TuRBO 首先剔除明显较差的吸引盆。它仅保留满足以下条件的吸引盆：

因此，公式 (7) 和 (10) 定义了算法 1 中的记忆引导重启逻辑。

与 TuRBO 和 Multi-TuRBO 相比，MG-TuRBO 增加了三个基于记忆的组件：周期性吸引盆发现（periodic basin discovery）、质量感知吸引盆过滤（quality-aware basin filtering）以及规模感知重启选择（population-aware restart selection）。Multi-TuRBO 通过多个信任域提高了多样性，但仍然采用随机重启。相比之下，MG-TuRBO 利用累积的搜索历史来引导重启，使其朝向那些有希望但尚未被大量采样的区域。该设计旨在减少对相似局部最优值的重复发现，并提高多模态高维校准问题中的预算效率。

E. 采集策略

本研究中的贝叶斯优化方法（BOMs）使用两种采集策略：自适应策略和汤普森采样（Thompson sampling）。

F. 实验设计概览

对于 14D Chattanooga 问题，总预算为 B = 100 次评估。所有方法也都从相同的 Sobol 初始 20 次运行开始，用于代理模型初始化。我们使用不同的随机种子将每种算法运行 10 次，以考察多次运行间的一致性。对于 84D Nashville 问题，总预算为 B = 1500 次评估，其中包含用于代理模型初始化的 200 次初始运行。由于计算成本较高，我们对每种方法仅运行一次。

IV. 结果

A. 14 维校准优化

图 2 展示了 14D 网络优化阶段的收敛情况，报告为 10 次运行中的中位数最佳观测 GEH 及四分位距（IQR）。共享的初始化阶段（评估 1-20）被排除，以突出引导优化期间的差异。GA 显示出初始下降，在评估 40 时达到约 3.4，然后继续缓慢改进，在评估 50-60 时达到接近 3.1-3.2 的平台期，此后改进极小。所有 BOMs 均大幅优于 GA。标准 BO 稳步提升但仍然受限，在评估 100 时达到 1.28（自适应）和 1.37（汤普森）的中位数 GEH。

TuRBO 方法收敛更快，并以明显更低的 GEH 值结束。在所有方法中，采用汤普森采样的 TuRBO 表现出最强的性能，在评估 100 时达到 1.01 的中位数 GEH，且具有最紧致的方差，表明跨运行的一致性。采用汤普森采样的 Multi-TuRBO 以 1.05 的中位数排名第二，随后是采用汤普森采样的 MG-TuRBO，为 1.06。自适应变体表现稍差：TuRBO（自适应）达到中位数 1.11，MG-TuRBO（自适应）达到 1.13，Multi-TuRBO（自适应）达到 1.16。在这个 14D 问题中，MG-TuRBO 的多引导策略（原文为 many-guide，疑为 memory-guided 笔误）并未显示出相对于更简单的信任域方法的明显优势。自适应采集使 BO 和 Multi-TuRBO 在早期获得更快的进展，特别是在评估 30 到 50 之间。然而，对于 TuRBO，汤普森采样实现了最佳的最终性能。对于 MG-TuRBO，自适应策略给出了比汤普森采样更低且更稳定的最终中位数，后者在多次运行中显示出较高的变异性。采集策略以依赖于方法的方式影响性能。对于所有信任域方法，汤普森采样优于自适应策略：TuRBO 提升了 9%，Multi-TuRBO 提升了 9%，MG-TuRBO 提升了 6%。这种一致的模式表明，汤普森采样的激进利用（exploitation）在 14D 下与信任域框架有效地结合。相反，标准 BO 表现出相反的行为：自适应策略明显优于汤普森采样 7%，表明全局采集函数受益于自适应策略平衡的探索 - 利用权衡。

图 3 展示了在汤普森采样下评估点的主成分分析（PCA）投影。前两个主成分解释了总方差的 32.5%（PC1：20.9%，PC2：11.6%）。来自 10 次运行的所有评估点被投影到一个共享的 PCA 空间中。图 3 和图 2 具有一致的结果。GA 将评估广泛散布在可行区域内，但在高质量解附近表现出很少的集中。标准 BO 形成几个主要簇，表明部分集中但局部优化较弱。TuRBO 产生紧密、密集的簇，与信任域内的集中局部搜索一致。Multi-TuRBO 形成几个截然不同的簇，反映跨多个信任域的并行探索。MG-TuRBO 显示出类似结构的聚类，但在区域之间有更明显的移动。在 14D 案例中，这种附加的结构并未转化为相对于 TuRBO 的明显性能提升。图 4 总结了所有方法在评估 100 时的最终最佳 GEH。

图 4 确认采用汤普森采样的 TuRBO 是最强的 14D 方法，中位数 GEH 为 1.01，且在所有方法中方差最低。采用汤普森采样的 Multi-TuRBO 以 1.06 的中位数排名第二，随后是采用汤普森采样的 MG-TuRBO，为 1.08。对于 MG-TuRBO，汤普森采样也以 4% 的优势优于自适应策略，且一致性相当。自适应变体显示出始终较高的中位数和较宽的分布。BO 在 BOMs 中具有最高的中位数，分别为 1.29（自适应）和 1.38（汤普森），具有更宽的变异性，但所有运行仍低于 1.7。

B. 84 维校准优化

84D Nashville 走廊是一个比 14D Chattanooga 案例困难得多的校准问题。由于搜索空间更大，BOMs 在引导优化开始之前使用 200 个初始样本。图 5 在优化阶段（评估 201+）比较了采用汤普森采样（Thompson Sampling）和自适应（Adaptive）采集的方法，以一次具有代表性的单次运行为例。在这个更高维度的设置中，方法的相对排名发生了明显变化。采用自适应采集的 MG-TuRBO 表现最佳，在评估 1500 时达到约 3.1 的最终 GEH。

采用自适应采集的 TuRBO 排名第二，约为 3.2，而采用汤普森采样的 TuRBO 达到 3.6。Multi-TuRBO 在两种采集策略下表现中等，在评估 1500 时达到约 3.6–3.7。这些信任域方法均大幅优于标准 BO 和 GA。标准 BO 在两种采集策略下，初始化后的进展都很有限。GA 收敛到约 4.8，在这个高维单次运行比较中表现优于标准 BO——尽管两者都远逊于信任域方法。信任域方法与非信任域方法之间巨大的性能差距，强调了在 84D 中局部化搜索的关键重要性。MG-TuRBO 从自适应采集中获得了最明显的收益（3.1 对比汤普森采样的 3.5），而 TuRBO 也偏好自适应策略（3.2 对比 3.6）。其他方法对采集策略表现出很少的敏感性。这种模式表明，自适应采集特别有利于在高维空间中采用激进的多区域探索策略的方法。

图 6 通过可视化所有三种信任域方法在具有代表性的 84D 运行中使用自适应采集的信任域行为，解释了这些性能差异。TuRBO 有 20 次重启，发生在信任域收缩且没有足够改进之后——这表明其持续陷入局部吸引盆（local basins）。由于只有一个活跃的信任域，TuRBO 在重启前将许多评估用于局部优化。这证明在广阔的 84D 搜索空间中是低效的。Multi-TuRBO 通过并行维护多个信任域，将重启频率显著降低至 4 次主要重启事件。活跃区域（以不同颜色显示）同时探索空间的不同部分，与 TuRBO 的顺序方法相比提高了搜索效率。然而，如果初始区域放置次优，Multi-TuRBO 仍可能将大量预算用于优化中等有希望的区域。MG-TuRBO 的重启次数最多（21 次）。这些并不表示失败，而是发挥着根本性的战略作用。MG-TuRBO 有意为每个局部区域分配较小的预算，在提取足够的梯度信息后主动转移。然后，它使用更新的全局代理模型来选择下一个有希望的区域进行局部优化。这种系统的快速循环允许 MG-TuRBO 在 84D 空间中采样更多的吸引盆，而不是过度承诺于任何单一区域，最终实现了最佳性能。

总体而言，84D 的结果与 14D 案例有根本的不同。在 14D 中，使用 TuRBO（汤普森采样）的聚焦单区域搜索表现最佳。在 84D 中，使用 MG-TuRBO（自适应策略）的更广泛的多吸引盆探索取得了优越的性能，表明维度缩放从根本上改变了最优搜索策略。

V. 结论

我们在两个真实问题上比较了用于交通仿真校准的优化方法：14D Chattanooga 网络和 84D Nashville 网络。结果表明，算法性能取决于问题维度。在 14D 中，采用汤普森采样的 TuRBO 表现最佳，取得了最低且最一致的 GEH 值。在这种较低维度的设定下，聚焦的单一信任域已足够，而更复杂的多区域策略带来的收益有限。在 84D 中，采用自适应采集策略的 MG-TuRBO 表现最佳，Multi-TuRBO 也展现出强劲的性能。在这种更高维度的设定下，跨多个区域的更广泛探索变得更为重要，而在相同预算下，单区域 TuRBO、标准 BO 和 GA 的效果则相对较弱。总体而言，结果表明低维问题可通过 TuRBO 等较简单的单区域方法得到良好处理，而高维问题则受益于更广泛的多区域搜索策略，其中 MG-TuRBO 展现出最强的性能。

原文链接：https://arxiv.org/pdf/2604.08569

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.