超越单次适应：在无额外代价下预测优化结果以提升鲁棒性收益|算法|模态|复杂度|随机化|云计算费用

分享至

Beyond Any-Shot Adaptation: Predicting Optimization Outcome for Robustness Gains without Extra Pay

超越单次适应：在无额外代价下预测优化结果以提升鲁棒性收益

https://arxiv.org/pdf/2501.11039v1

摘要

基础模型无需从零学习即可快速解决问题，这种理想的适应性得益于其跨任务泛化范式，如预训练、元训练或微调。近期趋势集中在优化过程中对任务数据集的整理，其中任务选择对于适应鲁棒性或采样效率至关重要。尽管取得了一些进展，但选择关键任务批次进行迭代优化通常会耗尽大量任务查询，并需要密集的评估和计算来确保鲁棒适应。本研究强调鲁棒性和学习效率的重要性，尤其是在任务收集或评估成本高昂的情况下。为此，我们提出了一种新颖的主动任务采样框架——模型预测任务采样（MPTS），以建立任务空间与适应风险景观之间的联系，实现鲁棒适应。技术上，MPTS 使用生成模型对任务的分段信息进行建模，并通过后验推断预测适应后的优化结果，即预测任务特定的适应风险值。由此产生的风险学习者分摊了任务鲁棒适应学习范式中昂贵的标注、评估或计算操作。大量实验结果表明，MPTS 可以无缝集成到零样本、少样本和多样本学习范式中，提高适应鲁棒性，同时不增加额外成本。代码将在项目网站上提供。

引言

增强机器学习模型在各种场景中的泛化能力一直是人工智能领域的长期追求。生成式人工智能（GenAI）的兴起为这一问题提供了有希望的解决方案，促进了基础模型的发展。与传统模型不同，后者特定于学习任务且无法充分满足实时响应的需求，例如在线智能推荐或咨询，基础模型在广泛的任务中表现出快速部署的优势，且计算成本更低。

基础模型成功的一个秘诀在于其通过任务分布上的预训练、元训练或微调获得的出色适应能力。以元学习为例，这种范式与人类技能发展有相似之处。也就是说，人类擅长将丰富经验整合成知识库，并将新任务的少量指导快速转化为特定技能。技术上，任务分布和适应学习范式的引入学习将过去经验压缩为先验，并利用提取的知识以零样本、少样本或多样本方式应用于未见过但相关的场景。这种机制得益于对大规模查询任务和大量示例的缓慢学习，并在面对相似任务时避免从零开始学习。

研究动机：目前，已有几项研究致力于提高基础模型的适应能力和理解，例如，神经缩放定律表明，跨任务泛化能力随着模型复杂度、任务分布能力和计算能力的提升而提升。作为少样本学习者，大型语言模型（LLMs）需要收集大量任务数据集以确保泛化。在机器人技术中，一种流行的通用策略是多样化决策环境，例如马尔可夫决策过程（MDPs），以供机器人交互和执行策略优化。因此，训练自适应机器学习模型通常被认为是在任务分布上进行，以覆盖尽可能多的适应场景，并随机重新采样一批任务数据集以进行迭代优化，这被称为任务分段学习。

同时，值得注意的是，适应鲁棒性在开发可靠的基础模型和任务级分布偏移方面正成为一个日益紧迫的考虑因素。一些简单但常用的任务采样策略，例如从任务的均匀分布中随机采样，容易忽略某些风险敏感场景中的适应性能。例如，在训练自动驾驶系统时，交通事故比普通情况更具信息量和重要性。此外，尽管鲁棒适应方面取得了一些进展，但在实践中，对于高质量任务数据集或额外计算开销的需求仍然很大。在LLMs中，幻觉是一个长期存在的挑战，后训练阶段有时依赖于大量的人工评估和精确的人类反馈，例如数百万次交互，这有助于有效对齐。为了实现鲁棒的数据驱动控制，机器人必须与一组MDPs交互以收集大量剧集，但需要保留一部分剧集用于策略搜索，这些剧集的难度经过评分。这些构成了典型鲁棒适应优化管道中的关键步骤，例如表1中的评估-排名-过滤。为了提高鲁棒性或减少任务空间中的采样冗余，这些方法依赖于大量评估或计算来对任务示例进行评分并选择困难的任务。所有这些都引发了在任务鲁棒适应学习过程中对学习效率的担忧，特别是当机器学习者使用大型骨干网络或准确标注成本高昂时。

鉴于任务查询过程中由于任务构建、人工标注或基础模型在任务空间中的耗时评估而产生的一些不可承受的成本，我们深入研究了在这些情况下稳健且高效的采样策略。正如马文·明斯基所暗示的，“在科学中，通过研究看似最少的东西，人们可以学到最多”。同样，我们希望寻求一种任务采样策略，需要更少的学习资源，但保留更多的部署优势，例如在任何样本适应中的鲁棒性。

在没有实际执行动作的情况下获得试错经验。这种内在的认知系统在处理复杂情况时表现出强大的鲁棒性，并且在通过一种隐式的筛选机制发展多样化技能时具有高效性。因此，对适应学习的优化过程进行建模，并同时根据预测结果调整任务采样策略也是合理的。这一观点也反映在神经科学中；前额叶皮层类似于一个元强化学习系统，这意味着适应反馈也与任务查询过程交织在一起。鉴于上述现实需求和神经科学基础，本研究探讨了在贝叶斯深度学习模型指导下设计采样策略的可行性。我们在方法论上提出了关键见解：（i）某些变量，例如适应风险，在分段学习过程中可以被预测到一定程度的粒度，这对于指导任务采样是有信息价值的；（ii）对任务特定的适应风险进行生成建模，能够通过量化不确定性捕捉风险景观，从而帮助将适应学习过程与鲁棒性原则对齐。

为此，我们开发了一个面向任务分段学习的新框架，即模型预测任务采样（MPTS），以实现主动任务采样，并将其纳入任务鲁棒风险最小化中。如图1a所示，我们的策略利用顺序适应风险信息构建了一个轻量级的替代模型，称为风险学习器，它在任务空间中提供适应风险的预见，并在自适应机器学习器、任务采样器和优化器之间建立联系。具体来说，我们将主动选择任务批次视为从过去经验和任务空间中进行规划，这引出了风险学习器的概念，它是MPTS中不可或缺的组成部分。一些鲁棒任务方法的关键在于根据评估的适应性能评估批次中任务的难度。图1b揭示了风险学习器在为自适应机器学习器提供任意任务集合的昂贵评估过程中的分摊作用。图1c显示风险学习器采用编码器-解码器结构，并通过后验推断参与适应风险生成。图1d中的获取函数将最坏情况下的适应性能和预测不确定性纳入选择标准，以对任务标识符批次进行评分，用于筛选目的。

MPTS从主动推断理论中汲取灵感，该理论涉及感知、行动和学习阶段，以最小化对环境的不确定性。在这里，任务分段学习可以通过图2b-c中的风险生成模型进行概念化描述，而任务批次选择可以被视为在线规划，以产生鲁棒的机器学习器。技术上，MPTS指定或推断任务分布中的标识符（见图2a中的一些实例），使用风险学习器持续评估任意样本的适应风险，并在更大的标识符批次中运行带有不确定性量化的获取函数，以选择用于精确优化的任务批次。对于风险学习器的实际优化，我们应用流式变分推断（VI）针对风险生成模型，并推导出任务特定适应风险的近似函数后验。总体而言，我们提出的MPTS在任务分段学习中具有以下优势：

1. 适应鲁棒性：MPTS提出的优化流程可以在某些最坏情况下提升机器学习器的适应鲁棒性，即使在严重任务分布偏移（如亚群体偏移和领域泛化）的情况下也能提高鲁棒性；

2. 学习效率：由于设计的轻量级风险学习器用于分摊优化和评估中的昂贵部分，MPTS可以在某些情况下减少计算开销，并在任务空间中平衡利用和探索；

3. 框架通用性：利用分段适应风险信息的历史，MPTS可以大致评估机器学习器对某些任务的适应难度，并无缝集成到鲁棒的零样本、少样本和多样本适应学习范式中。

本研究在任意样本适应的不同任务分段学习场景中进行了广泛的实验，包括少样本正弦回归、少样本图像分类（多模态基础模型）、元强化学习、机器人领域随机化以及多模态基础模型的提示调整。证据表明，将MPTS纳入任意样本适应学习可以在大多数场景中显著提升适应鲁棒性。重要的是，风险学习器使MPTS能够大致判断任务之间的相对难度，并避免从计算密集型优化步骤或复杂评估中获取真实值。在某些情况下，与现有的最先进的鲁棒适应方法相比，MPTS以更少的学习资源加速了学习过程。

2 适应性与鲁棒性

2.2 风险最小化原则

任务采样策略也与风险最小化原则密切相关。因此，我们重新审视了主要来自鲁棒优化的常见原则。

期望/经验风险最小化（ERM）：在固定任务分布的情况下，该原则遵循统计学习理论，最小化任务空间上适应风险的期望值。因此，我们可以得到：

其中表示机器学习器在任务空间中抽象可迁移知识的参数。其实施通常涉及在任务上放置均匀分布，并使用随机采样器抽取任务批次进行优化。

群体分布鲁棒风险最小化（GDRM）：这一原则旨在应对任务分布偏移时提升鲁棒性，并已在改进基础模型方面显示出积极效果。其机制是构建任务批次上的不确定性集合，并执行最坏情况优化。这导致优化目标如下：

其中，表示机器学习器在任务空间中提取可迁移知识的参数。其具体实现通常是在任务上施加均匀分布，并通过随机采样器抽取任务批次进行优化。

群体分布鲁棒风险最小化（GDRM）。这一原则旨在应对任务分布偏移时提升鲁棒性，并已在改进基础模型方面显示出积极效果。其机制是在任务批次上构建一系列不确定性集合，并执行最坏情况优化。这导致优化目标如下：

其中，G 表示不确定性集合的组，pg(τ) 是任务批次上的概率测度。方程 (2) 中的操作有利于在优化中选择最差的组。

分布鲁棒风险最小化（DRM）。我们保留了任务鲁棒性工作的符号（如文献15和39），将尾部任务风险最小化称为代表性 DRM。在不改变原始任务分布的情况下，它旨在提高对具有尾部风险任务的适应性鲁棒性。由于尾部任务分布侧重于任务的子集且依赖于机器学习器，因此没有明确的形式。然而，我们用 pα(τ;θ) 来表示（1 - α）比例的最坏情况，以便于公式化。因此，优化目标被推导为 CVaRα。

此外，请注意，当α趋近于1时，问题退化为最坏情况风险最小化。正如文献15、39和40所揭示的，GDRM中的评估-排序-筛选（Evaluate-Rank-Filter）或重新加权机制被广泛用于近似优化。例如，在任务鲁棒元学习场景中，DR-MAML15的先决步骤是在内循环中对所有候选任务执行梯度更新，然后根据评估结果筛选尾部任务子集进行元优化。

3 结果

本节报告了在任意样本适应中对优化结果进行预测的发现，展示了实验评估，并分析了MPTS对任务小节学习的影响。在详细阐述实验设置之前，我们重新审视适应学习范式中除鲁棒性之外的关键实际挑战，并概述了支撑MPTS的工作流程。

优化结果预测和MPTS引导的风险最小化。鉴于之前指定的任务小节学习设置和符号，我们简单描述任意样本适应中的优化过程：

请注意，几乎所有先前的任务鲁棒性适应工作都未能挖掘上述优化结果中的有用信息；我们的发现是，累积的任务样本和适应性能作为风险事件，可以提供有助于指导从后验推断中进行任务采样的先验信息

实用学习效率与鲁棒性 在强化学习中，时间和样本成本被广泛认可，即策略评估需要与环境进行大量交互，而基于马尔可夫决策过程（MDP）分布的策略优化使这一问题更加严重。在N-way K-shot图像分类中，我们可以从任意组合的N个类别中指定一个K-shot分类任务；随后，任务空间复杂度O(CN^M)随着图像数据集上的类别数量M增长。当基础模型的梯度更新在大批次大小下消耗大量计算能力和内存时，挑战随之而来。类似的情况也出现在对基础模型的鲁棒微调中。我们建议读者参考补充说明部分F/G，以获取实验设置和实现的所有详细信息。

任意样本适应的基准测试 实验设计既考虑了既定基准的典型性，也考虑了实际挑战。评估场景涵盖了各种适应方式的下游任务，某些实验纳入了以CLIP等多模态基础模型为骨干的模型，以评估MPTS。这些实验主要考察少样本适应，包括：(1) K-shot正弦波回归；(2) 带有基于提示的少样本适应的N-way K-shot图像分类；(3) 元强化学习。此外，MPTS还探索了诸如(4) 机器人领域随机化的零样本适应应用情景，以及(5) 多模态基础模型针对图像分类的参数高效微调。

骨干网络与任务鲁棒性基线 请注意，本研究的主要关注点在于提升适应鲁棒性；所使用的基线比较方法与前面提到的风险最小化原则一致。尽管这些原则以及我们的MPTS不依赖于具体的零样本、少样本或多样本学习方法，但我们在检验中采用了代表性或最先进的方法作为默认骨干网络。

在正弦波回归和元强化学习中，我们采用MAML作为少样本适应的骨干算法。在N-way K-shot图像分类中，CLIP已经在零样本性能方面取得了显著的优越性，我们利用其扩展版本MaPLe进行基于提示的少样本适应。在机器人领域随机化的零样本适应中，我们选择TD3作为基础策略优化算法，因为它具有稳定的性能。在多样本适应中，我们仍然使用MaPLe进行图像分类的提示调整。

为了实现基线，我们将表1中列出的ERM、DRM、GDRM和MPTS（我们的方法）整合到针对特定任务定制的骨干方法中。在适应鲁棒性方面，我们报告了跨验证任务集或测试任务数据集的CVaRα，其中α={0.9, 0.7, 0.5}，并且也包括了一些分布外（OOD）的结果。我们还从其他效率指标（如任务效率、计算复杂度和内存使用）方面，在不同场景中评估这些方法。为了公平比较，我们为所有基线保持完全相同的任务或示例批次进行优化，这排除了评估后修剪的任务。除非有特别说明，ERM和GDRM的默认任务批次大小为B，而DRM的为B=2B，并且过滤一半以实现稳定的优化。

3.1 MPTS在K-shot正弦函数回归中的作用演示

风险学习器通过伪评估的帮助加速了学习过程，并提高了全面适应性能。图3a显示，MPTS实现了更快的收敛，在1.5万次迭代后完成优化，而ERM和GDRM需要2万次迭代。这种加速得益于不确定性引导的最坏情况获取策略。DRM每轮迭代处理2B个任务，并剔除其中最简单的半部分，这使得其计算开销比ERM高出1.7倍（见图3g）。相比之下，MPTS中风险学习器的参与仅导致运行时间增加了0.14倍，相对于ERM来说是一个微小的增加。为了直观地理解MPTS中的主动任务采样，我们在图3h中可视化了跨越任务空间的预测适应风险值以及从候选标识符中选择的任务子集。伪批次中选择的任务标识符倾向于选择偏差较大的区域，尤其是大多数集中在高风险区域。

在元测试中，图3b确认了MPTS和DRM在平均性能和鲁棒性方面的优越性，它们相对于GDRM和ERM的优势随着置信水平α的增加而变得更加显著。正如文献中所建立的，使用DRM通常会牺牲任务和计算效率以增强机器学习器的鲁棒性，通常需要对任务样本进行密集的评估和剪枝。对于所使用的MAML骨干网络，DRM中的Rank-Filter操作需要在内循环中进行梯度更新以进行适应性评估，而MPTS中的风险预测模块在元训练期间隐式地绕过了这样的计算。

3.2 MPTS在少样本适应中的鲁棒性和学习效率优势

基于提示的N-way K-shot图像分类 我们使用多模态基础模型检验了5-way 1-shot图像分类的性能。六个元训练数据集分别使用ImageNet-CG52、ImageNet-CI52、ImageNet-CS52、ImageNet-A53、ImageNet-S54和ImageNet-R55以标准方式构建。在多模态信号的任务中，明确的τ值无法直接获取；然而，可以通过使用一个小的参考模型来近似表示标识符。具体来说，我们利用CLIP的文本编码器对类别名称进行标记化，通过连接来自数据集的K个类别文本的标记化结果来构建一个隐式标识符τ，使得。

在元训练期间，图4e量化了在大型图像数据集上的资源消耗，比较了不同方法之间的相对计算时间和内存使用。与总成本相比，MPTS中优化风险学习器带来的额外资源成本可以忽略不计。DRM相对于ERM需要相对1.3倍的计算时间和1.6倍的内存消耗，因为每轮迭代中会向模型输入2B个任务以进行评估和过滤其中一半。

在元测试中，图4a-d和表5显示，MPTS在六个图像数据集上实现了卓越的平均准确率。就鲁棒性而言，图4中的测试任务评估表明，MPTS和DRM都能全面提高CVaR0.5、CVaR0.7和CVaR0.9的值。对于一种固定的方法，其与其他方法的性能比较在不同的CVaR和平均准确率之间表现出稳定的模式。所有鲁棒优化方法在某种程度上都比ERM表现出更好的鲁棒性。其中，MPTS和DRM领先于所有评估方法，尽管后者需要更多的学习资源来保证适应的鲁棒性。

元强化学习 我们首先分析元训练结果。如图2a所示，任务标识符具有特定的物理意义，并且对风险学习器的构建是明确的。在图5a中，除了ReacherPos之外的所有基准测试中，MPTS达到了最高的CVaR0.9验证回报，其次是DRM和GDRM。ERM在所有基准测试中都大幅落后于MPTS，这是一致的。就计算和样本效率而言，由于在元梯度更新后需要额外的样本密集型策略评估来过滤任务，DRM在Walker2dVel上大约需要1.5倍的计算时间，而MPTS则没有这个问题（见图5d）。在图5b中，DRM在HalfCheetahMassVel、HalfCheetahVel和Walker2dVel上的平均回报比ERM牺牲得更多。尽管MPTS可以被视为DRM的替代品，但由于采样随机性的影响，MPTS在HalfCheetahMassVel和Walker2dVel上的平均性能与ERM相当。GDRM在整个评估中表现中等（见图5a-b）。像DRM这样的任务鲁棒优化原则大多在平均性能和CVaR0.9性能之间取得了平衡；然而，DRM和MPTS在ReacherPos上同时获得了平均性能和CVaR0.9性能的提升。这表明最坏任务选择的效果可能因环境而异。图5c中跟踪的证明了风险学习器在区分MDP难度方面的强大能力，在所有环境的迭代过程中几乎都保持在0.5以上。ReacherPos上的趋势与其他环境不同，并且没有随着迭代而下降。图5e-f中的元测试结果分析揭示了不同CVaR值之间的性能差异，以及大多数鲁棒方法相对于ERM的一致性鲁棒性提升，这与图5a-b中显示的学习曲线一致。随着α值的增加，MPTS的性能优势显著放大。在极端的最坏情况CVaR0.9中，MPTS在所有基准测试中比ERM高出超过20%的回报。在不同环境中的平均元测试性能没有得出一致的结论。Walker2dMassVel和Walker2dVel显示出方法之间的微小差异（见图5d），而在HalfCheetahMassVel上，尽管方差略有增加，MPTS实现了与ERM相当的回报。HalfCheetah对GDRM和ERM表现出微弱的优势，而ReacherPos则更倾向于MPTS和DRM，且方差降低。重要的是，作为DRM代理的MPTS本质上保持了相当的平均测试性能。

总体而言，MPTS在大多数场景中获得了显著的适应鲁棒性优势，平均性能适中，但比DRM更具计算和任务效率。

3.3 MPTS在零样本连续控制中仍能实现适应性鲁棒性

3.4 MPTS还保留了强劲的PEFT的潜力

在微调场景中，我们可以将数据集中的每个标记样本视为一个任务。一种通用的实现方式可以在算法6/7中找到。这里，提示调整（Prompt Tuning）作为一种新兴的PEFT（Prompt-based Efficient Fine-Tuning）方法，用于学习提示标记的嵌入，以便在测试场景中使用多样本示例对预训练模型进行适应。我们仍然采用MaPLe来调整CLIP模型在ImageNet56调整数据集上的表现，并在ImageNet测试数据集上进行评估。为了检验提示调整模型在OOD（Out-of-Distribution）数据集上的鲁棒性，我们考虑了领域泛化设置，并在四个具有不同领域偏移的数据集上进行测试，包括ImageNet-A53、ImageNet-S54、ImageNet-R55和ImageNet-V57。

图7a-d表明，MPTS在ID（In-Distribution）和OOD测试数据集的平均性能和不同CVaR值上均能一致地优于其他基线方法。我们的风险最小化策略在CVaR0.9、CVaR0.7和CVaR0.5指标上分别比ERM（Empirical Risk Minimization）提高了0.82%-3.11%的准确率。总体而言，除了ImageNet-A之外的4/5数据集中，DRM（Domain Randomization with Meta-Learning）在CVaR准确率上几乎达到SOTA（State-of-the-Art），仅次于MPTS，但在平均准确率上仅与ERM相当。GDRM（Gradient-based Domain Randomization with Meta-Learning）的相对性能随α水平变化，并与ERM相比显示出微小的提升。与少样本图像分类的情况类似，DRM为了特定的鲁棒性提升而牺牲了计算和内存效率。尽管MPTS与DRM共享类似的优化目标，但其模型预测模块和对大批量任务的模拟使MPTS在任务空间中获得了更多的探索奖励，且计算成本可以忽略不计，从而实现了一个更优的鲁棒机器学习模型。

4 讨论

能够利用任意数量的样本快速适应新场景已被确认为人工通用智能中不可或缺的能力，而通过对任务分布进行小节式训练机器学习器是一种常见的方法。尽管神经网络的扩展规律强调了任务空间复杂性与机器学习器跨任务泛化能力之间的正相关性，但现实世界的约束，如有限的数据、计算预算和安全性问题，促使我们更加关注学习效率和适应性鲁棒性。本研究深入探讨了典型任务鲁棒优化流程，通过生成建模洞察小节学习，并提出了MPTS作为任务采样的多功能模块。

主要发现。首先，本研究报告了一个重要的发现，即有可能以粗糙的粒度预测优化结果，以在线评分机器学习器对任何任务的适应难度。基于此，MPTS能够有效地摊销鲁棒适应学习流程中计算密集和数据密集的组件。广泛的实验评估表明，MPTS：（i）能够近似实现任意样本适应性评估以用于鲁棒性目的，（ii）显著增强了对多样化任务（包括玩具回归、图像分类和连续控制）的适应性鲁棒性，以及（iii）在特定场景下降低了任务样本复杂性，同时促进了任务空间中的探索。

未来扩展。本研究的主要贡献是一个新颖的任务采样框架，用于在不牺牲学习效率的情况下促进鲁棒性。大规模的实验结果展示了MPTS在替代鲁棒适应中昂贵部分的潜力，这适用于开发基础模型的大多数阶段。然而，这依赖于构建的预测模型将任务标识符顺序映射到适应性风险值，未来需要更多努力来寻找更先进的风险学习器，以处理具有多模态信号的任务。

5 方法

与现实需求一致，本研究专注于在确保学习效率的同时实现鲁棒适应，例如避免在注释或评估中进行非信息性的任务查询步骤，并消除不必要的计算以实现现实世界中的适应。这一目标促成了MPTS的诞生。

如前所述，整个框架对特定任务的小节学习方法是不可知的，因此我们省略了任意样本学习骨干的细节。正如图1a所示，优化过程中涉及几个角色：（1）自适应机器学习器，例如基础模型或通用策略，在某些优化器下以任意样本的方式学习如何学习；（2）风险学习器作为评估者，评估并预测任务特定的适应风险；（3）任务采样器作为行动者，负责筛选下一轮迭代的任务批次。这些组件在收敛之前以循环方式运行。

技术上，本研究将任务小节学习重新构建为序列生成，并开发了MPTS作为任务采样策略以平衡探索和利用。为了弥合理论与实践之间的差距，我们首先引入了一种可行的优化方法，以实现适应风险的功能后验推断。然后，我们设计了由捕捉到的适应风险景观所指导的获取函数。最后，附上一些关于优化流程的解释，以结束方法部分。

5.1 风险函数的生成建模与后验推断

作为任务小节训练的前提，任务查询策略与优化过程以及机器学习器的泛化能力密切相关。因此，我们通过风险景观的视角采用采样策略，并更加关注以作为学习数据集来建模风险随机函数。为了描述在批次优化过程中的小节适应风险，我们引入了潜在变量z以总结风险历史信息，并在公式（6）中提出了一个多功能的深度生成模型。

5.2任务抽样策略设计

在涉及鲁棒任务小节学习时，一些常用的策略（如Evaluate-Rank-Filter）会考虑任务批次中的风险信息，例如，对随机采样任务的适应难度进行评分，然后筛选子集用于优化。然而，挑战仍然存在：（i）这会带来额外的计算开销，尤其是在模型复杂度极高时，这可能是一个问题；（ii）在数据驱动的控制中，例如深度强化学习，评估可能非常昂贵；（iii）任务批次中的有限结果会削弱任务空间中的探索。

鉴于此，本研究假设任务的小节优化过程是可预测的，并构建了风险学习器以克服鲁棒优化过程中遇到的学习资源限制。从生成模型中产生的随机风险函数可用于顺序查询任务批次。其合理性在于，经过迭代学习的风险学习器存储了丰富的历史任务风险信息，而特定规则可以被纳入获取函数中以实现有效采样。

风险学习器的一个迷人用途是支持MPTS，以实现对机器学习器在任意任务数据集上的适应性能的伪评估，从而替代任何评估场景中的精确参与。换句话说，MPTS不需要额外的手动或运行时昂贵的评估（例如在机器人技术或大型模型中）或与现实世界的交互来修改任务采样结果。

在整个任务空间中评估适应性能。之前构建的生成模型和在公式（8）/（10）中估计的功能后验分布作为工具用于主动选择任务批次。具体来说，以功能后验分布形式的预测分布可以描述为：

5.3 顺序优化机器学习器

多样本适应中的机器学习器更新：在这里，我们将微调预训练模型以适应下游任务作为一种实现方式。在这种情况下，每个数据点 [x, y] 可以被视为一个任务，其嵌入 (T) 或 (x) 可以作为任务标识符。因此，模型的更新规则可以表示为：

5.4 总体算法与解释

鉴于MPTS可以融入任意样本适应方法以提升鲁棒性，我们将MPTS的一般形式写为算法1。

任意样本适应的实现流程。将所有要素和优化方案整合在一起，我们可以提供一些示例来展示实现细节。我们仍然选取了一些典型的适应方法，并描述了零样本、少样本和多样本场景中的流程，从而形成了算法2-7。由于算法2/4/6中的第一次迭代不涉及主动采样，因此没有最新的历史记录，任务批次遵循标准的随机采样设置。

与顺序决策和控制的联系

直观上，MPTS的机制与模型预测控制（MPC）相似，当将任务采样视为一个最优规划问题时。在这种情况下，小节适应风险值为MPTS定义了一个底层动态系统，仅通过模拟中的一个未来时间步来预测查询任务批次的影响，而反馈作为精确的适应风险信息，进一步帮助改进小节风险预测系统。此外，从顺序决策的角度来看，我们可以从强化学习中的演员-评论家框架来解释MPTS的优化流程。具体而言，风险学习器作为评论家，在给定固定的机器学习器的情况下，预测任务 τ 中的适应性能。相应地，演员则根据获取函数选择任务批次，并执行机器学习器的优化。这两个角色在MPTS流程中相互交织，以实现鲁棒且任务高效的适应。

原文链接：https://arxiv.org/pdf/2501.11039v1

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.