卡内基梅隆大学突破：小数据引导优化大模型预训练方向|二阶|定理|微分|新论文

分享至

这项由卡内基梅隆大学主导的研究发表于2026年1月的arXiv预印本平台，论文编号为arXiv:2601.22108v1，为AI预训练领域带来了全新思路。感兴趣的读者可以通过该编号查询完整论文。

想象一下，你正在教一个非常聪明但经验不足的学生。传统的教学方式就像让这个学生独自啃完整个图书馆的书籍，希望他能自己领悟出你想要他掌握的知识。而这项研究提出的方法，就像在学生自学的过程中，时不时给他一些小提示和指导，让他的学习更有针对性、更高效。

当前的AI训练就面临着这样的问题。无论是语言模型还是视觉模型，它们的预训练过程都像一个盲目的探索旅程。研究人员给AI投喂海量的数据，让它通过预测下一个词或者重建图像来学习，但这个过程缺乏明确的方向感。就像让一个人在没有地图的情况下漫无目的地行走，虽然也能到达某些地方，但很可能错过真正重要的目的地。

这种传统的预训练方式存在一个根本性问题：它是一个开环系统。什么是开环系统呢？可以把它比作古代的弓箭手在黑夜中射箭，射出箭后就无法再调整轨迹，只能期望箭能命中目标。相反，闭环系统就像现代的导弹，能够在飞行过程中根据目标位置不断调整方向。

研究团队发现，当前AI预训练过程中的这种盲目性导致了严重的资源浪费。AI模型可能花费大量的计算资源学习那些对最终目标并不重要的知识，而对真正关键的能力却缺乏足够的关注。就像一个准备考试的学生，把大量时间花在无关紧要的内容上，而对考试重点却掌握不够深入。

为了解决这个问题，研究团队提出了一个叫做"V-Pretraining"的新方法，即"基于价值的预训练"。这个方法的核心思想是在预训练过程中引入一个轻量级的"任务设计师"，它就像一个经验丰富的导师，能够实时观察学生的学习进展，并调整学习材料的重点，让每一步学习都更有价值。

这个"任务设计师"的工作原理非常巧妙。它不会直接用下游任务的标签来训练大模型，而是通过观察大模型在小规模验证数据上的表现，来重新塑造预训练的目标。这就像一个厨师在烹饪过程中不断品尝菜品，然后调整调料的比例，让最终的菜品更符合客人的口味。

一、重新定义预训练的本质

要理解这项研究的创新之处，我们首先需要重新审视预训练到底是在做什么。研究团队将现代自监督预训练统一描述为"在信息限制下的预测学习"。这听起来有些抽象，但其实很好理解。

把预训练想象成一个巧妙设计的智力游戏。游戏规则是这样的：给你一张照片，但把其中一部分遮住，然后让你猜被遮住的部分是什么。或者给你一句话的前半部分，让你猜下半句是什么。通过反复玩这样的游戏，你逐渐学会了理解图像和语言的规律。

在语言模型的预训练中，这个游戏就是"下一个词预测"。给模型看"今天天气很"，让它猜下一个词可能是"好"、"坏"还是"热"。在视觉模型的预训练中，游戏可能是"图像重建"：给模型看一张被部分遮挡的照片，让它填补空白的部分。

研究团队指出，这些不同的预训练方法在本质上都遵循同样的模式：创建一个信息受限的上下文，然后让模型预测目标信息。关键的差异在于如何构造这个"信息限制"和如何定义"预测目标"。

传统的做法是预先固定这些规则。比如，在语言预训练中，总是预测下一个词；在图像预训练中，总是重建被遮挡的像素。这就像玩一个永远不变规则的游戏，虽然能学到一些基础技能，但很难针对特定目标进行优化。

V-Pretraining的创新在于让这些规则变得可学习。它引入了一个可以调节游戏规则的"任务设计师"，这个设计师能够根据下游任务的需求，动态调整预训练的重点。在语言任务中，它可能会调整预测目标，不再使用硬性的独热编码标签，而是使用更软性的概率分布。在视觉任务中，它可能会学习更智能的遮挡模式，让模型重点学习对特定下游任务更有价值的视觉特征。

这种方法的巧妙之处在于保持了预训练的自监督性质。大模型仍然只在无标签数据上训练，从未接触过下游任务的真实标签。但通过任务设计师的中介作用，下游任务的需求能够间接地影响预训练过程，就像通过调节水龙头来控制水流的方向和强度。

二、价值函数：给每个训练步骤打分

在V-Pretraining方法中，最核心的创新是引入了"价值函数"的概念。这个价值函数就像一个严格但公正的老师，能够为模型的每一个学习步骤打分，判断这一步学习是否朝着正确的方向前进。

要理解价值函数的工作原理，我们可以用登山的比喻。假设你正在登一座被云雾笼罩的山峰，目标是到达山顶。传统的预训练方法就像闭着眼睛随机行走，希望最终能碰巧走到山顶。而价值函数就像一个随身携带的指南针，它不会直接告诉你山顶在哪里，但能告诉你当前的行走方向是否正确。

具体来说，价值函数通过计算两个梯度之间的对齐程度来评估训练步骤的价值。第一个梯度来自预训练任务，代表模型当前的学习方向。第二个梯度来自下游任务，代表理想的学习方向。当这两个梯度指向相似的方向时，说明当前的预训练步骤有助于下游任务的性能提升；反之，则说明这个步骤可能是在浪费计算资源。

这种方法的数学基础来自影响函数理论。简单来说，就是通过分析一个训练样本对模型性能的微小影响，来估计这个样本的价值。这就像通过观察在汤里加一勺盐对整体味道的影响，来判断这勺盐是否加得恰当。

研究团队巧妙地将这个想法应用到梯度层面。他们不需要真正执行长时间的训练来观察影响，而是通过一阶泰勒展开来估计一个梯度步骤对下游性能的即时影响。这大大降低了计算成本，使得在预训练过程中实时调整成为可能。

价值函数的另一个重要特点是它的无偏性。研究团队在理论上证明了，当预训练梯度和下游梯度是从独立批次计算得出时，它们的内积的期望值等于真实的价值函数。这保证了价值估计的准确性。

为了进一步降低计算开销，研究团队还提出了参数高效的变体。他们只在模型参数的一个子集上计算价值函数，比如最后几层或者适配器参数。这就像只关注学生在关键科目上的表现，而不是事无巨细地检查所有作业。

三、语言模型的软目标设计

在语言模型的预训练中，V-Pretraining的任务设计师扮演着一个智慧导师的角色，它不再简单地告诉模型"下一个词是什么"，而是提供更丰富、更有指导性的学习目标。

传统的语言预训练就像填空题：给出"今天天气很___"，模型必须选择一个确定的词，比如"好"。这种硬性的独热编码方式虽然简单，但缺乏灵活性。V-Pretraining的任务设计师则将其转化为更像是"权重分配题"：它可能告诉模型"好"有70%的可能性，"热"有20%的可能性，"冷"有10%的可能性。

这种软目标的生成过程非常精巧。任务设计师首先让模型生成当前位置的top-K候选词，这就像让学生先列出几个最可能的答案。然后，设计师根据下游任务的需求，为这些候选词分配不同的权重，并计算一个自适应的混合系数。最终的学习目标是原始独热标签和软分布的加权混合。

这种方法的好处是显而易见的。软目标能够传达更丰富的信息，告诉模型不同选择之间的相对重要性。这就像一个经验丰富的老师不只是告诉学生答案，还会解释为什么这个答案比其他选项更合适，以及在什么情况下其他选项可能也是可以接受的。

任务设计师的架构也经过精心设计。它是一个小型的解码器Transformer，接受当前的词语上下文和真实下一个词的嵌入作为输入，然后输出top-K候选词的得分分布和混合门控值。这个设计师比主模型小得多，通常只有6层，隐藏维度为256，这确保了它不会显著增加计算开销。

在实际训练过程中，设计师通过最大化价值函数来更新其参数。当价值函数显示某种软目标分布有助于下游任务性能时，设计师就会学习生成类似的分布。这形成了一个有效的反馈回路：下游任务的需求→价值函数→任务设计师→更好的预训练目标。

研究团队在数学推理任务上测试了这种方法。他们使用Qwen1.5模型在数学语料上进行持续预训练，用GSM8K数学问题作为下游反馈。结果显示，仅使用1024个GSM8K训练样本作为反馈，V-Pretraining就能将不同规模模型的数学推理能力提升2-18%。

四、视觉模型的学习视图生成

在计算机视觉领域，V-Pretraining采用了与语言模型截然不同但同样巧妙的策略。如果说语言模型的任务设计师是在调整"问题的答案"，那么视觉模型的任务设计师则是在调整"问题本身"。

传统的视觉自监督学习就像玩拼图游戏：随机遮挡图像的一部分，然后让模型猜测被遮挡的内容。但这种随机遮挡的方式往往不够智能。有时候遮挡的可能是无关紧要的背景，有时候可能是关键的目标区域，学习效果很难保证一致性。

V-Pretraining的视觉任务设计师就像一个经验丰富的拼图制作者，它能够智能地选择哪些部分需要被遮挡，以最大化学习效果。这个设计师不再使用固定的遮挡模式，而是为每张图像生成定制化的软掩码。

这种个性化遮挡的生成过程体现了深度学习的优雅之处。任务设计师接收一张输入图像，通过一个轻量级的网络生成一个连续值的掩码，掩码中的每个像素值都在0到1之间。值接近0的区域会被大部分遮挡，值接近1的区域会被完整保留，而中间值则产生不同程度的半透明效果。

设计师的网络架构可以有多种选择。研究团队尝试了类似U-Net的卷积网络和基于Transformer的模块。U-Net擅长捕捉图像的空间结构，能够生成在空间上连贯的掩码。Transformer模块则更善于建模长距离依赖关系，能够理解图像不同区域之间的语义联系。

在训练过程中，视觉任务设计师面临的优化目标更加复杂。它不仅需要最大化价值函数，还需要满足一些额外的约束。比如，稀疏性正则化确保生成的掩码保持合适的遮挡比例，避免遮挡过多或过少。平滑性正则化则鼓励生成空间上连贯的掩码，避免产生过于碎片化的遮挡模式。

研究团队在密集预测任务上验证了这种方法的有效性。他们使用ADE20K语义分割和NYUv2深度估计作为下游评估任务，仅用512张ADE20K图像和512张NYUv2图像作为反馈信号。结果显示，学习到的视图生成策略显著提升了这两个任务的性能，同时保持甚至提高了ImageNet线性评估的准确率。

这种方法的一个重要优势是它能够实现多目标控制。通过调整不同下游任务梯度的权重，研究团队可以控制模型在不同能力之间的权衡。当他们增加语义分割任务的权重时，模型在分割任务上表现更好；增加深度估计的权重时，深度估计性能得到提升。这就像调节乐器的不同弦线，可以演奏出不同的和谐音符。

五、实验结果的深入解析

研究团队设计了全面的实验来验证V-Pretraining的有效性，这些实验就像一系列精心设计的科学测试，从多个角度证明了新方法的优势。

在语言模型方面，研究人员选择了数学推理这个具有挑战性的任务作为测试场景。他们使用Qwen1.5系列模型，规模从0.5B到7B参数不等，在NuminaMath CoT数据集上进行持续预训练。这就像让不同年级的学生都参加同一个数学培训课程，看看哪种教学方法更有效。

实验结果显示了令人印象深刻的改进。对于0.5B的小模型，V-Pretraining将GSM8K测试集上的Pass@1准确率从19.15%提升到22.67%，相对提升幅度达到18%。这个提升幅度对于小模型来说是相当显著的，说明V-Pretraining特别适合帮助资源受限的模型更高效地学习。

更大规模的模型也展现出稳定的改进。4B模型从56.48%提升到58.98%，7B模型从65.26%提升到66.17%。虽然绝对提升幅度随着模型规模增大而减少，但这种一致的改进趋势证明了方法的通用性。

特别值得注意的是，这些改进是在非常有限的反馈信号下取得的。研究团队只使用了1024个GSM8K训练样本，仅占完整训练集的12%。这就像用很少的提示就能让学生大幅提高解题能力，展现了V-Pretraining的数据效率优势。

在计算机视觉方面，研究团队在更具挑战性的密集预测任务上测试了方法的有效性。他们从强大的DINOv3预训练模型开始，继续在ImageNet-1K上进行自监督学习，这相当于让一个已经很优秀的学生接受更专业的训练。

ADE20K语义分割任务的结果特别令人瞩目。ViT-Base模型的mIoU从48.82提升到49.60，ViT-Large模型从51.33提升到52.40。这种提升在视觉领域是相当可观的，因为在成熟的基准测试上获得1mIoU的提升通常需要显著的架构改进或大量的数据增强。

NYUv2深度估计任务也展现出一致的改进趋势。RMSE指标的下降表明模型在深度预测上变得更加准确，这对于机器人导航、增强现实等应用具有重要意义。

研究团队还特别关注了方法的计算效率问题。在单个H100 GPU上的基准测试显示，V-Pretraining相比基线方法的吞吐量降低了约16%，步骤时间增加了约19%，峰值显存增加了约4%。这些开销在可接受范围内，特别是考虑到性能的显著提升。

令人印象深刻的是，价值更新本身只占用了总GPU时间的约2%。这意味着大部分计算开销来自软目标生成等其他组件，而核心的价值计算是非常高效的。

六、泛化能力和对照实验

任何新的机器学习方法都面临一个关键问题：它是否真的在学习有用的通用能力，还是只是在特定任务上过拟合？研究团队通过一系列精心设计的泛化实验来回答这个问题。

在语言领域，他们在两种不同类型的任务上测试了模型的泛化能力。第一种是"价值相邻转移"，即在相同能力家族但不同数据分布的任务上进行测试。他们使用OMEGA Explorative基准测试，这个基准包含多样化的数学推理类别和明确的分布外测试。结果显示，V-Pretraining在多个分布外类别上都有所改进，证明了方法学习到的不仅仅是对特定数据集的记忆，而是真正的推理能力。

第二种是"价值外推转移"，即在完全不同的能力家族上进行测试。研究团队使用MMLU多任务语言理解基准，这个基准涵盖了从历史到科学的57个学科。实验结果表明，在较大的模型上，V-Pretraining不会损害模型在这些无关任务上的性能，而在某些情况下甚至有轻微的提升。

在计算机视觉方面，研究团队测试了模型在实例检索任务上的泛化能力。他们使用了Revisited Oxford5k和Revisited Paris6k数据集，这些任务需要模型学习通用的视觉表示，而不仅仅是针对分割和深度估计的特化特征。结果显示，V-Pretraining不仅没有损害检索性能，在某些设置下还有所改进，说明学习到的视图生成策略确实能够促进更好的通用视觉表示学习。

为了确认V-Pretraining的有效性确实来自价值导向的学习而非其他因素，研究团队进行了详尽的消融实验。他们用随机向量替代真实的下游梯度，发现性能提升大幅减少，GSM8K Pass@1从58.98%下降到54.31%。这证明了下游反馈信号的关键作用。

他们还测试了其他可能的基线方法。固定的top-K均匀平滑得到54.58%的性能，自顶向K蒸馏得到57.61%的性能，都显著低于真正的价值反馈方法。这表明V-Pretraining的成功不是简单的标签平滑或自蒸馏效应，而是真正的任务导向优化。

研究团队还进行了数据去重实验，使用MinHash LSH和n-gram Jaccard相似度移除NuminaMath CoT中与GSM8K和MATH近似重复的样本。在去重后的数据上重新训练，V-Pretraining仍然保持其优势，说明改进不是由于数据泄露或记忆效应。

七、扩展性和实用性分析

V-Pretraining方法的一个重要特点是它的良好扩展性，这体现在多个维度上。

首先是模型规模的扩展性。实验表明，从0.5B到7B参数的不同规模模型都能从V-Pretraining中受益，虽然相对改进幅度随着模型规模增大而减少，但这符合机器学习中的一般规律：较小的模型往往能从显式指导中获得更大的收益。

其次是反馈数据规模的扩展性。研究团队测试了使用1000、2000和3000个GSM8K样本作为反馈信号的效果。结果显示，更多的反馈数据确实能够带来更强更稳定的改进，但存在边际效应递减的现象。这意味着即使是很少量的高质量反馈数据也能发挥显著作用，这对于实际应用非常重要。

推理时计算的扩展也显示出积极的结果。研究团队评估了Pass@k（k=1,2,4,8,16）的性能，发现V-Pretraining在所有k值和模型规模上都保持一致的改进。这说明该方法提升的是解决方案分布的整体质量，而不仅仅是贪婪解码的性能。

在计算机视觉领域，多目标控制能力展现了V-Pretraining的实用潜力。通过调整不同下游任务梯度的权重，研究人员可以在语义分割和深度估计之间实现灵活的性能权衡。实验中观察到了明显的帕累托前沿，证明了方法在实际应用中的可控性。

令人鼓舞的是token效率的初步证据。在固定学习者更新预算的情况下，V-Pretraining能够更快地达到目标性能水平。对于Qwen1.5-4B模型，V-Pretraining在400个学习者步骤后达到56.18%的Pass@1，而基线方法需要约1000步才能达到相似的性能水平。这种效率提升在大规模预训练中可能转化为显著的成本节约。

弱到强监督的扩展性也得到了验证。小的评估器能够有效指导大得多的学习器，这与当前AI安全研究中的重要主题相呼应。在这个框架中，人类可以提供少量高质量的反馈，通过轻量级任务设计师来引导大规模模型的预训练过程。

八、理论基础和数学保证

V-Pretraining方法不仅在实验上表现出色，还具有坚实的理论基础。研究团队提供了多个数学定理来保证方法的有效性和可靠性。

第一个重要的理论结果是价值下界定理。该定理证明了最大化价值函数V(φ;θ)能够为下游损失的一步改进提供可认证的下界。具体来说，如果下游损失函数是L-光滑的，那么下游损失的减少量至少为ηV(φ;θ)减去一个与梯度范数平方成比例的二阶项。这就像提供了一个数学保证，告诉我们价值函数确实能够指导模型朝着正确的方向改进。

第二个理论结果建立了价值函数与一步双层优化的等价关系。研究团队证明了最大化V(φ;θ)等价于最小化一步下游目标的一阶近似。这个结果很重要，因为它将复杂的双层优化问题简化为一个易于计算的一阶代理目标，从而使得实时优化成为可能。

第三个理论保证涉及随机价值估计的无偏性。在实际实现中，梯度是从小批量数据估计的，存在随机性。研究团队证明了当下游梯度和预训练梯度从独立批次计算时，它们内积的期望值等于真实的价值函数。这保证了即使在随机设置下，价值估计仍然是准确的。

这些理论结果的重要性在于它们将V-Pretraining从一个经验性的启发式方法提升为一个有原则的优化框架。它们回答了一个关键问题：为什么最大化梯度对齐度能够改善下游性能？答案是这种对齐度提供了下游改进的一阶近似，在适当的平滑性假设下，这种近似是可靠的。

研究团队还分析了参数高效变体的理论性质。当价值函数只在参数子集上计算时，被忽略的项有明确的上界，这为在计算效率和估计质量之间做出权衡提供了指导。

为了验证这些理论预测，研究团队进行了一个"探测"实验。他们在保留的GSM8K探测批次上计算预测改进量Δ=ηg'downgpre，并与执行SGD式更新后的实际一步损失减少进行比较。结果显示预测改进和实际改进之间存在正相关（皮尔逊相关系数r=0.657），支持了影响式一阶近似的有效性。

九、实现细节和工程考量

将V-Pretraining从理论概念转化为实用方法需要解决许多工程挑战。研究团队在论文中详细描述了这些实现细节，为其他研究者和工程师提供了宝贵的指导。

在语言模型实现中，任务设计师的架构设计体现了效率和效果的平衡。设计师使用类似LLaMA的解码器架构，但规模要小得多：通常只有6层，隐藏维度256，4个注意力头。这确保了设计师的计算开销保持在可接受的范围内。

设计师接收两类输入：当前的token上下文和真实下一个token的嵌入。输出包括top-K候选token上的得分分布和一个通过sigmoid激活的混合门控值。这种设计允许设计师既能理解当前的语言上下文，又能知道"正确答案"是什么，从而生成更有针对性的软目标。

在计算机视觉实现中，掩码生成器的设计更加多样化。研究团队尝试了两种主要架构：类U-Net的卷积网络和基于SiT风格的Transformer模块。U-Net变体使用较小的基础通道数（如16）和适中的深度（如3层），能够有效捕捉图像的空间结构。Transformer变体则更善于建模长距离依赖关系。

价值函数的计算涉及二阶梯度，这在实际实现中需要特殊处理。研究团队使用PyTorch的自动微分功能，通过设置create_graph=True来启用二阶梯度计算。为了支持通过注意力机制的所需二阶梯度，他们禁用了flash attention和memory-efficient SDPA内核。

为了平衡计算效率和估计质量，研究团队提出了几种优化策略。首先是参数范围限制：只在模型参数的子集（如最后k个块或适配器参数）上计算价值函数。这大大减少了计算开销，同时保持高质量的价值信号。其次是批次大小调整：使用适中的元学习批次大小来获得稳定的梯度估计，同时控制显存使用。

训练调度也需要仔细设计。研究团队发现在训练初期引入一个"预热期"是有益的，在此期间任务设计师不进行更新，让主模型先稳定下来。这避免了训练早期的不稳定现象，类似于传统深度学习中的学习率预热策略。

数据处理管道的设计也很重要。在语言任务中，研究团队使用流式数据加载器，将多个格式化样本打包到固定长度的序列中，缓冲区大小为10,000以确保充分的随机化。在计算损失时，只在答案部分计算损失，通过将提示token的标签设置为-100来实现掩码。

在视觉任务中，研究团队需要维护两套独立的数据流：用于下游评估器训练的标注数据和用于元批次梯度计算的保留标注数据。这确保了价值函数的计算不会受到评估器训练的影响，避免了潜在的过拟合问题。

十、未来发展方向和现实意义

V-Pretraining代表了AI训练范式的一个重要进步，但研究团队也坦诚地指出了当前方法的局限性和未来的发展方向。

当前V-Pretraining主要局限于可微分的反馈信号。在实际应用中，许多重要的反馈类型都是在线的或非可微分的，比如人类偏好判断、通过/失败检查、工具使用成功率等。扩展V-Pretraining来处理这些类型的反馈是一个重要的研究方向。这可能需要开发新的价值估计器，能够从这些离散或稀疏的信号中学习，同时保持相对于预训练的轻量级特性。

方法的可扩展性还有很大的改进空间。虽然当前的实验展示了在中等规模模型上的有效性，但要在真正的大规模预训练（如万亿参数模型）中应用V-Pretraining，还需要进一步的工程优化。这包括更高效的二阶梯度计算、分布式价值函数计算、以及与现有的大规模训练基础设施的集成。

预训练和后训练界限的模糊化是另一个有趣的发展方向。传统上，预训练和微调/对齐被视为截然不同的阶段。但V-Pretraining展示了在预训练期间引入目标导向的可能性。未来的研究可能会探索更加统一的训练范式，其中价值导向的学习贯穿整个模型生命周期。

从更广泛的AI安全角度来看，V-Pretraining提供了一种在高计算阶段注入人类价值观的机制，而不是仅仅在事后纠正行为。这与可扩展监督和人机对齐的研究方向高度相关。通过定义适当的价值函数，我们可能能够在表示形成和学习动态形成的过程中就引导模型朝向人类想要的方向发展。

该方法对计算效率的贡献也不容忽视。在当前AI发展中，简单地增加参数或数据的经济和计算成本正在快速上升。V-Pretraining提供了一个补充性的改进方向：在固定的无标签数据流和学习器更新预算下，提取每个梯度步骤的更多下游价值。这种"智能训练"的方向可能在未来变得越来越重要。

从实用角度来看，V-Pretraining为AI从业者提供了一个新的工具箱。当你有特定的下游任务需求时，不必从头训练一个专门的模型，而是可以用少量高质量的反馈数据来引导通用预训练过程。这大大降低了定制化AI解决方案的门槛。

说到底，这项研究最重要的贡献可能不是具体的技术细节，而是它提出的根本性观点：AI训练不必是一个盲目的过程。通过巧妙的方法设计，我们可以在保持预训练可扩展性的同时，引入智能的方向性指导。这为未来更加高效、可控、安全的AI系统开辟了新的可能性。

当我们展望AI的未来时，V-Pretraining所代表的这种"有目的的学习"范式可能会成为主流。就像人类学习不是随机的信息吸收，而是有目标、有反馈、不断调整的过程一样，AI系统也应该能够在学习过程中持续接收指导和调整方向。这项研究为实现这一愿景迈出了重要的第一步。

Q&A

Q1：什么是V-Pretraining方法？

A：V-Pretraining是卡内基梅隆大学提出的一种新型AI训练方法，它在传统预训练过程中引入了一个轻量级的"任务设计师"，能够根据少量下游任务反馈来动态调整预训练目标，让每个训练步骤都更有针对性和价值。

Q2：V-Pretraining和传统预训练方法有什么区别？

A：传统预训练就像让学生盲目刷题，而V-Pretraining像是有经验的老师在一旁指导。传统方法使用固定的训练目标，V-Pretraining则能根据最终目标需求实时调整学习重点，用很少的标注数据就能显著提升模型在特定任务上的表现。

Q3：V-Pretraining方法的实际效果如何？

A：实验结果显示，V-Pretraining在数学推理任务上将小模型性能提升了18%，在视觉任务上也有1mIoU的改进，而且只需要原始训练数据12%的反馈信息。重要的是，这种改进不会损害模型在其他任务上的泛化能力。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.