Arc Intelligence发现:随机采样比精心调参更有效优化AI代码生成|arc|正式版模型

Arc Intelligence发现:随机采样比精心调参更有效优化AI代码生成

2026-02-12 22:28:16　来源: 科技行者

北京举报

分享至

这项由Arc Intelligence公司进行的开创性研究于2026年2月发表，研究编号为arXiv:2602.07670v1，为我们揭示了一个颠覆常识的发现：在让AI生成GPU内核代码时，简单的"多试几次然后挑最好的"策略竟然比复杂的"边学边改进"方法效果更好。

在人工智能快速发展的今天，如何让AI在特定任务中表现得更好一直是研究人员关注的焦点。传统观念认为，让AI在执行任务时不断学习和调整，就像学生做题时不断总结经验一样，应该能获得更好的结果。但这项研究却告诉我们，至少在某些领域，这个直觉可能是错误的。

研究团队选择了GPU内核优化作为实验对象，这是一个非常适合验证不同策略的领域。GPU内核就像是专门为显卡编写的小程序，用来加速各种计算任务。编写高效的GPU内核需要深度的技术知识和大量的经验，是一个既有挑战性又有明确评判标准的任务。研究人员使用了一个名为KernelBench的测试平台，它包含250个不同的机器学习任务，可以准确测量生成的代码在实际硬件上的运行速度。

为了进行公平的比较，研究团队设计了一个巧妙的双层实验架构。外层循环负责训练一个基础的AI模型，让它在80个训练任务上学会生成GPU内核代码的基本技能。这个过程就像先让学生掌握基础知识，为后续的测试做准备。内层循环则是真正的策略比较环节，研究人员在相同的计算预算下对比了两种不同的方法。

第一种方法叫做"最优N选一"，简单来说就是让AI生成64个不同的解决方案，然后从中挑选表现最好的那个。这种方法的核心思想是通过增加尝试的次数来提高找到优秀解决方案的概率，就像买彩票一样，买得越多中奖机会越大。第二种方法则是"测试时训练"，让AI在面对新任务时进行1到5步的梯度更新，试图通过实时学习来改进性能。这种方法的理念是让AI像人类一样，在遇到新问题时能够快速适应和学习。

实验结果令人大跌眼镜。"最优N选一"方法在64次尝试下达到了90%的任务成功率，也就是说在20个测试任务中有18个都找到了既正确又快速的解决方案。相比之下，"测试时训练"方法的最佳检查点仅达到了30.6%的成功率，甚至比随机选择一个解决方案的效果还要差。更令人震惊的是，如果要让"测试时训练"达到同样的效果，需要的尝试次数竟然少于1次，这意味着这种方法的表现还不如不进行任何训练。

为了理解这个反直觉结果的原因，研究团队深入分析了"测试时训练"失败的机制。他们发现问题出在"过度锐化"现象上。当AI进行梯度更新时，它会倾向于提高那些早期成功样本的概率，但这些早期成功的解决方案往往只是平庸的方案，而不是最优解。这个过程就像是一个学生在考试中遇到一道难题，匆忙选择了第一个看起来合理的答案，然后越来越坚信这个答案是对的，从而错过了真正的最佳答案。

更糟糕的是，这种过度锐化会破坏解决方案的多样性。在GPU内核优化这样的任务中，最优解往往位于概率分布的"尾部"，也就是那些看起来不太常见但实际上非常高效的解决方案。当AI过度专注于常见的解决方案时，它就失去了发现这些罕见但优秀解决方案的能力。这就好比一个厨师只会做家常菜，虽然做得不错，但永远无法创造出令人惊艳的创新菜品。

在发现搜索策略优于适应性学习后，研究团队并没有满足于这个结论，而是进一步探索了如何在众多候选解决方案中做出更好的选择。传统做法通常是选择AI最有信心的解决方案，也就是概率最高的那个。但研究人员发现了一个有趣的现象：AI对自己最好的解决方案往往最没有信心。

这个发现催生了"惊讶度引导选择"策略。简单来说，就是选择那些让AI自己都感到"意外"的正确解决方案。研究结果显示，这种方法的成功率达到了80%，而选择AI最有信心解决方案的传统方法只有50%的成功率，提升幅度达到了30个百分点。更进一步，如果选择三个最让AI意外的正确解决方案，然后从中挑选最快的那个，成功率竟然达到了100%，与理想的全知选择策略完全一致。

为什么会出现这种反直觉的现象呢？研究团队给出了深刻的解释。AI模型的概率分布实际上反映的是训练数据中不同解决方案的频率，而不是它们的质量。由于训练数据中普通的、常见的代码比优化的、高性能的代码多得多，AI学会了将高概率分配给那些常见但未必最优的解决方案。相反，那些真正优秀的解决方案往往需要非常规的内存访问模式、创新的循环结构或者硬件特定的优化技巧，这些在训练数据中相对罕见，因此被AI认为是"不太可能"的。

通过选择高惊讶度的解决方案，我们实际上是在挖掘AI分布的"专家尾部"，也就是那些AI知道如何生成但认为统计上不太可能的高质量策略。这就像是在一个音乐家的作品集中，那些最具创新性和艺术价值的作品往往不是最受大众欢迎的，但却是真正的杰作。

为了验证这些发现的可靠性，研究团队进行了多项对照实验。他们测试了不同的学习率，发现过度锐化现象在各种设置下都会出现。他们还分析了代码长度对结果的影响，排除了长代码简单因为包含更多词汇而获得更低概率的可能性。通过对320个固定样本在不同训练步骤下的概率变化进行追踪，研究人员直接观察到了AI如何逐步对较差的解决方案变得更加自信，证实了过度锐化的存在。

研究还揭示了任务难度对不同策略效果的影响。在相对简单的任务上，适应性训练的劣势相对较小，因为基础模型已经能够较好地处理这些任务。但在困难的任务上，适应性训练的问题更加明显，因为错误的早期成功更容易误导后续的学习方向。这个发现进一步支持了研究的核心观点：在有密集连续奖励的可验证执行任务中，计算资源应该投入到样本多样性和智能选择上，而不是梯度适应。

研究团队还通过跨任务迁移实验验证了过度锐化的普遍性。他们发现，在一组任务上训练的模型在应用到另一组任务时表现更差，这表明适应性训练导致的不是领域通用的内核优化策略学习，而是对特定训练任务的过拟合。这就像一个学生如果只练习某一类型的数学题，虽然在这类题目上可能表现不错，但面对其他类型的题目时反而不如那些广泛练习的学生。

从更广泛的角度来看，这项研究对测试时计算分配策略提供了重要启示。研究结果表明，在具有密集连续奖励和确定性评估的可验证执行任务中，简单搜索策略可能比复杂的自适应学习更有效。这挑战了"更多训练总是更好"的常见假设，提醒我们在不同类型的任务中需要采用不同的优化策略。

研究的实际意义也不容忽视。对于需要高性能GPU代码的开发者来说，这项研究提供了一个实用的指导：与其花费大量时间尝试让AI模型适应特定任务，不如让模型生成多个候选解决方案，然后使用惊讶度引导策略进行选择。这种方法不仅更有效，而且计算成本更低，因为它避免了复杂的梯度更新过程。

当然，研究也承认了其局限性。实验主要集中在GPU内核优化这一特定领域，使用的是单一的120亿参数模型。在其他类型的任务或不同规模的模型上，结果可能会有所不同。此外，研究使用的是相对简单的适应性训练方法，更复杂的训练技术可能会产生不同的结果。

展望未来，这项研究开辟了几个有趣的研究方向。首先是开发能够在运行前就识别高质量解决方案的方法，从而避免需要执行所有候选方案的开销。其次是探索如何将这些发现推广到其他具有密集反馈的领域，如编译器优化或系统配置调优。最终，研究指向了一个更宏大的目标：开发能够内部模拟代码与硬件交互的AI系统，实现真正的零评估发现。

这项研究的核心洞察在于认识到不同类型任务需要不同的优化策略。在稀疏奖励的发现任务中，扩展适应可能是有价值的，因为它能够将分布引导到新的、有前景的区域。但在密集奖励的执行任务中，最优解决方案往往已经存在于基础分布的尾部，过多的适应反而会适得其反。

说到底，这项研究告诉我们，在人工智能的世界里，有时候最简单的方法反而是最有效的。当面对具有明确评判标准和密集反馈的任务时，与其让AI拼命学习和调整，不如让它尽情发挥创造力，生成各种可能的解决方案，然后用聪明的方法从中挑选最好的。这种"广撒网，巧选鱼"的策略，可能比"精雕细琢"更能帮助我们找到真正的优秀解决方案。

归根结底，这项研究提醒我们，在追求AI性能优化时，我们需要根据任务的具体特点来选择策略，而不是盲目地认为更复杂的方法就一定更好。有时候，最朴素的智慧反而能带来最惊喜的结果。对于那些对原始研究感兴趣的读者，可以通过论文编号arXiv:2602.07670v1查询完整的技术细节和实验数据。

**Q&A**

Q1：什么是惊讶度引导选择策略？

A：惊讶度引导选择是一种反直觉的AI解决方案选择方法。传统做法是选择AI最有信心的方案，但这项研究发现，选择那些让AI自己都感到"意外"的正确解决方案效果更好。因为AI的高信心往往对应常见但平庸的解决方案，而那些罕见但优秀的解决方案反而会让AI感到惊讶。这种方法将成功率从50%提升到80%。

Q2：为什么简单的多次尝试比让AI边学边改进效果更好？

A：问题出在"过度锐化"现象上。当AI进行实时学习时，它会过分关注早期成功的平庸解决方案，从而失去发现真正优秀解决方案的能力。最优的GPU内核代码往往需要非常规的技术，在AI的概率分布中属于"尾部"区域。过度学习会让AI远离这些区域，而简单的多次尝试则保持了探索这些罕见但优秀解决方案的可能性。

Q3：这个发现对实际的AI应用开发有什么指导意义？

A：这项研究表明，在具有明确评判标准和密集反馈的任务中，应该将计算资源投入到生成多样化的候选解决方案和智能选择策略上，而不是复杂的实时训练。对于GPU代码优化等类似任务，开发者可以让AI生成多个方案，然后使用惊讶度引导策略选择，这样既更有效又成本更低。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.