华为诺亚方舟实验室新突破：揭秘大模型"说话"的数学原理|科学|算法|正则化|新论文|知名企业

分享至

这项令人瞩目的研究成果来自华为诺亚方舟实验室与伦敦大学学院人工智能中心的联合团队，发表于2026年2月的最新学术期刊上，论文编号为arXiv:2602.18292v1。有兴趣深入了解的读者可以通过该编号查询完整论文。这项研究第一次用数学的眼光重新审视了我们与大语言模型交流的方式，揭示了一个令人惊讶的真相：那些看似随意的"采样策略"其实都遵循着严格的数学规律。

想象一下你正在和朋友聊天，当你想表达一个想法时，大脑会自动选择合适的词汇。对于大语言模型来说，这个过程被称为"解码"，就像是模型的"说话方式"。长久以来，研究人员把各种解码方法当作互不相关的技巧来使用——有的偏爱稳妥保守，有的追求天马行空，就像不同性格的人有不同的说话风格一样。

但是华为诺亚方舟实验室的研究团队发现了一个革命性的事实：这些看似毫无关联的"说话方式"其实都在解决同一个数学问题，就像厨师们用不同的调料配比来达到理想的味道一样，本质上都在寻找最佳的平衡点。这个发现不仅统一了我们对模型行为的理解，更重要的是，它为设计全新的交互方式开辟了道路。

研究团队不满足于理论上的统一，他们还开发出了一种名为"Best-of-K"的新方法，专门针对需要多次尝试才能得到满意答案的场景。这就像是一个聪明的答题策略：与其把所有努力都押在一次完美的回答上，不如用巧妙的方式增加在多次尝试中至少有一次成功的概率。实验结果显示，这种方法在数学题解答中的准确率提升了令人瞩目的18.6%。

一、传统认知的颠覆：解码不是技巧而是数学

长期以来，研究人员把大语言模型的解码过程看作是一堆互不相关的技巧。就像医生的药箱里装着各种不同的药品，需要什么症状就拿什么药，但却不明白这些药品之间的内在联系。贪心解码就像是保守的医生，总是选择最安全的治疗方案；温度采样则像是敢于尝试的医生，会根据情况调整用药的"激进程度"；而Top-K采样就像是有选择恐惧症的医生，每次都会把选择范围缩小到最有把握的几种方案。

华为团队的突破性发现是：所有这些不同的"医疗风格"其实都在解决同一个根本问题——如何在治疗效果和治疗风险之间找到最佳平衡点。用数学语言来说，就是在概率分布的空间中寻找最优解。这个概率分布空间可以想象成一个复杂的地形图，每个点代表选择某个词汇的概率，而不同的解码方法就是在这个地形上寻找最佳路径的不同策略。

更令人惊讶的是，研究团队发现这些策略都可以用一个统一的数学公式来描述。这个公式的核心思想是在两个目标之间取得平衡：一是要选择模型认为最合适的词汇（就像选择治疗效果最好的药），二是要满足某些特定的偏好或约束（比如保持一定的多样性，就像确保治疗方案不会太单调）。

通过严格的数学推导，研究团队证明了贪心解码相当于完全不考虑多样性，只追求最高分的策略；而Softmax采样则相当于在追求高分的同时，用熵这个数学工具来保持适度的随机性。这就像是在追求治疗效果的同时，也要保证患者的心理感受不会过于单调。

二、数学原理的深度剖析：优化问题的艺术

研究团队把解码过程重新定义为一个在概率单纯形上的优化问题。这听起来很复杂，但其实可以用一个简单的比喻来理解：想象你正在调制一杯完美的鸡尾酒，你有很多种不同的酒类可以选择，每种酒都有自己的"评分"（就像词汇的模型得分），但你不能只选评分最高的那一种，因为那样调出来的酒会太单调。

概率单纯形就像是你的调酒规则：所有酒类的比例加起来必须等于100%，而且每种酒的比例都不能是负数。在这个约束条件下，你要找到最佳的配比方案。研究团队发现，不同的解码策略实际上就是在使用不同的"口味偏好"来指导这个调酒过程。

为了解决这个优化问题，研究团队引入了拉格朗日乘数法和KKT条件这些数学工具。这些工具就像是精密的天平，能够精确地告诉你在满足各种约束条件的情况下，如何达到最优的平衡状态。通过这些数学分析，他们发现了一个重要的规律：在最优解中，那些被分配到非零概率的词汇（也就是"活跃"的词汇）必须满足相同的平衡条件，而那些被忽略的词汇则必须满足不等式约束。

这个发现的意义在于，它提供了一个"主钥匙"，能够解开所有解码策略的秘密。一旦你理解了这些数学条件，你就可以通过选择不同的正则化函数（相当于不同的"口味偏好"）来设计出任何你想要的解码行为。

三、经典方法的数学本质：从贪心到稀疏的统一框架

研究团队用他们的统一框架重新审视了所有经典的解码方法，结果发现了令人惊讶的一致性。贪心解码是最简单的情况，相当于完全不添加任何"调味料"（正则化项为零）的纯净策略。在这种情况下，优化问题退化为简单的线性目标函数在单纯形上的最大化，结果必然是把所有概率都分配给得分最高的词汇。

当他们在目标函数中加入负熵作为正则化项时，魔法般地得到了经典的Softmax采样分布。这里有一个关键的数学洞察：负熵的梯度在概率接近零时会趋向负无穷，这就像一个强大的"排斥力"，阻止任何词汇的概率真正降到零。因此，Softmax采样天然地会给每个词汇分配至少一点点概率，这就是它能保持多样性的数学原因。

温度参数在这个框架中有了新的解释：它不再是一个临时的"技巧"，而是熵正则化强度的精确数学表达。温度越高，正则化越强，分布越平滑；温度越低，正则化越弱，分布越尖锐。

Top-K和Top-P采样则可以理解为在优化问题中添加了硬约束条件。Top-K相当于强制规定只能在前K个候选中选择，就像在调鸡尾酒时只允许使用最好的K种酒。Top-P则更加灵活，它根据累积概率来动态确定候选集的大小，就像根据酒的质量分布来灵活决定使用多少种原料。

最有趣的是稀疏化解码方法，比如基于Sparsemax的策略。当研究团队使用二次正则化项（相当于L2惩罚）时，他们发现最优解会自然地将一些词汇的概率精确地设为零。这与负熵正则化形成了鲜明对比——二次函数在零点附近的梯度是有限的，不会产生那种强烈的"排斥效应"，因此允许优化器真正地"放弃"某些选项。

四、镜像上升算法：当闭式解不存在时的优雅方案

虽然经典的解码方法都有漂亮的闭式解，但研究团队的野心远不止于此。他们想要设计更复杂、更智能的解码策略，而这些新策略往往不能用简单的公式表达。这就像从调制简单的鸡尾酒转向创作复杂的分子料理——你需要更精密的工具和更复杂的过程。

为了应对这个挑战，研究团队引入了镜像上升算法，这是一种专门针对概率单纯形几何结构设计的优化方法。传统的梯度上升算法就像在平坦的地面上走路，每一步都沿着最陡峭的方向前进。但概率单纯形不是平坦的地面，它有着特殊的几何结构和边界约束。在这样的空间中使用传统的梯度方法，就像穿着普通鞋子在冰面上行走——效率低下且容易出错。

镜像上升算法的巧妙之处在于，它使用了与单纯形几何结构相匹配的"度量方式"。具体来说，它不再用欧几里得距离来衡量两个概率分布之间的差异，而是使用更适合的KL散度。这就像为冰面行走特制了防滑鞋——每一步都更加稳定和高效。

算法的更新规则具有一种优雅的乘性形式。在每一步中，算法会根据目标函数的梯度对当前分布进行指数变换，然后重新归一化以确保结果仍然是有效的概率分布。这种更新方式天然地保持了单纯形约束，不需要任何额外的投影操作。

更重要的是，这个算法为设计新的解码策略打开了大门。任何可以表达为优化问题的解码目标，无论多么复杂，都可以通过镜像上升算法来求解。这就像从手工调酒转向了程控调酒机——你可以实现任何你能想象到的复杂配方。

五、Best-of-K采样：多重机会的智慧策略

在理论框架建立之后，研究团队决定将其付诸实践。他们观察到现代AI应用中的一个重要趋势：越来越多的场景不满足于单次回答，而是需要多次尝试来获得最佳结果。这就像考试时的多选题策略——与其把所有希望押在一次完美的猜测上，不如用策略来最大化在多次尝试中至少答对一次的概率。

传统的解码方法都是针对单次采样设计的，它们追求的是单个回答的质量。但在多次采样的场景中，这种策略可能并不是最优的。比如，如果一个词汇有60%的概率是正确答案，传统方法会倾向于多次选择这个高概率选项，但这样做在多次尝试中可能会反复得到相同的答案，浪费了宝贵的"重试机会"。

Best-of-K（简称BoK）的核心思想是重新定义优化目标：不再追求单次回答的期望质量，而是追求在K次尝试中至少获得一个高质量答案的概率。这个想法听起来简单，但数学实现却相当精妙。

研究团队为每个候选词汇v定义了一个"命中概率"：在K次独立采样中，词汇v至少出现一次的概率是1-(1-q(v))^K，其中q(v)是该词汇在解码分布中的概率。这个公式有一个重要的特性：它表现出边际递减效应。也就是说，当q(v)已经比较大时，继续增加它带来的边际收益会逐渐减小。这naturally鼓励算法将概率分配给那些被低估但有价值的候选选项。

为了防止算法过度分散注意力到不相关的词汇上，研究团队引入了KL散度作为锚定项，确保最终的分布不会偏离原始模型分布太远。整个BoK目标函数在模型得分、覆盖率奖励和锚定约束之间取得了精妙的平衡。

六、实验验证：数学理论在现实中的表现

研究团队在多个基准测试上验证了BoK采样器的实际效果，实验涵盖了数学推理、科学问答和代码生成三个不同领域。他们选择了两个代表性的模型：专门为数学优化的Qwen2.5-Math-7B和通用的Qwen2.5-7B，在MATH500数学题集、GPQA-diamond科学问答和HumanEval代码评测上进行了全面测试。

实验设计特别关注了温度参数对性能的影响。温度参数控制着采样的"冒险程度"——低温度下模型倾向于保守的高概率选择，高温度下则更愿意探索多样化的可能性。在传统采样方法中，高温度往往伴随着性能的急剧下降，因为过度的随机性会导致很多不合理的输出。

BoK采样器在这方面表现出了显著的优势。在温度为0.9的高温条件下，传统采样在MATH500上的准确率从温度0.1时的72.2%跌至53.0%，下降了19.2个百分点。而BoK采样器不仅完全避免了这种性能损失，反而将准确率提升到了71.6%，相比传统高温采样提升了18.6个百分点。

这种改进在其他任务上同样明显。在GPQA科学问答中，BoK在高温条件下比传统采样提升了6.06个百分点；在HumanEval代码生成中，提升幅度达到了14.64个百分点。这些结果表明，BoK不是针对特定任务的局部优化，而是一种具有广泛适用性的通用改进。

更重要的是，BoK的性能提升是稳健的，不依赖于精确的超参数调节。研究团队测试了多种不同的β（覆盖率权重）和λ（锚定强度）组合，发现在一个相当宽泛的参数范围内都能获得显著改进。这说明BoK提供的是一个稳定的"操作窗口"，而不是需要精心调节的脆弱平衡。

从计算效率的角度看，BoK的额外开销非常有限。每个token只需要5次镜像上升迭代，整体运行时间仅增加约6%（从15.84秒增加到16.88秒）。更令人惊讶的是，即使只用2次迭代，BoK依然能带来显著改进（准确率从64.4%提升到69.6%），而运行时间几乎没有增加。这表明算法收敛速度很快，适合实际部署。

七、理论意义与实践价值：重新定义人机交互的未来

这项研究的影响远超出了技术层面的改进。它从根本上改变了我们理解和设计大语言模型解码策略的方式，将一个传统上依赖经验和直觉的领域转变为可以用数学精确分析和设计的科学。

从理论角度来看，统一框架的建立意味着我们现在有了一种"解码策略的化学元素周期表"。就像门捷列夫的周期表不仅整理了已知元素，还预测了未知元素的存在一样，这个数学框架不仅解释了现有方法的本质，还为发现新策略提供了系统性的指导。任何新的解码行为都可以通过选择适当的正则化函数和约束条件来实现。

更深层次的洞察是关于优化几何的认识。研究团队揭示了概率单纯形的几何结构如何影响解码行为：内部解对应于平滑的分布，边界解对应于稀疏的分布，而不同的正则化函数本质上是在引导优化过程向不同的几何区域收敛。这种几何直觉为理解复杂的采样行为提供了全新的视角。

从实践角度来看，BoK采样器代表了一种全新的设计哲学：从优化单次输出质量转向优化多次尝试的成功概率。这种转变反映了AI应用模式的根本变化——从"一次性对话"转向"迭代式协作"。在这种新模式下，AI系统不再需要每次都给出完美答案，而是通过多次尝试来增加获得满意结果的机会。

这种方法论的价值还体现在它的通用性上。BoK的核心思想——优化覆盖率而非点估计——可以推广到很多其他场景。比如，在推荐系统中，与其每次推荐最可能被点击的内容，不如优化用户在浏览多个推荐中至少找到一个感兴趣内容的概率。在药物发现中，与其专注于单个最有希望的化合物，不如优化在多个候选中至少有一个成功的概率。

八、未来展望：解码科学的新纪元

这项研究开启了"解码科学"这个全新研究领域的大门。研究团队明确指出了几个值得深入探索的方向，每一个都可能带来革命性的突破。

序列级优化是一个特别有前景的方向。当前的解码策略都是逐步决策的——在每个位置独立选择下一个词汇，就像近视的人只能看清眼前一步的路。但很多实际需求需要全局视野：比如控制生成文本的总体长度、保持前后一致的风格，或者确保整个回答覆盖了问题的所有要点。将优化视角从单步扩展到序列级别，需要开发新的数学工具来处理时间耦合和长程依赖。

更复杂的效用函数设计也充满可能性。BoK采样器证明了根据应用需求定制效用函数的可行性，但这只是冰山一角。研究团队提到了几个诱人的方向：直接建模下游排序过程的效用函数，能够感知外部验证器反馈的效用函数，以及能够动态适应用户偏好的个性化效用函数。每一种设计都可能催生全新的交互体验。

约束集合的扩展同样令人期待。当前的方法主要在概率单纯形上操作，但实际应用中的约束往往更加丰富。比如，在某些对话场景中，我们可能希望避免重复之前的话题，这需要引入"记忆约束"；在创作任务中，我们可能希望保持特定的文体风格，这需要"风格约束"；在专业领域，我们可能需要确保生成内容符合特定的格式规范，这需要"结构约束"。

技术层面的创新空间也很广阔。镜像上升算法只是处理复杂优化问题的一种方法，还有很多其他的优化技术可以探索。比如，变分推理方法可能能够更高效地处理高维约束，强化学习技术可能能够更好地处理序列决策问题，而图神经网络可能为处理结构化约束提供新的可能性。

最终，这项研究指向了一个更宏大的愿景：将人机交互从"你问我答"的简单模式，升华为"协作优化"的高级形态。在这种新模式中，人类不再是被动的信息接收者，而是优化目标的共同定义者；AI也不再是信息的简单输出者，而是协作过程的智能优化器。双方共同工作，通过数学上严谨的优化过程，来达成真正满足复杂现实需求的解决方案。

说到底，这项研究的真正价值不在于任何具体的技术细节，而在于它展示的全新思维方式：将直觉转化为数学，将经验转化为理论，将技巧转化为科学。它告诉我们，即使是看似最"艺术性"的人机交互过程，也可以用严谨的数学来理解和改进。这种认识为未来的AI发展指明了方向——不是依赖更大的模型或更多的数据，而是通过更深刻的数学理解来释放已有能力的全部潜力。正如研究团队在论文结尾所宣告的那样："解码不是技巧，而是优化！"这句话可能会成为这个领域未来发展的座右铭。

Q&A

Q1：Best-of-K采样方法和传统采样方法有什么区别？

A：传统采样方法追求单次回答的质量，就像考试时力求一次答对。而Best-of-K方法优化的是多次尝试中至少获得一个好答案的概率，就像通过策略来最大化多次尝试中至少答对一次的机会。实验显示，这种方法在数学题解答中能将准确率提升18.6%。

Q2：为什么华为团队说所有解码方法本质上都在解决同一个数学问题？

A：华为团队发现，看似不同的解码策略（贪心、Softmax、Top-K等）都可以用同一个数学框架描述——在概率分布空间中寻找最优解，平衡模型得分和特定偏好。就像不同的调酒师用不同配比追求理想口味，本质都在寻找最佳平衡点。差异只在于使用了不同的"调味规则"。

Q3：镜像上升算法相比传统优化方法有什么优势？

A：传统梯度算法就像在平地上行走，而概率分布有特殊的几何约束，就像在冰面上行走。镜像上升算法使用适合概率分布的KL散度度量，就像为冰面特制防滑鞋，每步都更稳定高效。它能天然保持概率约束，为设计复杂解码策略提供了有力工具。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.