傅里叶变换如何让机器学会更聪明的生成方式|翻译|频域|新论文

分享至

这些年，人工智能生成文本的方式基本分为两大派系。一派是传统的自回归模型，就像一个人写作文一样，从左到右逐字逐句地往下写，每写一个字都必须看着前面已经写好的部分。另一派是扩散模型，它的工作方式完全不同，有点像在一张写满了乱码的纸上逐步擦除噪音，最后显露出清晰的文字。这个新兴的扩散语言模型派系有个巨大的优势——它可以同时考虑全局的信息，而不是被迫只看前文。理论上，这应该能做出更聪明的文本生成。

但问题来了。虽然扩散模型看起来很灵活，能够以任意顺序生成文本，实际研究却发现这些模型在操作时往往偏好某些特定的位置，这被称为位置偏差。换句话说，模型虽然有自由的权利，但就像一个有选择恐惧症的人，它还是倾向于重复一些习惯性的做法。最糟糕的是，即使强行改变这些习惯，模型的表现也未必会更好。这就像一个天才运动员被迫改变自己的习惯动作，结果反而表现下滑。

来自复旦大学、上海创新研究院和OpenMOSS团队的研究人员最近发表了一项有趣的研究，试图从一个全新的角度破解这个难题。他们没有试图用外部规则去强行纠正模型的坏习惯，而是决定深入模型的内心世界，看看模型本身是否已经有一套合理的逻辑。这项研究发表于2026年1月，编号为arXiv:2601.23182，相信会在语言模型研究领域引起不少讨论。

一、模型内部的频率秘密

要理解这项研究的创新之处，我们首先需要懂得一个概念。当我们说到"频率"时，你可能会想到音乐的高音和低音。同样的思想也适用于文本。如果把一段文本的隐藏特征用数学方式分解，可以分解成不同的"频率成分"。有趣的是，这些频率成分似乎各司其职。

研究团队通过分析一段代码（计算最大公约数的Python脚本）和一段数学推导（关于平方差公式的文字）做了一个启发性的观察。他们提取出了模型最后一层的隐藏状态，然后使用傅里叶变换把这些状态从时间域转换到频率域。傅里叶变换就像一个神奇的显微镜，能让我们看到原本看不见的不同"频率成分"。

当他们把这两个例子的频率分解后，惊人的规律出现了。代码片段中的关键词——比如if、elif、return这样的逻辑骨架——集中出现在低频段。与此同时，具体的函数名称gcd、变量名fib之类的细节信息则躲在高频段。数学推导例子也展现出完全相同的模式。那些引导逻辑的叙述文本是低频的，而具体的数学公式和变量是高频的。

这就像一个建筑工程的比喻。建造一栋房子时，你首先需要确定整体框架和结构——这是低频的"骨架"。只有当骨架稳固后，你才能着手装饰和填充细节——这就是高频的"血肉"。如果你颠倒这个顺序，先忙着装修细节，却还没搭好框架，最后会导致整个建筑摇摇欲坠。

这个发现至关重要，因为它首次在扩散语言模型中证实了这样的关联。低频成分对应的是全局结构，即文本的逻辑骨架，而高频成分对应的是局部细节，即具体的词汇和表达。这不仅仅是一个有趣的现象，更是一个可以利用的线索。

二、"先画草图，再上油彩"的生成策略

既然模型内部已经存在这样的结构信息，研究团队想到了一个想法：为什么不引导模型按照这个自然的顺序去生成文本呢？就像一个画家不是一开始就画细节，而是先勾勒整体轮廓，然后逐步填充细节。

基于这个直觉，他们提出了FourierSampler这个方法。这个方法的核心思想其实不复杂：在生成过程中，用一个在频率空间里移动的"滑动窗口"来逐步引导模型。在生成初期，这个窗口只让模型看到低频信息，所以模型优先生成那些低频的逻辑词汇和结构。随着生成步数增加，窗口逐渐向高频移动，模型开始把注意力转向细节信息。

想象你在做一个复杂的拼图游戏。你不是乱七八糟地把所有碎片都摊出来找，而是有策略地进行。首先，你聚焦在边界片和角落片上，这些帮你确定整体框架。然后，你逐步向内聚焦，处理中间的片段。到了最后，你只需要填补一些细致的细节。FourierSampler的工作原理很相似，只不过它的"碎片"是文本中的不同频率成分。

这个方法实际包含两个巧妙的组件。第一个是翻译过滤评分，这是一个计算标准，用来在每个生成步骤中评估哪些位置应该优先被填充。这个评分基于当前步骤所关注的频率窗口中，各个位置的能量大小。能量越高意味着该位置在当前频率范围内越"重要"，因此应该被优先处理。

第二个组件更聪明，叫自适应傅里叶校准器。这个组件的工作是平衡模型的自主决策和来自频率信息的指导。模型本身对何时生成什么词汇有一定的"意见"，这来自它在训练中学到的概率分布。如果模型在某个时刻对自己的选择很有信心（意思是不同位置的概率分布很不均匀），那么频率指导就减弱，让模型按自己的想法走。反之，如果模型犹豫不决（各个位置的概率差不多），频率指导就加强，帮助模型找到方向。这就像一个好的教练，在运动员已经充满信心时退后一步，但当运动员迷茫时就站出来指点方向。

三、实验证实了这个聪明策略

研究团队在两类主要的扩散语言模型上测试了这个方法：LLaDA系列和SDAR系列。LLaDA模型采用完全双向注意力机制，而SDAR则使用块状因果注意力。他们在五个不同的基准任务上进行了评估，包括高中数学问题、通用数学问题、编程任务、手工编程题以及一个叫Countdown的推理游戏。

结果相当令人印象深刻。在LLaDA1.5-8B模型上，使用FourierSampler后，在编程基准上提升了20.4%，这是一个显著的改进。在数学基准上也有约7%的提升。整体来看，这个方法使LLaDA1.5-8B的性能达到了50.93分的平均分数，甚至超过了同等规模的自回归模型，比如Llama 3.1-8B-Instruct（48.44分）和Qwen 2.5-7B-Instruct（50.90分）。这是一个非常了不起的成就，因为通常来说，扩散模型的性能要落后于自回归模型。

在更小的模型上，比如SDAR系列，改进更加显著。SDAR-1.7B-Chat在Countdown任务上提升了45.1%，这简直是革命性的进步。即使在不是特别适合的任务上，比如SDAR-1.7B-Chat在HumanEval上的表现，也有14.5%的提升。这表明FourierSampler不是某种特殊的技巧，而是一个广泛适用的原则。

为了验证这个方法确实在做它声称的事情，研究团队进行了一个引人入胜的可视化分析。他们跟踪了一个Fibonacci数列生成任务中的解码过程，画出了在每个生成步骤中，不同位置的"翻译过滤评分"。结果完全符合预期。在生成的早期步骤，代表逻辑骨架的词汇（如if、else、return）获得了最高的评分，因此被优先生成。而那些具体的变量名（fib、n）和数字（0、1）则要等到更晚的阶段才被生成。这不是巧合，而是该方法精心引导的结果。

四、深入理解"结构优先"的逻辑

为什么"结构优先"这个策略如此有效呢？研究团队进行了额外的分析来回答这个问题。他们在一个大规模的文本数据集（WikiText-103）上进行了统计分析，查看不同词性的单词如何分布在频率域中。

结果很有启发性。连词（但是、因为、如果）和介词（在、为了、从）高度集中在低频域。这些词汇的作用是什么呢？它们构成了句子的逻辑框架。一个句子的基本逻辑结构往往由这些词汇决定。相比之下，名词（特别是具体的、指代特定事物的名词）则强烈倾向于高频。名词通常填充逻辑框架中的具体内容。

这个现象完全符合语言学的基本认识。功能词负责建立关系和逻辑，而内容词负责填充具体信息。如果你没有建立好逻辑关系，再多的具体信息也无法组织成有意义的句子。相反，如果逻辑清晰了，即使某些具体细节有小误，整体的句子仍然能被理解。

这就回到了为什么"结构优先"会有效。扩散模型在之前的随意生成中之所以经常出问题，可能正是因为它过早地陷入了细节的泥潭。它可能先确定了一些具体的变量名，然后才想起来要建立代码的控制流。这就像先确定了房间里的家具颜色，才意识到应该先建造房间本身。一旦做出了这样的错误决定，要纠正就很困难了。通过强制模型按照"低频到高频"的顺序进行，我们实际上是在强制它遵循语言的自然逻辑。

五、方法的微妙之处和自适应机制

FourierSampler看起来简单，但其中有很多精心设计的细节。首先，频率窗口的大小必须精心选择。窗口太宽，低频指导会混入太多高频噪音，失去指向性。窗口太窄，模型在每个步骤可以看到的有用信息太少。研究团队为不同的模型选择了不同的窗口大小，这表明这个参数需要根据具体情况调整。

其次，解码块的大小非常重要。研究团队发现，当块越大时，频率分析越准确。这是因为傅里叶变换需要足够的数据才能准确识别频率成分。当块太小时，频率信息会被分散，导致分析不准确。有趣的是，正因为FourierSampler能更好地指导生成，它使得即使增大块的大小（通常会降低性能），模型的表现仍然能够保持甚至提升，这是一个非常有实际意义的发现。

最精妙的设计是自适应权重机制。这个机制的核心思想是：模型自己最了解它什么时候需要帮助。当模型对当前的生成决策很有把握时（体现在不同位置的预测概率差异很大），频率指导权重就自动降低，让模型按自己的直觉走。当模型不确定时（各个位置的预测概率接近），频率指导权重就增加，帮助模型做决定。这种动态的平衡确保了方法既能提供有效的指导，又不会过度干预模型的学习过程。

权重的计算基于过去20个生成步骤中，模型预测概率的方差。研究团队将这个方差进行百分位数转换，最后通过标准正态分布的累积分布函数进行平滑映射，得到一个在(0,1)区间内的权重。这听起来复杂，但目的很简单：让权重的变化平滑自然，避免突兀的跳跃。

六、从另一个角度看：为什么其他方法不够好

要真正欣赏FourierSampler的创新，我们应该看看之前的方法有什么问题。早期的方法大多采用"位置感知"的策略，即根据位置给予不同的生成优先级。但这本质上还是在用人工规则强行纠正模型，而不是从模型内部的结构出发。另一些方法使用奖励模型，即训练一个额外的模型来评估生成质量，然后用这个评估来指导生成。这虽然在某些情况下有效，但计算成本高，而且奖励模型本身可能带入新的偏差。

FourierSampler的根本优势在于，它不是从外部施加规则，而是挖掘了模型本身已经学到的知识。模型的隐藏状态中已经包含了频率信息，而频率信息已经对应了文本的结构和细节。我们所做的一切，就是让这些已有的信息为生成过程服务。这就像一个优秀的企业管理者，不是胡乱添加新的制度，而是发现并激活员工已有的潜能。

七、实际应用前景

这项研究的实际应用前景如何呢？首先，对于代码生成，FourierSampler带来的改进直接翻译为更少的语法错误和逻辑错误。代码的生成本身就遵循"先建立控制流，再填充具体实现"的模式，所以结构优先的策略特别匹配。对于数学问题求解，相似的逻辑成立。解决一道数学题需要先理解问题的整体结构，再推导具体步骤。

其次，这个方法对小模型特别有价值。SDAR-1.7B-Chat虽然参数量不大，但在Countdown任务上的45%提升表明，通过聪明的解码策略，小模型也能做得很好。这对移动设备和边缘计算很重要，因为不是每个人都能运行80亿参数的大模型。

最后，这个研究打开了一扇新的大门。既然频率信息对应到了语义信息，那么是否还有其他的频域特征可以被利用呢？是否可以用频域分析来更好地理解模型为什么会出现某些错误呢？是否可以在训练阶段就加入频域的约束，使模型从一开始就学会这种"结构优先"的生成方式呢？这些都是未来研究可以探索的方向。

八、一些有趣的细节

在深入研究的过程中，研究团队发现了一些有趣的细节。比如，当他们可视化生成过程时，发现模型在生成程序的if语句时，往往会在同一步骤内生成整个条件和冒号，这暗示模型已经学到了if语句的模板。FourierSampler所做的，就是让这种已有的知识在正确的时刻被激发出来。

另一个有趣的观察是，不同的任务类型似乎有不同的"最优窗口大小"。编程任务偏好一个大小，而数学问题偏好另一个大小。这表明，语言不同领域的结构特性可能有所不同，而FourierSampler能够通过调整参数来适应这些差异。

还有一个细节值得注意：即使是在随机采样基线（一个非常简单的生成策略）上，FourierSampler也能带来改进。这表明该方法不是仅仅在某些特定的条件下有效，而是具有广泛的适用性。

Q&A

**Q1：扩散语言模型和传统自回归模型的根本区别是什么？**

A：扩散模型可以同时考虑全局信息，不受"必须从左到右逐字生成"的限制，理论上应该更灵活。但实际上扩散模型存在严重的位置偏差，生成质量往往不理想。相比之下，自回归模型虽然受限，但遵循自然的阅读顺序，实际性能往往更好。

**Q2：低频和高频成分在文本生成中分别代表什么？**

A：通过傅里叶变换分析可以发现，低频成分对应文本的逻辑骨架，比如控制流关键词（if、return）、连词和介词。高频成分对应具体细节，比如变量名、函数名和具体数值。这个对应关系在代码和数学文本中都得到了验证。

**Q3：FourierSampler为什么比其他方法效果更好？**

A：FourierSampler不是从外部强行规则，而是挖掘模型隐藏状态中已有的频率信息，让模型按照自然的"结构优先、细节其后"的顺序生成。这个策略符合语言的自然逻辑，因此特别有效，并且在代码和数学任务上的改进高达20%以上。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.