网易首页 > 网易号 > 正文 申请入驻

傅里叶变换如何让机器学会更聪明的生成方式

0
分享至


这些年,人工智能生成文本的方式基本分为两大派系。一派是传统的自回归模型,就像一个人写作文一样,从左到右逐字逐句地往下写,每写一个字都必须看着前面已经写好的部分。另一派是扩散模型,它的工作方式完全不同,有点像在一张写满了乱码的纸上逐步擦除噪音,最后显露出清晰的文字。这个新兴的扩散语言模型派系有个巨大的优势——它可以同时考虑全局的信息,而不是被迫只看前文。理论上,这应该能做出更聪明的文本生成。

但问题来了。虽然扩散模型看起来很灵活,能够以任意顺序生成文本,实际研究却发现这些模型在操作时往往偏好某些特定的位置,这被称为位置偏差。换句话说,模型虽然有自由的权利,但就像一个有选择恐惧症的人,它还是倾向于重复一些习惯性的做法。最糟糕的是,即使强行改变这些习惯,模型的表现也未必会更好。这就像一个天才运动员被迫改变自己的习惯动作,结果反而表现下滑。

来自复旦大学、上海创新研究院和OpenMOSS团队的研究人员最近发表了一项有趣的研究,试图从一个全新的角度破解这个难题。他们没有试图用外部规则去强行纠正模型的坏习惯,而是决定深入模型的内心世界,看看模型本身是否已经有一套合理的逻辑。这项研究发表于2026年1月,编号为arXiv:2601.23182,相信会在语言模型研究领域引起不少讨论。

一、模型内部的频率秘密

要理解这项研究的创新之处,我们首先需要懂得一个概念。当我们说到"频率"时,你可能会想到音乐的高音和低音。同样的思想也适用于文本。如果把一段文本的隐藏特征用数学方式分解,可以分解成不同的"频率成分"。有趣的是,这些频率成分似乎各司其职。

研究团队通过分析一段代码(计算最大公约数的Python脚本)和一段数学推导(关于平方差公式的文字)做了一个启发性的观察。他们提取出了模型最后一层的隐藏状态,然后使用傅里叶变换把这些状态从时间域转换到频率域。傅里叶变换就像一个神奇的显微镜,能让我们看到原本看不见的不同"频率成分"。

当他们把这两个例子的频率分解后,惊人的规律出现了。代码片段中的关键词——比如if、elif、return这样的逻辑骨架——集中出现在低频段。与此同时,具体的函数名称gcd、变量名fib之类的细节信息则躲在高频段。数学推导例子也展现出完全相同的模式。那些引导逻辑的叙述文本是低频的,而具体的数学公式和变量是高频的。

这就像一个建筑工程的比喻。建造一栋房子时,你首先需要确定整体框架和结构——这是低频的"骨架"。只有当骨架稳固后,你才能着手装饰和填充细节——这就是高频的"血肉"。如果你颠倒这个顺序,先忙着装修细节,却还没搭好框架,最后会导致整个建筑摇摇欲坠。

这个发现至关重要,因为它首次在扩散语言模型中证实了这样的关联。低频成分对应的是全局结构,即文本的逻辑骨架,而高频成分对应的是局部细节,即具体的词汇和表达。这不仅仅是一个有趣的现象,更是一个可以利用的线索。

二、"先画草图,再上油彩"的生成策略

既然模型内部已经存在这样的结构信息,研究团队想到了一个想法:为什么不引导模型按照这个自然的顺序去生成文本呢?就像一个画家不是一开始就画细节,而是先勾勒整体轮廓,然后逐步填充细节。

基于这个直觉,他们提出了FourierSampler这个方法。这个方法的核心思想其实不复杂:在生成过程中,用一个在频率空间里移动的"滑动窗口"来逐步引导模型。在生成初期,这个窗口只让模型看到低频信息,所以模型优先生成那些低频的逻辑词汇和结构。随着生成步数增加,窗口逐渐向高频移动,模型开始把注意力转向细节信息。

想象你在做一个复杂的拼图游戏。你不是乱七八糟地把所有碎片都摊出来找,而是有策略地进行。首先,你聚焦在边界片和角落片上,这些帮你确定整体框架。然后,你逐步向内聚焦,处理中间的片段。到了最后,你只需要填补一些细致的细节。FourierSampler的工作原理很相似,只不过它的"碎片"是文本中的不同频率成分。

这个方法实际包含两个巧妙的组件。第一个是翻译过滤评分,这是一个计算标准,用来在每个生成步骤中评估哪些位置应该优先被填充。这个评分基于当前步骤所关注的频率窗口中,各个位置的能量大小。能量越高意味着该位置在当前频率范围内越"重要",因此应该被优先处理。

第二个组件更聪明,叫自适应傅里叶校准器。这个组件的工作是平衡模型的自主决策和来自频率信息的指导。模型本身对何时生成什么词汇有一定的"意见",这来自它在训练中学到的概率分布。如果模型在某个时刻对自己的选择很有信心(意思是不同位置的概率分布很不均匀),那么频率指导就减弱,让模型按自己的想法走。反之,如果模型犹豫不决(各个位置的概率差不多),频率指导就加强,帮助模型找到方向。这就像一个好的教练,在运动员已经充满信心时退后一步,但当运动员迷茫时就站出来指点方向。

三、实验证实了这个聪明策略

研究团队在两类主要的扩散语言模型上测试了这个方法:LLaDA系列和SDAR系列。LLaDA模型采用完全双向注意力机制,而SDAR则使用块状因果注意力。他们在五个不同的基准任务上进行了评估,包括高中数学问题、通用数学问题、编程任务、手工编程题以及一个叫Countdown的推理游戏。

结果相当令人印象深刻。在LLaDA1.5-8B模型上,使用FourierSampler后,在编程基准上提升了20.4%,这是一个显著的改进。在数学基准上也有约7%的提升。整体来看,这个方法使LLaDA1.5-8B的性能达到了50.93分的平均分数,甚至超过了同等规模的自回归模型,比如Llama 3.1-8B-Instruct(48.44分)和Qwen 2.5-7B-Instruct(50.90分)。这是一个非常了不起的成就,因为通常来说,扩散模型的性能要落后于自回归模型。

在更小的模型上,比如SDAR系列,改进更加显著。SDAR-1.7B-Chat在Countdown任务上提升了45.1%,这简直是革命性的进步。即使在不是特别适合的任务上,比如SDAR-1.7B-Chat在HumanEval上的表现,也有14.5%的提升。这表明FourierSampler不是某种特殊的技巧,而是一个广泛适用的原则。

为了验证这个方法确实在做它声称的事情,研究团队进行了一个引人入胜的可视化分析。他们跟踪了一个Fibonacci数列生成任务中的解码过程,画出了在每个生成步骤中,不同位置的"翻译过滤评分"。结果完全符合预期。在生成的早期步骤,代表逻辑骨架的词汇(如if、else、return)获得了最高的评分,因此被优先生成。而那些具体的变量名(fib、n)和数字(0、1)则要等到更晚的阶段才被生成。这不是巧合,而是该方法精心引导的结果。

四、深入理解"结构优先"的逻辑

为什么"结构优先"这个策略如此有效呢?研究团队进行了额外的分析来回答这个问题。他们在一个大规模的文本数据集(WikiText-103)上进行了统计分析,查看不同词性的单词如何分布在频率域中。

结果很有启发性。连词(但是、因为、如果)和介词(在、为了、从)高度集中在低频域。这些词汇的作用是什么呢?它们构成了句子的逻辑框架。一个句子的基本逻辑结构往往由这些词汇决定。相比之下,名词(特别是具体的、指代特定事物的名词)则强烈倾向于高频。名词通常填充逻辑框架中的具体内容。

这个现象完全符合语言学的基本认识。功能词负责建立关系和逻辑,而内容词负责填充具体信息。如果你没有建立好逻辑关系,再多的具体信息也无法组织成有意义的句子。相反,如果逻辑清晰了,即使某些具体细节有小误,整体的句子仍然能被理解。

这就回到了为什么"结构优先"会有效。扩散模型在之前的随意生成中之所以经常出问题,可能正是因为它过早地陷入了细节的泥潭。它可能先确定了一些具体的变量名,然后才想起来要建立代码的控制流。这就像先确定了房间里的家具颜色,才意识到应该先建造房间本身。一旦做出了这样的错误决定,要纠正就很困难了。通过强制模型按照"低频到高频"的顺序进行,我们实际上是在强制它遵循语言的自然逻辑。

五、方法的微妙之处和自适应机制

FourierSampler看起来简单,但其中有很多精心设计的细节。首先,频率窗口的大小必须精心选择。窗口太宽,低频指导会混入太多高频噪音,失去指向性。窗口太窄,模型在每个步骤可以看到的有用信息太少。研究团队为不同的模型选择了不同的窗口大小,这表明这个参数需要根据具体情况调整。

其次,解码块的大小非常重要。研究团队发现,当块越大时,频率分析越准确。这是因为傅里叶变换需要足够的数据才能准确识别频率成分。当块太小时,频率信息会被分散,导致分析不准确。有趣的是,正因为FourierSampler能更好地指导生成,它使得即使增大块的大小(通常会降低性能),模型的表现仍然能够保持甚至提升,这是一个非常有实际意义的发现。

最精妙的设计是自适应权重机制。这个机制的核心思想是:模型自己最了解它什么时候需要帮助。当模型对当前的生成决策很有把握时(体现在不同位置的预测概率差异很大),频率指导权重就自动降低,让模型按自己的直觉走。当模型不确定时(各个位置的预测概率接近),频率指导权重就增加,帮助模型做决定。这种动态的平衡确保了方法既能提供有效的指导,又不会过度干预模型的学习过程。

权重的计算基于过去20个生成步骤中,模型预测概率的方差。研究团队将这个方差进行百分位数转换,最后通过标准正态分布的累积分布函数进行平滑映射,得到一个在(0,1)区间内的权重。这听起来复杂,但目的很简单:让权重的变化平滑自然,避免突兀的跳跃。

六、从另一个角度看:为什么其他方法不够好

要真正欣赏FourierSampler的创新,我们应该看看之前的方法有什么问题。早期的方法大多采用"位置感知"的策略,即根据位置给予不同的生成优先级。但这本质上还是在用人工规则强行纠正模型,而不是从模型内部的结构出发。另一些方法使用奖励模型,即训练一个额外的模型来评估生成质量,然后用这个评估来指导生成。这虽然在某些情况下有效,但计算成本高,而且奖励模型本身可能带入新的偏差。

FourierSampler的根本优势在于,它不是从外部施加规则,而是挖掘了模型本身已经学到的知识。模型的隐藏状态中已经包含了频率信息,而频率信息已经对应了文本的结构和细节。我们所做的一切,就是让这些已有的信息为生成过程服务。这就像一个优秀的企业管理者,不是胡乱添加新的制度,而是发现并激活员工已有的潜能。

七、实际应用前景

这项研究的实际应用前景如何呢?首先,对于代码生成,FourierSampler带来的改进直接翻译为更少的语法错误和逻辑错误。代码的生成本身就遵循"先建立控制流,再填充具体实现"的模式,所以结构优先的策略特别匹配。对于数学问题求解,相似的逻辑成立。解决一道数学题需要先理解问题的整体结构,再推导具体步骤。

其次,这个方法对小模型特别有价值。SDAR-1.7B-Chat虽然参数量不大,但在Countdown任务上的45%提升表明,通过聪明的解码策略,小模型也能做得很好。这对移动设备和边缘计算很重要,因为不是每个人都能运行80亿参数的大模型。

最后,这个研究打开了一扇新的大门。既然频率信息对应到了语义信息,那么是否还有其他的频域特征可以被利用呢?是否可以用频域分析来更好地理解模型为什么会出现某些错误呢?是否可以在训练阶段就加入频域的约束,使模型从一开始就学会这种"结构优先"的生成方式呢?这些都是未来研究可以探索的方向。

八、一些有趣的细节

在深入研究的过程中,研究团队发现了一些有趣的细节。比如,当他们可视化生成过程时,发现模型在生成程序的if语句时,往往会在同一步骤内生成整个条件和冒号,这暗示模型已经学到了if语句的模板。FourierSampler所做的,就是让这种已有的知识在正确的时刻被激发出来。

另一个有趣的观察是,不同的任务类型似乎有不同的"最优窗口大小"。编程任务偏好一个大小,而数学问题偏好另一个大小。这表明,语言不同领域的结构特性可能有所不同,而FourierSampler能够通过调整参数来适应这些差异。

还有一个细节值得注意:即使是在随机采样基线(一个非常简单的生成策略)上,FourierSampler也能带来改进。这表明该方法不是仅仅在某些特定的条件下有效,而是具有广泛的适用性。

Q&A

**Q1:扩散语言模型和传统自回归模型的根本区别是什么?**

A:扩散模型可以同时考虑全局信息,不受"必须从左到右逐字生成"的限制,理论上应该更灵活。但实际上扩散模型存在严重的位置偏差,生成质量往往不理想。相比之下,自回归模型虽然受限,但遵循自然的阅读顺序,实际性能往往更好。

**Q2:低频和高频成分在文本生成中分别代表什么?**

A:通过傅里叶变换分析可以发现,低频成分对应文本的逻辑骨架,比如控制流关键词(if、return)、连词和介词。高频成分对应具体细节,比如变量名、函数名和具体数值。这个对应关系在代码和数学文本中都得到了验证。

**Q3:FourierSampler为什么比其他方法效果更好?**

A:FourierSampler不是从外部强行规则,而是挖掘模型隐藏状态中已有的频率信息,让模型按照自然的"结构优先、细节其后"的顺序生成。这个策略符合语言的自然逻辑,因此特别有效,并且在代码和数学任务上的改进高达20%以上。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江诗丹顿手表1元起拍,因“未达到保留价”流拍,拍卖公司人员回应:起拍价是处置单位设定

江诗丹顿手表1元起拍,因“未达到保留价”流拍,拍卖公司人员回应:起拍价是处置单位设定

红星资本局
2026-02-01 15:24:17
古天乐承认《寻秦记》亏损,还差1亿回本,仍在卖力宣传

古天乐承认《寻秦记》亏损,还差1亿回本,仍在卖力宣传

光影新天地
2026-02-02 16:45:30
重仓未来!商业航天 3 大蓝海赛道(附核心公司)

重仓未来!商业航天 3 大蓝海赛道(附核心公司)

飞跑的鹿
2026-02-03 20:16:02
爱泼斯坦案文件再度曝光,各国政要都有哪些被“拉下水”?

爱泼斯坦案文件再度曝光,各国政要都有哪些被“拉下水”?

上游新闻
2026-02-03 15:13:08
卡扎菲次子赛义夫丧生

卡扎菲次子赛义夫丧生

每日经济新闻
2026-02-04 08:42:00
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
不要嘲笑那对给娃娃菜下毒的浙江夫妻

不要嘲笑那对给娃娃菜下毒的浙江夫妻

灰白笔记
2026-02-03 21:25:26
北京退休教授娶30岁美女空姐,次年生下龙凤胎,前男友突然找来

北京退休教授娶30岁美女空姐,次年生下龙凤胎,前男友突然找来

秋风专栏
2025-04-27 11:16:32
中国3大通血管食物,红薯排第3,第1名家家都有,很多人却不爱吃

中国3大通血管食物,红薯排第3,第1名家家都有,很多人却不爱吃

江江食研社
2026-02-03 16:30:06
爱泼斯坦的鬼魂在折磨西方权贵精英们!

爱泼斯坦的鬼魂在折磨西方权贵精英们!

糖逗在娱乐
2026-02-04 03:27:49
离婚7年,王小玮高调官宣喜讯,让前夫王小海和凤凰传奇沉默了

离婚7年,王小玮高调官宣喜讯,让前夫王小海和凤凰传奇沉默了

白面书誏
2026-02-02 23:12:00
新华社消息|外交部:中方要求美国执法部门立即停止对中国企业人员的无端盘查

新华社消息|外交部:中方要求美国执法部门立即停止对中国企业人员的无端盘查

新华社
2026-02-02 20:08:16
读秒弑杀旧主!6000万先生救赎之战,阿森纳死里逃生进决赛!

读秒弑杀旧主!6000万先生救赎之战,阿森纳死里逃生进决赛!

听我说球
2026-02-04 08:11:55
国民党贵客抵京后,岛内变天,郑丽文收到噩耗,赖清德支持率惊人

国民党贵客抵京后,岛内变天,郑丽文收到噩耗,赖清德支持率惊人

谛听骨语本尊
2026-02-03 14:08:16
演员陈嘉仪自曝痛苦决定:丈夫多器官衰竭生命垂危时,她选择放弃抢救……遭儿子责怪“为什么不救”

演员陈嘉仪自曝痛苦决定:丈夫多器官衰竭生命垂危时,她选择放弃抢救……遭儿子责怪“为什么不救”

新民周刊
2026-02-02 16:06:49
彩电零售量跌破3000万台的恶果

彩电零售量跌破3000万台的恶果

家电圈
2026-02-03 19:50:24
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
0-3!U16国足遭亚洲冠军打爆,球迷:部分球员因生活作风问题被弃

0-3!U16国足遭亚洲冠军打爆,球迷:部分球员因生活作风问题被弃

侃球熊弟
2026-02-03 23:31:16
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
袁悦扔拍庆祝!3小时24分钟赢下马拉松大战,王欣瑜追平生涯最佳

袁悦扔拍庆祝!3小时24分钟赢下马拉松大战,王欣瑜追平生涯最佳

排球黄金眼
2026-02-04 00:37:45
2026-02-04 09:12:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7118文章数 548关注度
往期回顾 全部

科技要闻

李飞飞:AI的终点不是写代码,而是人类的尊严

头条要闻

牛弹琴:180度转弯 和特朗普"你死我活"的狠人去了白宫

头条要闻

牛弹琴:180度转弯 和特朗普"你死我活"的狠人去了白宫

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

大S逝世一周年 S家没通知大S子女惹争议

财经要闻

35岁入行,先被考证“割韭菜”

汽车要闻

上汽决定不再等那个“正确答案”了

态度原创

健康
旅游
亲子
房产
公开课

耳石症分类型,症状大不同

旅游要闻

澳门“欢乐春节”系列活动丰富“旅游+盛事”魅力

亲子要闻

2月大婴儿死亡,原因酒精中毒??亲妈故意往奶瓶里放酒,直接喝死了...

房产要闻

大盘最低杀到8000+/㎡!海口59盘,最新房价曝光!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版