网易首页 > 网易号 > 正文 申请入驻

揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷

0
分享至

新智元报道

编辑:LRST

【新智元导读】北京大学研究团队开发的FAN模型能有效捕捉数据中的周期性模式,相比传统模型在多项任务中表现出色,同时降低了参数量和计算量,增强了对周期性特征的建模能力,应用潜力广泛。

周期性现象广泛存在,深刻影响着人类社会和自然科学。作为最重要的基本特性之一,许多规律都显式或隐式地包含周期性,例如,天文学中的行星运动、气象学中的季节变化、生物学中的昼夜节律、经济学中的商业周期、物理学中的电磁波,以及数学运算和逻辑推理等。

因此,在许多任务和场景中,人们希望对周期进行建模,以便根据以往的经验进行推理。

尽管以 MLP 和 Transformer 为代表的基础模型已经取得了显著的成功,但是它们却在周期性建模方面存在潜在的缺陷。

即使面对简单的正弦函数,现有基础模型也难以理解其中的周期性规律,在外推时表现出完全失控的状态,未能有效捕捉到周期性现象的本质。

为此,北京大学李戈教授的团队提出了一种新型网络架构FAN(Fourier Analysis Networks)。通过引入傅里叶级数的思想,FAN能够将周期性信息直接嵌入网络的结构中,使模型更自然地捕捉和理解数据中的周期性模式。

实验表明,FAN不仅在周期性建模上的表现显著优于现有模型,而且在符号公式表示、时间序列预测和语言建模等实际任务中也同样表现出色,超过了Transformer等主流模型。

论文链接:https://arxiv.org/pdf/2410.02675.pdf

代码链接:https://github.com/YihongDong/FAN

图1 不同基础模型在其训练数据域内外对正弦函数的表现,其中x为标量

研究者认为,许多实际任务都显式或者隐式地包含潜在的周期性特征,良好的周期性建模对于提升模型在这些任务上的表现是必要的,而现有基础模型严重依赖数据驱动的优化方式,缺少明确的机制来理解数据中的根本原理。

FAN的意义在于,它提供了一种全新的范式来有效地建模周期性,能够无缝替换传统MLP,同时减少参数量和计算量,填补了当前基础模型在周期性建模上的缺陷,并展示出广泛的应用潜力。

图2 MLP Layer和FAN Layer的示例

本文的通讯作者是北京大学计算机学院长聘教授、教育部长江学者李戈。第一作者:董益宏,北京大学计算机学院22级博士生,曾在ISSTA、FSE、ACL、NeurIPS、TOSEM等 CCF-A类/SCI一区国际顶级会议和期刊上发表11篇学术论文。

FAN的实现细节

北大研究团队首先构建一个简单神经网络来建模傅里叶级数,然后在此基础上设计了FAN网络架构。

为构建一个简单的神经网络表示函数的傅里叶级数展开,我们可以将表示为:

其中是可学习参数,(I) 根据和通过定积分计算,(II) 和 (III) 是矩阵运算的等价形式,[·||·] 和 [·, ·] 分别表示沿第一维度和第二维度的连接。

因此,可以表示为:

其中表示左侧函数作用于右侧输入x,即。

然而,我们发现直接堆叠会导致模型的主要参数集中于学习角频率,从而忽略了傅里叶系数和的学习,如下所示:

其中定义为用于近似角频率,用于近似傅里叶系数。

因此,拟合傅里叶系数的能力与的深度无关,这是一个不理想的结果。

为了应对这一问题,研究团队根据以下原则设计了FAN:

1. FAN 表示傅里叶系数的能力应与其深度正相关;

2. 任何隐藏层的输出都可以通过后续层使用傅里叶级数来建模周期性。

第一个原则通过利用FAN的深度增强了其周期性建模的表现力,而第二个原则确保FAN中间层的特征可用于执行周期性建模。

假设我们将解耦为:

其中,

为了满足这两个原则,FAN的中间层输入需要同时使用和而不是依次应用它们。

最终,FAN 基于此设计,其FAN层定义如下:

其中是可学习参数,表示激活函数。

整个FAN定义为FAN Layer的堆叠:

其中,

FAN的性能表现

周期建模

图3 FAN在周期性建模中的表现与 MLP、KAN 和 Transformer 相比,其中绿线表示训练数据域内的测试数据,而蓝线表示训练数据域外的测试数据

图3展示了FAN和其他模型在周期性建模中的表现。结果表明,现有的神经网络(包括 MLP、KAN 和 Transformers)在建模周期性方面表现出明显的不足。尽管它们试图拟合这些周期函数,但其内在能力限制了它们在大范围周期性上的性能表现。

相比之下,FAN在所有这些周期性建模任务中都明显优于基线。更值得一提的是,FAN在训练数据域内和域外的测试数据上都表现得非常出色,表明它能够真正理解周期性的深刻原理并对其进行精准建模,而不仅仅是记住训练数据。

图4 不同模型在学习复杂周期函数任务上的训练和测试损失比较

研究团队还分析了不同模型在学习复杂周期函数任务上的训练过程,如图4所示,结果如下:

1. FAN在收敛速度和最终效果方面都远远超过其他模型;

2. 与FAN相比,FAN (Gated) 通常可以实现更快的收敛,但最终性能仍然相当;

3. 随着训练轮数的增加,虽然其他模型的训练损失变得稳定或逐渐减少,但它们的建模可能与测试数据的分布有很大差异,导致测试损失急剧增加。这一现象进一步证明了这些模型在捕捉周期性方面的缺陷。

符号公式表示

图5 不同模型在符号公式表示任务中不同参数量的表现

从不同模型应用于数学和物理学中四个常见函数的表现中可以观察到,虽然 KAN 在参数数量较少时能与FAN相媲美,但随着参数数量的增加,其性能会显著下降。

相反,随着参数数量的增加,FAN拟合这些函数始终优于其他基线,包括 MLP、KAN 和 Transformer,尽管这些函数中的许多只是部分周期性的或完全非周期性的。

这些结果表明,FAN不仅增强了对周期性的建模能力,同时也没有损害拟合非周期性函数的能力。

时间序列预测

如表2 所示,研究团队在四个公共数据集上比较了结合FAN的Transformer 和其他序列模型在时间序列预测任务上的表现。在大多数情况下,与 LSTM、Mamba 和标准 Transformer 相比,结合FAN和FAN(Gated)的Transformer 在这些任务上取得了最佳性能。

它们相对于标准 Transformer 的改进是显著的,平均相对改进范围为14.3%-15.0%的 MSE和7.6%-7.9%的MAE。

这些结果表明,在神经网络中加入显式周期模式编码可以提高实际应用中的时间序列预测性能。

语言建模

探究者报告了不同序列模型在四种情绪分析数据集上的性能比较,如表3所示。

可以发现,结合FAN和FAN(Gated)的Transformer与标准 Transformer 和其他序列模型(例如 LSTM 和 Mamba)相比表现出明显优越的性能,尤其是在 IMDB、Sentiment140 和 Amazon Reviewers 数据集上的零样本跨领域表现。

结合FAN的 Transformer 在损失和准确度方面分别实现了最14.65%和8.50%的相对改进,同时将参数数量减少了约 14.16M。结果表明周期性建模在跨领域语言建模和情绪分析任务上具有提高有效性和泛化的潜力。

FAN的表达能力和应用范围

FAN在理论上具有与MLP相同的表达能力,因为它也遵循通用近似定理,这确保了其函数近似能力。不同的是,FAN通过明确纳入周期性,引入了重要的功能增强,这是传统MLP所不具备的。

FAN的这一设计,不仅全面继承了MLP的既有优势,还增强了其捕获数据周期性特征的能力。因此,FAN可以作为MLP的有力替代品。

当然,FAN的实用性不仅限于明确需要周期性建模的任务,在更广泛的应用中也展现出强大的适用性。研究团队通过一系列现实世界任务的实验证明,如符号公式表示、时间序列预测和语言建模等,FAN的表现明显优于MLP和其他基线模型。

事实上,许多看似与周期性无直接关联的机器学习任务,如数学运算和逻辑推理,实际上也可能隐藏着周期性。

如果神经网络缺乏针对周期性特征进行建模的能力,则可能会损害其学习效率。

从更深层次的角度来看,周期性不仅仅是一种数据特征,还反映了一种规律或知识,即允许抽象的规则和原理在不同上下文之间转移和重用。

总结来看,FAN与MLP相比,不仅增强了周期性建模能力,且参数量和计算量更少,有望成为基础模型的关键组成部分。

未来,北大研究团队将进一步扩大FAN的应用范围,增强其作为基础模型组件的表现,持续推动基础模型的技术进步与创新发展。

参考资料:

https://arxiv.org/pdf/2410.02675.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中超:成都1-1海牛!3轮不败+14分领跑,杨明洋、杨聪破门

中超:成都1-1海牛!3轮不败+14分领跑,杨明洋、杨聪破门

乒烧泳球
2026-07-05 21:03:17
国家一级文物上现广告字样,中国工艺美术馆回应:已反映给青海省博物馆,会有专人处理

国家一级文物上现广告字样,中国工艺美术馆回应:已反映给青海省博物馆,会有专人处理

潇湘晨报
2026-07-05 13:12:18
沃齐尼亚:梅西很好他答应了给我球衣,但很遗憾我因为采访而错过了

沃齐尼亚:梅西很好他答应了给我球衣,但很遗憾我因为采访而错过了

懂球帝
2026-07-05 03:08:12
7月5日,2026年上调退休人员基本养老金的通知正式发布了吗?

7月5日,2026年上调退休人员基本养老金的通知正式发布了吗?

小彬说事
2026-07-05 10:12:46
世界杯早早出局后换帅!罗马诺:克洛普将担任德国队主教练

世界杯早早出局后换帅!罗马诺:克洛普将担任德国队主教练

全景体育V
2026-07-05 18:19:29
9.37吨战略物资偷运日本,这不是走私,是叛国!

9.37吨战略物资偷运日本,这不是走私,是叛国!

华山穹剑
2026-07-04 20:30:02
快讯!台北市长蒋万安正式宣布了!

快讯!台北市长蒋万安正式宣布了!

故事终将光明磊落
2026-07-05 13:57:32
失联8天,在新疆遭泥石流卷走的苏州母子已被找到,均不幸遇难:母亲的遗体在下游水库中被先行找到;约20分钟后,孩子的遗体也被找到

失联8天,在新疆遭泥石流卷走的苏州母子已被找到,均不幸遇难:母亲的遗体在下游水库中被先行找到;约20分钟后,孩子的遗体也被找到

都市快报橙柿互动
2026-07-05 20:14:17
男子称在胖东来自营影院看电影时,因电影不太符合自己中途离场,工作人员询问后退了一半费用,“20多年人生中的第一次,特别感慨”

男子称在胖东来自营影院看电影时,因电影不太符合自己中途离场,工作人员询问后退了一半费用,“20多年人生中的第一次,特别感慨”

扬子晚报
2026-07-05 15:25:08
中央考核巡查组严厉质问:管理人员呢?你们上去过这个架子吗?

中央考核巡查组严厉质问:管理人员呢?你们上去过这个架子吗?

新京报政事儿
2026-07-05 15:46:20
江浙沪或将遭遇17级超强台风,今年第9号台风“巴威”登陆华东概率较大

江浙沪或将遭遇17级超强台风,今年第9号台风“巴威”登陆华东概率较大

上观新闻
2026-07-05 21:25:41
炸裂!世界杯首个8强诞生,非洲雄狮撕碎东道主,5脚射门灌进3球

炸裂!世界杯首个8强诞生,非洲雄狮撕碎东道主,5脚射门灌进3球

菁菁子衿
2026-07-05 10:05:14
第85分钟绝平!替补神锋绝境救主,中超领头羊意外翻车:41分领跑

第85分钟绝平!替补神锋绝境救主,中超领头羊意外翻车:41分领跑

足球狗说
2026-07-05 20:58:07
王力宏摔倒细节曝光!出事不是偶然,凶器被故意放脚边,嫌犯被抓

王力宏摔倒细节曝光!出事不是偶然,凶器被故意放脚边,嫌犯被抓

秋姐居
2026-07-05 16:32:30
中国最后还是松了口?高市早苗访印专机直接从中国领空穿行而过!

中国最后还是松了口?高市早苗访印专机直接从中国领空穿行而过!

阿龙聊军事
2026-07-05 08:22:41
《我不是药神》上映8周年,原型陆勇:曾吃药“一年吃掉一套房”,抗癌24年将在10月尝试停药

《我不是药神》上映8周年,原型陆勇:曾吃药“一年吃掉一套房”,抗癌24年将在10月尝试停药

极目新闻
2026-07-05 09:49:18
7月5日,人社部财政部关于2026年调整基本养老金的通知有公布吗?

7月5日,人社部财政部关于2026年调整基本养老金的通知有公布吗?

小谈食刻美食
2026-07-05 07:35:52
皇马官宣第4签!30岁邓弗里斯加盟,买断费2000万,穆帅再获补强

皇马官宣第4签!30岁邓弗里斯加盟,买断费2000万,穆帅再获补强

夏侯看英超
2026-07-05 20:09:55
扎哈罗娃:俄罗斯劝诫和平的方法已经改变

扎哈罗娃:俄罗斯劝诫和平的方法已经改变

参考消息
2026-07-05 15:12:35
1夜7大转会!曼城签下安德森,渣叔执教德国在即,阿克转战土超!

1夜7大转会!曼城签下安德森,渣叔执教德国在即,阿克转战土超!

田先生篮球
2026-07-05 07:36:43
2026-07-05 21:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15614文章数 66949关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

在新疆遭泥石流卷走失联多日的母子被找到 均不幸遇难

头条要闻

在新疆遭泥石流卷走失联多日的母子被找到 均不幸遇难

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

家居
旅游
教育
本地
公开课

家居要闻

传奇筑 日常诗

旅游要闻

让更多游客留下来过夜,上海主题乐园打响加时赛

教育要闻

热榜!2026大家都想报什么热门专业?一图看清!

本地新闻

国内足球之旅?这座小城给你高分答案

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版