网易首页 > 网易号 > 正文 申请入驻

北大清华提出WaveFormer,首创波动方程建模视觉

0
分享至



“全局交互” 几乎等同于 self-attention:每个 token 都能和所有 token 对话,效果强,但代价也直观 —— 复杂度随 token 数平方增长,分辨率一高就吃不消。现有方法大多从 “相似度匹配” 出发(attention),或从 “扩散 / 传导” 出发(热方程类方法)。但热方程本质上是一个强低通滤波器:随着传播时间增加,高频细节(边缘、纹理)会迅速消失,导致特征过平滑。

我们是否能找到一种既能实现全局交互,又能精准保留高频细节的物理建模方式?

来自北京大学和清华大学的研究团队给出了答案:波动方程(Wave Equation):把特征图当作空间信号,让语义在网络深度对应的 “传播时间” 里,遵循欠阻尼波动方程演化。这样一来,低频的全局结构与高频的边缘纹理不再是 “此消彼长” 的牺牲关系,而可以在可控的波动传播中共同存在。在 AAAI 2026 Oral 论文《WaveFormer: Frequency-Time Decoupled Vision Modeling with Wave Equation》中,研究者首次将视觉特征图视为在波动传播时间下演化的空间信号,受欠阻尼波动方程支配。



  • 论文链接:https://arxiv.org/abs/2601.08602
  • 代码仓库:https://github.com/ZishanShu/WaveFormer

WaveFormer 首次将波动方程作为视觉主干网络的核心全局建模机制。



方法拆解:把图片当作 “波场”,特征当作 “波”,让语义振荡传播

WaveFormer 的关键思想可以用一句话概括:

全局交互不一定要靠 “相似度匹配”(attention),也可以靠 “波传播动力学”。

WaveFormer 将特征传播写成一个欠阻尼波动方程:

  • u (x, y, t):语义场(可以理解为特征图随 “传播时间” 演化)
  • v:传播速度(控制传播范围)
  • :阻尼系数(控制衰减强弱)

它还引入了一个很有意思的设定:除了初始语义场u0,还允许一个 “初始速度场”v0,表示不同区域语义被激活 / 抑制的变化趋势。

这个设定带来的最大变化是:空间频率被显式建模了

论文里明确把 “频率” 对应到 2D 特征图的空间频率:低频是全局布局,高频是边缘与纹理。

WaveFormer 不再把不同频率的信息一股脑丢给网络自己 “学着处理”,而是把它们写进了传播方程的解里:不同频率以不同方式振荡、衰减,但都参与全局语义的长程运输。

关键在于,团队推导了波动方程在频域下的闭式解:



热传导方程和扩散方程的闭式解的对比:



WPO:把闭式解变成一个 O (N log N) 的全局模块

更 “工程友好” 的部分在这里:作者把欠阻尼波动方程的频域解,做成了一个可以直接替换 attention 的算子 WPO。

WPO 的实现流程非常清晰:

1. 把输入特征图变换到频域;

2. 用欠阻尼波动方程的频率–时间解耦的闭式解,对每个频率分量做 “振荡式调制”;

3. 再逆变换回空间域,从而完成一次 “全局语义传播”。

因为核心计算发生在频域(FFT /iFFT),WPO 的全局建模复杂度是O (N log N),论文在摘要里明确对比 “远低于 attention”。

在网络结构上,WaveFormer 走的是层级式骨干:stem + 四个阶段,每个阶段由 WPO Block 组成(WPO + FFN + 下采样),整体可以作为 ViT 或 CNN 的 drop-in backbone。



为什么 “波传播” 适合视觉?一个更直观的理解

如果把一张图像看成 “由低频骨架 + 高频细节叠加” 的信号,那么视觉建模很多时候在做两件事:

  • 低频:抓住整体结构、主体布局、长程一致性;
  • 高频:保住边缘、纹理、细粒度辨别线索。

WaveFormer 的 “波动方程建模” 给了一个很直接的机制:

在频域里,每个频率分量按 “阻尼振荡” 传播:低频衰减慢、负责全局结构;高频振荡快、在阻尼控制下仍能保留边缘纹理。

论文把这种机制称为一种新的、物理一致的建模偏置(physics-inspired inductive bias),用于同时捕捉全局一致性与高频细节。

实验结果:速度、效率与精度的全面超越



WaveFormer 在三类核心任务上验证:ImageNet 分类、COCO 检测 / 实例分割、ADE20K 语义分割。

ImageNet-1K 分类:

WaveFormer-B 在10.8G FLOPs / 68M 参数下达到84.2% Top-1

论文同时给出整体结论:在保持竞争精度的同时,最高可带来1.6× 吞吐提升、30% FLOPs 降低

COCO 检测与实例分割(Mask R-CNN):

WaveFormer 在 box AP 与 mask AP 上整体优于 Swin/ConvNeXt,并且推理 FPS 更高。例如WaveFormer-B 达到 47.9% APb、43.2% APm,推理速度20.4 img/s,比 Swin-B/ConvNeXt-B 分别快48%/45%

ADE20K 语义分割(UperNet):

WaveFormer-B 达到50.5% mIoU,同时 FLOPs 与 FPS 也具备优势;论文把这种提升与 “频率意识的波传播能同时保全局结构与细节边界” 直接关联起来。





总结与展望

WaveFormer 证明了经典的物理波动规律能够为现代人工智能提供强大的归纳偏置 。这种基于波动方程建模的新范式,不仅为视觉基础模型开辟了频域处理的新路径,也为未来多模态语义传播的研究提供了深刻的启示。

WaveFormer 最值得被记住的,可能不是某个单点指标,而是它把 “视觉全局建模” 换了一种语言来描述:

  • 从 “token 相似度交互” 转向 “语义场的动力学传播”;
  • 从 “隐式处理频率” 转向 “显式建模低频 / 高频及其随深度演化”;
  • 从 “黑盒的全局模块” 转向 “可解释、可控(v 与 α 可调)的传播过程”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西班牙太后83岁妹妹去世:葬礼上哭红了眼,妹妹终身未婚陪伴多年

西班牙太后83岁妹妹去世:葬礼上哭红了眼,妹妹终身未婚陪伴多年

毒舌小红帽
2026-01-23 19:45:03
CBA最新排名!浙沪粤居前3,山东逼近前四,辽宁跌至12,新疆崛起

CBA最新排名!浙沪粤居前3,山东逼近前四,辽宁跌至12,新疆崛起

篮球资讯达人
2026-01-24 02:48:30
断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

断崖式下跌!中国人突然不爱喝酒了?真相太扎心!

达文西看世界
2026-01-18 20:56:11
川普达沃斯宣告新世界开始、接管格陵兰及北冰洋、启动联合国重构

川普达沃斯宣告新世界开始、接管格陵兰及北冰洋、启动联合国重构

邵旭峰域
2026-01-23 12:15:08
克林顿不是男人!要用雪茄助兴?莱温斯基:他把我当成“自助餐”

克林顿不是男人!要用雪茄助兴?莱温斯基:他把我当成“自助餐”

老蝣说体育
2026-01-05 14:59:04
快船击败湖人,赛后4个好消息和1个坏消息,冲击前六有希望

快船击败湖人,赛后4个好消息和1个坏消息,冲击前六有希望

邹维体育
2026-01-23 14:07:30
美媒:美国看待中国的心态变了

美媒:美国看待中国的心态变了

环球时报国际
2026-01-23 00:09:22
比利时首相达沃斯语出惊人:做一个快乐的附庸是一回事,做一个可怜的奴隶是另一回事

比利时首相达沃斯语出惊人:做一个快乐的附庸是一回事,做一个可怜的奴隶是另一回事

红星新闻
2026-01-22 21:55:26
陈兴忠,已任外交部干部司司长!涉及副厅长,山西省人民政府最新人事任免!

陈兴忠,已任外交部干部司司长!涉及副厅长,山西省人民政府最新人事任免!

靓仔情感
2026-01-24 06:22:40
窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

窦靖童:我妈钱多到用不完,但穷苦潦倒的爸爸,成了我如今的心病

璀璨幻行者
2026-01-20 04:29:30
她是开国上将之女,曾受启功大师点拨画技,86年因泄密获刑17年

她是开国上将之女,曾受启功大师点拨画技,86年因泄密获刑17年

元哥说历史
2026-01-22 07:10:03
我国为什么要取消2元的人民币?原因很简单,看完您就知道了

我国为什么要取消2元的人民币?原因很简单,看完您就知道了

通文知史
2026-01-20 17:20:03
有人预测:明后年,二三十层电梯房,或将面临这3个结局,太真实

有人预测:明后年,二三十层电梯房,或将面临这3个结局,太真实

平说财经
2026-01-24 00:03:37
4大种子出局!德约支招18岁小将爆冷鲍里妮,大坂直美遭名宿批评

4大种子出局!德约支招18岁小将爆冷鲍里妮,大坂直美遭名宿批评

排球黄金眼
2026-01-24 02:03:16
曲婉婷跌入斩杀线:贪腐阴影下的全面崩塌!

曲婉婷跌入斩杀线:贪腐阴影下的全面崩塌!

达文西看世界
2026-01-19 18:25:35
哥大反以抗议领袖或被驱逐出境,美国政府明确去向:阿尔及利亚

哥大反以抗议领袖或被驱逐出境,美国政府明确去向:阿尔及利亚

桂系007
2026-01-22 22:59:17
小伙骑车撞特斯拉后赔偿1.5万修车费,4S店发票咋只开了9000元?多方回应

小伙骑车撞特斯拉后赔偿1.5万修车费,4S店发票咋只开了9000元?多方回应

大风新闻
2026-01-22 12:09:03
库里38分勇士不敌独行侠2连败,马绍尔30分7板9助弗拉格21分11板

库里38分勇士不敌独行侠2连败,马绍尔30分7板9助弗拉格21分11板

湖人崛起
2026-01-23 11:11:50
李亚鹏最骄傲的投资:16年养大的汶川女孩,如今给他转了10008元

李亚鹏最骄傲的投资:16年养大的汶川女孩,如今给他转了10008元

牛牛叨史
2025-12-10 22:19:51
事实证明,吃完贾玲红利的张小斐,又回到了她的怪圈,黄渤没说错

事实证明,吃完贾玲红利的张小斐,又回到了她的怪圈,黄渤没说错

小白兔YY
2026-01-24 03:57:01
2026-01-24 07:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12179文章数 142549关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

男子被指用SIM卡炼出近200克黄金价值21万元 最新回应

头条要闻

男子被指用SIM卡炼出近200克黄金价值21万元 最新回应

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

本地
艺术
手机
公开课
军事航空

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

艺术要闻

高大上?错,刚够吃:揭秘历代画家混饭史

手机要闻

苹果拟与英特尔重启合作 为未来iPhone代工芯片

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄美乌首次三方会谈在阿联酋举行

无障碍浏览 进入关怀版