网易首页 > 网易号 > 正文 申请入驻

ICCV 2025 | FlowSeek:单卡就能训!融合深度基础模型,光流估计迎来“平民化”SOTA

0
分享至


光流估计是计算机视觉领域的基石任务之一,但其前沿研究长期以来面临着一个严峻的挑战:训练最先进(SOTA)的模型通常需要庞大的硬件集群(例如8块以上的高端GPU),这为许多研究团队和开发者设置了高不可攀的门槛。

为了打破这一“军备竞赛”困局,来自博洛尼亚大学的研究者提出了 FlowSeek,一个全新的、旨在以极简硬件资源实现卓越性能的光流框架。FlowSeek巧妙地将三大技术线的精髓融为一体:最新的光流网络设计、强大的单目深度基础模型以及经典的低维运动参数化。其最终实现了一个紧凑而精确的架构,仅需在单个消费级GPU上训练,其硬件预算比当前主流方法低了约8倍。

更令人瞩目的是,FlowSeek在大幅降低训练成本的同时,展现出了顶级的跨数据集泛化能力。在Sintel Final和KITTI这两个极具挑战性的基准上,其性能相比之前的SOTA模型SEA-RAFT,分别取得了 10%和15% 的相对提升,证明了其“低成本、高效能”的巨大价值。



  • 论文标题 :FlowSeek: Optical Flow Made Easier with Depth Foundation Models and Motion Bases

  • 作者团队 :Matteo Poggi, Fabio Tosi

  • 作者机构 :博洛尼亚大学(University of Bologna, Italy)

  • 论文地址 :https://arxiv.org/abs/2509.05297

  • 项目主页 :https://flowseek25.github.io/

  • 代码地址 :https://github.com/mattpoggi/flowseek

  • 会议信息 :ICCV 2025

研究背景:打破光流研究的“硬件壁垒”

光流估计旨在计算视频中像素点的逐帧运动。自深度学习彻底改变该领域以来,从FlowNet到PWC-Net,再到以RAFT为代表的循环优化架构,光流模型的精度不断攀升。但这种进步的背后,是对两样东西的巨大依赖:

  1. 海量的训练数据 :需要带有高质量光流真值的庞大数据集。

  2. 强大的硬件算力 :需要多GPU并行训练,例如FlowFormer和GMFlow在4块V100上训练,而SEA-RAFT则使用了8块3090。

这种“大力出奇迹”的研究范式,虽然有效,但也使得光流研究变得越来越“昂贵”,阻碍了更广泛的学术探索和技术创新。研究者认为,正如NLP领域的DeepSeek模型用远低于竞争者的预算实现了惊人性能,计算机视觉领域也应探索“循环利用”现有基础模型,而非一味地从零开始“烧钱”训练。FlowSeek正是在这一思想下,对光流估计的“民主化”进行的一次成功探索。

FlowSeek:三大支柱构建的高效架构

FlowSeek的核心思想是“博采众长”,它并非从零设计,而是站在巨人的肩膀上,将三个不同时代、不同领域的先进技术有机地结合起来。其整体架构如下图所示,建立在类RAFT的迭代优化框架之上。


FlowSeek整体架构图。

支柱一:强大的深度基础模型 (Depth Foundation Models)

这是FlowSeek实现卓越泛化能力的关键。研究者敏锐地洞察到,物体的3D几何结构与它在2D图像上产生的运动(光流)之间存在着强关联。

  • 引入几何先验 :FlowSeek直接利用了当前最先进的单目深度估计基础模型(如 Depth Anything v2 )。该模型在海量数据上经过预训练,能够为任意单张图片提供高质量的深度图和丰富的几何特征。

  • 特征融合 :FlowSeek将深度模型提取的深度图(D)和深度特征(Φ)与光流网络自身提取的图像特征(F)进行拼接,形成“ 增强特征 ”(Enriched Features)。这些富含几何先验的特征被用于构建后续的4D相关性金字塔,使得模型在匹配像素时,不仅考虑外观相似性,还考虑了场景的3D结构,从而能更好地处理遮挡、大位移等难题。

支柱二:经典的低维运动基 (Motion Bases)

为了进一步简化学习任务并引入强正则化,FlowSeek借鉴了经典计算机视觉中的思想——用低维参数来表示运动。

  • 运动参数化 :对于一个静态场景,任何由相机运动产生的光流场,都可以被分解为六个运动基(B_motion)的线性组合,这六个基分别对应相机在空间中的六个自由度(三维平移、三维旋转)。

  • 提供运动先验 :FlowSeek将这组经典的运动基作为先验知识输入到一个小型的“ 基网络 ”(Base Network)中,提取出运动特征。这些特征随后被注入到光流的迭代更新过程中,为模型提供了一个关于“可能运动模式”的初始猜测和约束,有效防止了模型在缺乏纹理区域的过拟合,并提升了泛化能力。

支柱三:高效的迭代优化架构

FlowSeek的整体流程沿用了以SEA-RAFT为代表的高效迭代优化框架。一个轻量级的更新网络(UpdNet)在每一次迭代中,综合考虑相关性信息、上一时刻的隐藏状态以及来自深度模型运动基的上下文信息,逐步地对光流预测进行优化和精炼。

实验结果:低成本实现SOTA泛化

FlowSeek的核心亮点在于其惊人的“性价比”——在极低的训练成本下,实现了顶级的跨数据集泛化性能。

训练成本:8倍的硬件预算削减

所有FlowSeek模型均在单块NVIDIA RTX 3090/4090 GPU上完成训练。相比之下,之前的主流方法通常需要8块同等级或更高级别的GPU。这意味着FlowSeek将训练的硬件门槛降低了约8倍,使得普通实验室甚至个人开发者都有可能复现和跟进这项研究。

跨数据集泛化性能:全面超越SOTA

零样本泛化(Zero-shot Generalization)能力是衡量光流模型鲁棒性的黄金标准。实验将在合成数据集(如TartanAir)上训练好的模型,直接拿到真实的测试集(如Sintel, KITTI)上进行评估。


在Sintel和KITTI 2015上的零样本泛化性能对比。

如上表所示,FlowSeek在所有设置下均稳定超越了之前的SOTA模型SEA-RAFT。

  • Sintel Final 基准上,FlowSeek (L) 取得了 2.18 的EPE(End-Point-Error),相比SEA-RAFT (L) 实现了约 10% 的相对性能提升。

  • KITTI 2015 基准上,FlowSeek (L) 的Fl-all指标达到了 11.2% ,相对性能提升更是高达 15%


在Spring上的零样本泛化性能对比。在LayeredFlow (train) first layer evaluation上的零样本泛化性能对比。




定性结果对比。

此外,在更具挑战性的Spring和LayeredFlow数据集上,FlowSeek同样展现了其优越性,证明了其方法的普适性和强大能力。

总结与贡献

FlowSeek的提出,为光流估计领域乃至整个计算机视觉领域都带来了重要的启示。

  1. 提出了首个融合深度基础模型的光流框架 :FlowSeek是第一个成功将预训练深度基础模型的强大几何先验知识引入光流估计的模型,并证明了其巨大潜力。

  2. 实现了资源高效的SOTA性能 :论文最重要的贡献是证明了在无需庞大计算资源的情况下,通过巧妙的架构设计,同样可以实现顶级的模型性能,极大地“民主化”了该领域的研究。

  3. 提供了新的研究范式 :FlowSeek的成功鼓励研究者们更多地去思考如何“复用”和“适配”现有的基础模型来解决新问题,而不是一味地投入到新模型的“从零训练”中,这对于促进AI领域的可持续发展具有重要意义。

FlowSeek不仅是一个优秀的光流模型,更是一种值得借鉴的、务实而高效的研究哲学。它清晰地指明了一条在“后基础模型时代”,应如何进行算法创新的有效路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被嘲“又胖又没文化”!全红婵暨南大学报到才2天,害怕的事发生

被嘲“又胖又没文化”!全红婵暨南大学报到才2天,害怕的事发生

千言娱乐记
2025-09-15 23:49:19
中美密谈了6个小时,美财长眉头紧锁,美国网民感叹:特朗普变了

中美密谈了6个小时,美财长眉头紧锁,美国网民感叹:特朗普变了

博览历史
2025-09-15 20:23:35
惊呆了!西贝的厨师工资7000,服务员8000,网友:就是一个热菜员

惊呆了!西贝的厨师工资7000,服务员8000,网友:就是一个热菜员

明月杂谈
2025-09-15 05:47:53
西贝,被骗6000万!

西贝,被骗6000万!

钧言堂
2025-09-15 16:34:08
热搜爆了!西贝道歉,10月1日前全国门店调整!于东来:希望不要毁了西贝

热搜爆了!西贝道歉,10月1日前全国门店调整!于东来:希望不要毁了西贝

中国基金报
2025-09-15 14:05:40
新华社消息|李成钢:中国绝不会以牺牲原则立场、企业利益和国际公平正义为代价,寻求达成任何协议

新华社消息|李成钢:中国绝不会以牺牲原则立场、企业利益和国际公平正义为代价,寻求达成任何协议

新华社
2025-09-16 00:11:40
4550亿美元!史无前例的订单,狂暴的涨幅,这个全球绝对龙头杀疯了!

4550亿美元!史无前例的订单,狂暴的涨幅,这个全球绝对龙头杀疯了!

价值事务所所长
2025-09-15 21:54:48
全红婵去暨南大学报到才2天,恶心的一幕发生,陈若琳说的真没错

全红婵去暨南大学报到才2天,恶心的一幕发生,陈若琳说的真没错

可乐谈情感
2025-09-16 00:34:13
长期沉迷网络游戏,林海被“双开”

长期沉迷网络游戏,林海被“双开”

扬子晚报
2025-09-15 19:15:16
轮到以色列被打了!突发:以最大城市被炸,数百万人逃入避难所

轮到以色列被打了!突发:以最大城市被炸,数百万人逃入避难所

起喜电影
2025-09-15 07:30:55
美制武器遭多国放弃,乌克兰女博主曝比尔盖茨援乌100亿美元细节

美制武器遭多国放弃,乌克兰女博主曝比尔盖茨援乌100亿美元细节

史政先锋
2025-09-15 17:41:44
2-0!4-1!蓉城迎亚冠首秀,创四川历史,客战韩国冠军,央视不播

2-0!4-1!蓉城迎亚冠首秀,创四川历史,客战韩国冠军,央视不播

侃球熊弟
2025-09-16 00:25:03
陈震谈小米16改名:让人一看到iPhone 17就想到小米17

陈震谈小米16改名:让人一看到iPhone 17就想到小米17

手机中国
2025-09-15 13:45:01
俄军飞手投弹炸倒乌军,发现是女兵后放弃“补刀”,女兵随即起身脱掉装具狂奔撤离

俄军飞手投弹炸倒乌军,发现是女兵后放弃“补刀”,女兵随即起身脱掉装具狂奔撤离

鲁中晨报
2025-09-15 13:31:06
第14次!杜普兰蒂斯毫无悬念夺金,6米30再破撑竿跳世界纪录

第14次!杜普兰蒂斯毫无悬念夺金,6米30再破撑竿跳世界纪录

直播吧
2025-09-15 21:59:33
徐卓一110米栏赢了今年世界第一

徐卓一110米栏赢了今年世界第一

现代快报
2025-09-15 22:40:06
全球仅剩40只!2005年,吉林男子上山挖野菜,发现被吊死了一只

全球仅剩40只!2005年,吉林男子上山挖野菜,发现被吊死了一只

万象硬核本尊
2025-09-15 20:01:28
“完美女神”热巴生图被揭,鼻子大腋下黑,生图才是“人间真实”

“完美女神”热巴生图被揭,鼻子大腋下黑,生图才是“人间真实”

八卦南风
2025-09-15 12:34:21
今夜,大涨!中美,大消息!

今夜,大涨!中美,大消息!

中国基金报
2025-09-16 00:11:03
1.93米的法国顶级模特真是人间尤物 一双大长腿让人垂涎三尺

1.93米的法国顶级模特真是人间尤物 一双大长腿让人垂涎三尺

蒂蒂茱家
2025-09-15 13:38:17
2025-09-16 06:51:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5076文章数 64587关注度
往期回顾 全部

科技要闻

官方:英伟达违反反垄断法 将施进一步调查

头条要闻

中美就妥善解决TikTok问题达成基本框架共识

头条要闻

中美就妥善解决TikTok问题达成基本框架共识

体育要闻

诺维茨基退役十年后,德国篮球走向巅峰

娱乐要闻

60岁张曼玉定居法国:瘦成皮包骨?

财经要闻

华与华秒怂 罗永浩称已接到对方道歉

汽车要闻

后轮转向和5C 2026款梦想家把想到的都给了

态度原创

本地
时尚
手机
亲子
健康

本地新闻

云游中国 | 草原驭秋风 祁连山邂逅黑河源头

日常穿衣其实一点都不难,看看这些气质女性,穿得大方高级

手机要闻

苹果 iOS 26 正式版推送:全新液态玻璃设计、AI 功能改进

亲子要闻

我该怎么办呢?

内分泌科专家破解身高八大谣言

无障碍浏览 进入关怀版