网易首页 > 网易号 > 正文 申请入驻

ICCV 2025 | FlowSeek:单卡就能训!融合深度基础模型,光流估计迎来“平民化”SOTA

0
分享至


光流估计是计算机视觉领域的基石任务之一,但其前沿研究长期以来面临着一个严峻的挑战:训练最先进(SOTA)的模型通常需要庞大的硬件集群(例如8块以上的高端GPU),这为许多研究团队和开发者设置了高不可攀的门槛。

为了打破这一“军备竞赛”困局,来自博洛尼亚大学的研究者提出了 FlowSeek,一个全新的、旨在以极简硬件资源实现卓越性能的光流框架。FlowSeek巧妙地将三大技术线的精髓融为一体:最新的光流网络设计、强大的单目深度基础模型以及经典的低维运动参数化。其最终实现了一个紧凑而精确的架构,仅需在单个消费级GPU上训练,其硬件预算比当前主流方法低了约8倍。

更令人瞩目的是,FlowSeek在大幅降低训练成本的同时,展现出了顶级的跨数据集泛化能力。在Sintel Final和KITTI这两个极具挑战性的基准上,其性能相比之前的SOTA模型SEA-RAFT,分别取得了 10%和15% 的相对提升,证明了其“低成本、高效能”的巨大价值。



  • 论文标题 :FlowSeek: Optical Flow Made Easier with Depth Foundation Models and Motion Bases

  • 作者团队 :Matteo Poggi, Fabio Tosi

  • 作者机构 :博洛尼亚大学(University of Bologna, Italy)

  • 论文地址 :https://arxiv.org/abs/2509.05297

  • 项目主页 :https://flowseek25.github.io/

  • 代码地址 :https://github.com/mattpoggi/flowseek

  • 会议信息 :ICCV 2025

研究背景:打破光流研究的“硬件壁垒”

光流估计旨在计算视频中像素点的逐帧运动。自深度学习彻底改变该领域以来,从FlowNet到PWC-Net,再到以RAFT为代表的循环优化架构,光流模型的精度不断攀升。但这种进步的背后,是对两样东西的巨大依赖:

  1. 海量的训练数据 :需要带有高质量光流真值的庞大数据集。

  2. 强大的硬件算力 :需要多GPU并行训练,例如FlowFormer和GMFlow在4块V100上训练,而SEA-RAFT则使用了8块3090。

这种“大力出奇迹”的研究范式,虽然有效,但也使得光流研究变得越来越“昂贵”,阻碍了更广泛的学术探索和技术创新。研究者认为,正如NLP领域的DeepSeek模型用远低于竞争者的预算实现了惊人性能,计算机视觉领域也应探索“循环利用”现有基础模型,而非一味地从零开始“烧钱”训练。FlowSeek正是在这一思想下,对光流估计的“民主化”进行的一次成功探索。

FlowSeek:三大支柱构建的高效架构

FlowSeek的核心思想是“博采众长”,它并非从零设计,而是站在巨人的肩膀上,将三个不同时代、不同领域的先进技术有机地结合起来。其整体架构如下图所示,建立在类RAFT的迭代优化框架之上。


FlowSeek整体架构图。

支柱一:强大的深度基础模型 (Depth Foundation Models)

这是FlowSeek实现卓越泛化能力的关键。研究者敏锐地洞察到,物体的3D几何结构与它在2D图像上产生的运动(光流)之间存在着强关联。

  • 引入几何先验 :FlowSeek直接利用了当前最先进的单目深度估计基础模型(如 Depth Anything v2 )。该模型在海量数据上经过预训练,能够为任意单张图片提供高质量的深度图和丰富的几何特征。

  • 特征融合 :FlowSeek将深度模型提取的深度图(D)和深度特征(Φ)与光流网络自身提取的图像特征(F)进行拼接,形成“ 增强特征 ”(Enriched Features)。这些富含几何先验的特征被用于构建后续的4D相关性金字塔,使得模型在匹配像素时,不仅考虑外观相似性,还考虑了场景的3D结构,从而能更好地处理遮挡、大位移等难题。

支柱二:经典的低维运动基 (Motion Bases)

为了进一步简化学习任务并引入强正则化,FlowSeek借鉴了经典计算机视觉中的思想——用低维参数来表示运动。

  • 运动参数化 :对于一个静态场景,任何由相机运动产生的光流场,都可以被分解为六个运动基(B_motion)的线性组合,这六个基分别对应相机在空间中的六个自由度(三维平移、三维旋转)。

  • 提供运动先验 :FlowSeek将这组经典的运动基作为先验知识输入到一个小型的“ 基网络 ”(Base Network)中,提取出运动特征。这些特征随后被注入到光流的迭代更新过程中,为模型提供了一个关于“可能运动模式”的初始猜测和约束,有效防止了模型在缺乏纹理区域的过拟合,并提升了泛化能力。

支柱三:高效的迭代优化架构

FlowSeek的整体流程沿用了以SEA-RAFT为代表的高效迭代优化框架。一个轻量级的更新网络(UpdNet)在每一次迭代中,综合考虑相关性信息、上一时刻的隐藏状态以及来自深度模型运动基的上下文信息,逐步地对光流预测进行优化和精炼。

实验结果:低成本实现SOTA泛化

FlowSeek的核心亮点在于其惊人的“性价比”——在极低的训练成本下,实现了顶级的跨数据集泛化性能。

训练成本:8倍的硬件预算削减

所有FlowSeek模型均在单块NVIDIA RTX 3090/4090 GPU上完成训练。相比之下,之前的主流方法通常需要8块同等级或更高级别的GPU。这意味着FlowSeek将训练的硬件门槛降低了约8倍,使得普通实验室甚至个人开发者都有可能复现和跟进这项研究。

跨数据集泛化性能:全面超越SOTA

零样本泛化(Zero-shot Generalization)能力是衡量光流模型鲁棒性的黄金标准。实验将在合成数据集(如TartanAir)上训练好的模型,直接拿到真实的测试集(如Sintel, KITTI)上进行评估。


在Sintel和KITTI 2015上的零样本泛化性能对比。

如上表所示,FlowSeek在所有设置下均稳定超越了之前的SOTA模型SEA-RAFT。

  • Sintel Final 基准上,FlowSeek (L) 取得了 2.18 的EPE(End-Point-Error),相比SEA-RAFT (L) 实现了约 10% 的相对性能提升。

  • KITTI 2015 基准上,FlowSeek (L) 的Fl-all指标达到了 11.2% ,相对性能提升更是高达 15%


在Spring上的零样本泛化性能对比。在LayeredFlow (train) first layer evaluation上的零样本泛化性能对比。




定性结果对比。

此外,在更具挑战性的Spring和LayeredFlow数据集上,FlowSeek同样展现了其优越性,证明了其方法的普适性和强大能力。

总结与贡献

FlowSeek的提出,为光流估计领域乃至整个计算机视觉领域都带来了重要的启示。

  1. 提出了首个融合深度基础模型的光流框架 :FlowSeek是第一个成功将预训练深度基础模型的强大几何先验知识引入光流估计的模型,并证明了其巨大潜力。

  2. 实现了资源高效的SOTA性能 :论文最重要的贡献是证明了在无需庞大计算资源的情况下,通过巧妙的架构设计,同样可以实现顶级的模型性能,极大地“民主化”了该领域的研究。

  3. 提供了新的研究范式 :FlowSeek的成功鼓励研究者们更多地去思考如何“复用”和“适配”现有的基础模型来解决新问题,而不是一味地投入到新模型的“从零训练”中,这对于促进AI领域的可持续发展具有重要意义。

FlowSeek不仅是一个优秀的光流模型,更是一种值得借鉴的、务实而高效的研究哲学。它清晰地指明了一条在“后基础模型时代”,应如何进行算法创新的有效路径。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人均40的面馆,集体押注“现炒浇头”

人均40的面馆,集体押注“现炒浇头”

餐饮老板内参
2026-02-26 10:56:35
部分地区考编年龄放宽至43岁

部分地区考编年龄放宽至43岁

21世纪经济报道
2026-02-26 19:27:19
哈弗H6价格再下探!最高优惠4万,网友:必须冲

哈弗H6价格再下探!最高优惠4万,网友:必须冲

汽车网评
2026-02-26 21:03:38
婚礼上我好心给服务员一红包,她感激的凑到我耳边:羊入虎口啊

婚礼上我好心给服务员一红包,她感激的凑到我耳边:羊入虎口啊

罪案洞察者
2026-02-26 15:46:44
意媒:小图拉姆被换下后情绪失控,因自己错失良机而落泪

意媒:小图拉姆被换下后情绪失控,因自己错失良机而落泪

林子说事
2026-02-26 13:58:33
勇士8人上双,21分狂胜灰熊,霍福德里程碑,格林该被交易了

勇士8人上双,21分狂胜灰熊,霍福德里程碑,格林该被交易了

毒舌NBA
2026-02-26 11:00:14
崩溃前的又一条裂缝——厄瓜多尔退出联合国巴勒斯坦人民行使不可剥夺权利委员会

崩溃前的又一条裂缝——厄瓜多尔退出联合国巴勒斯坦人民行使不可剥夺权利委员会

老王说正义
2026-02-26 00:26:59
离婚后美到开挂!陈赫前妻沙特庆生,39岁身材吊打小姑娘!

离婚后美到开挂!陈赫前妻沙特庆生,39岁身材吊打小姑娘!

阿废冷眼观察所
2026-02-24 14:26:35
多辆车高速上龟速行驶 被广东交警罚200记3分!网友:建议全国推广

多辆车高速上龟速行驶 被广东交警罚200记3分!网友:建议全国推广

快科技
2026-02-26 18:25:22
春晚已经播完8天了,这5人成最大受益者,有人从低谷成功翻身!

春晚已经播完8天了,这5人成最大受益者,有人从低谷成功翻身!

叨唠
2026-02-24 17:38:34
曾经他们硬气的拒绝了中国,如今好怀念他们当初桀骜不驯的样子!

曾经他们硬气的拒绝了中国,如今好怀念他们当初桀骜不驯的样子!

北纬的咖啡豆
2025-12-23 14:28:08
农民把10头猪赶到无人岛,12年后再次登岛,眼前画面让他不敢信

农民把10头猪赶到无人岛,12年后再次登岛,眼前画面让他不敢信

白云故事
2026-01-22 17:30:05
美伊开启第三轮谈判,美媒称这是军事行动前“最后机会”;美军已集结重兵,配置与1998年“沙漠之狐”空袭行动相当

美伊开启第三轮谈判,美媒称这是军事行动前“最后机会”;美军已集结重兵,配置与1998年“沙漠之狐”空袭行动相当

极目新闻
2026-02-26 18:32:28
中方第五波反制,巴拿马以为接管港口就高枕无忧,结果自断后路!

中方第五波反制,巴拿马以为接管港口就高枕无忧,结果自断后路!

真的好爱你
2026-02-26 10:33:10
许家印侄子名下广州汇悦台豪宅法拍成交 创历史最低纪录

许家印侄子名下广州汇悦台豪宅法拍成交 创历史最低纪录

观点机构
2026-02-26 13:28:16
全球第三个!“哈利·波特制片厂之旅”项目在上海正式开工

全球第三个!“哈利·波特制片厂之旅”项目在上海正式开工

澎湃新闻
2026-02-26 17:26:29
摩根大通上调黄金长期价格预期至4500美元,维持2026年底目标价6300美元不变

摩根大通上调黄金长期价格预期至4500美元,维持2026年底目标价6300美元不变

财联社
2026-02-26 01:42:05
大涨117%!000711,停牌核查

大涨117%!000711,停牌核查

中国基金报
2026-02-26 23:07:14
一年乘坐1642次地铁!青岛地铁公布2025年度前十名最“铁”乘客

一年乘坐1642次地铁!青岛地铁公布2025年度前十名最“铁”乘客

半岛官网
2026-02-26 17:35:07
我敢打赌:几年后南中轴大变样!北京这地儿,悄悄值钱了

我敢打赌:几年后南中轴大变样!北京这地儿,悄悄值钱了

芭比衣橱
2026-02-26 18:13:18
2026-02-27 01:08:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5377文章数 64616关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

蔚来销售接电话辱骂客户不料被录音 客户公开聊天截图

头条要闻

蔚来销售接电话辱骂客户不料被录音 客户公开聊天截图

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

向华强公开表态 财产留给儿媳妇郭碧婷

财经要闻

中国AI调用量超美国 4款大模型霸榜前5

汽车要闻

40岁的吉利,不惑于内外

态度原创

健康
艺术
亲子
手机
教育

转头就晕的耳石症,能开车上班吗?

艺术要闻

莫妮卡、麦当娜……这个法国女人拍遍了全世界的性感女神!

亲子要闻

谁踢到了瓶子

手机要闻

太好用!苹果悄悄上线网络测速工具,比第三方还准,你用上了吗?

教育要闻

学习的真正对手,是精力分配失衡

无障碍浏览 进入关怀版