网易首页 > 网易号 > 正文 申请入驻

谢赛宁苏昊CVPR25获奖!华人博士王建元一作拿下最佳论文

0
分享至

CVPR 2025奖项出炉!谢赛宁苏昊齐获青年学者奖。

该奖项面向获得博士学位不超过7年的早期研究工作者,表彰他们在计算机视觉领域的杰出研究贡献

其中,苏昊是李飞飞的博士生,他参与了对计算机视觉领域鼎鼎有名的ImageNet

谢赛宁以一作身份和何恺明合作完成ResNeXt,同时也参与了MAE,都是计算机视觉领域影响深远的工作。

最值得关注的CVPR 2025最佳论文奖也新鲜出炉!

今年只有一篇论文获奖:《VGGT: Visual Geometry Grounded Transformer》,由Meta和牛津大学联合提出,第一作者为牛津大学Meta联培博士王建元。

VGGT是首个能在单次前馈中端到端预测完整3D场景信息的大型Transformer,性能超越多项现有几何或深度学习方法,具有广泛的应用潜力。

Best Student Paper颁给《Neural Inverse Rendering from Propagating Light》,由多伦多大学、卡内基梅隆大学等联合带来。

它首次提出针对从多视角、时间分辨的光传播视频进行物理基础的神经逆向渲染(Neural Inverse Rendering)。

Best Paper Honorable Mention一共有4篇,分别是:

  • MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos

  • Navigation World Models

  • Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

  • 3D Student Splatting and Scooping

最佳论文 VGGT: Visual Geometry Grounded Transformer

论文链接:https://arxiv.org/abs/2503.11651

传统的三维视觉(如Structure-from-Motion、Multi-view Stereo)方法严重依赖几何优化(如Bundle Adjustment),不仅计算复杂、时间消耗大,还难以端到端训练。
本研究提出的问题是:能否使用简单的前馈神经网络(无后处理)同时预测所有核心3D属性(相机参数、深度图、点云图、3D轨迹),并优于传统几何优化方案?

VGGT基于Vision Transformer,采用交替“全局-帧内”自注意力(Alternating Attention)机制。

它不含几何归纳偏置,仅靠大量3D标注数据自学习。

实现输入:1张到200张图像;输出:每张图的相机内外参、深度图、点图、特征图(用于点追踪)。

输入图像被分块为patch tokens,每帧加入一个“相机token”和多个“寄存token”来分别学习相机参与与全局场景特性。

Alternating Attention中,Frame-wise Self-Attention处理每一帧图像内的patch tokens(保持局部一致性);Global Self-Attention实现不同帧间的tokens交互(整合多视角信息),两种注意力机制在24层Transformer中交替堆叠。

这种设计可以在保留单帧细节同时,整合多帧场景信息,同时相比直接使用Global attention更省内存(最高40GB)。

本文一作为王建元,他是牛津大学和Meta AI研究和VGG联合博士生。

最佳学生论文 Neural Inverse Rendering from Propagating Light

论文链接:http://www.arxiv.org/abs/2506.05347

这篇论文的核心内容是提出了一种基于物理模型的神经逆向渲染方法,用于从多视点、时间分辨的激光雷达(LiDAR)测量数据中重建场景几何和材质,并生成新的光传播视频。

简单来说,它实现了让激光雷达不仅看见直接光,还能看懂间接光,并利用这些信息来重建场景。

核心思路有两步:

第一,提出时间分辨辐射缓存(time-resolved radiance cache),记录某一时刻某个位置的光线是从哪来的、经过了哪些反射。这个缓存可以理解为一个“光的地图”,能告诉我们光是怎么传播的。

第二,用神经网络加速计算。“提前学会”光的传播规律。这样一来,只需要简单查询这个“光的记忆库”,就能快速计算出场景中每一点的光线分布。

这种技术在自动驾驶、3D建模和虚拟现实等领域有广泛应用前景。

Best Paper Honorable Mention MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos

论文链接:https://arxiv.org/abs/2412.04463

本文提出了一种系统,能够从动态场景的普通单目视频中准确、快速且鲁棒地估计相机参数和深度图。传统的结构光束法(SfM)和单目SLAM方法通常依赖于具有大量视差且主要为静态场景的视频输入,在不满足这些条件时,容易产生错误估计。

本项研究开发了一个改进的深度视觉SLAM系统,通过对训练方式和推理过程的优化,使得这个系统可以:

  • 适应真实世界中复杂的动态场景。

  • 处理相机运动轨迹不规则的视频(甚至是相机运动很少的情况)。

大量在合成和真实视频上的实验表明,该系统在相机姿态和深度估计方面的准确性和鲁棒性明显优于现有和同期工作,同时运行速度更快或相当。

Navigation World Models

论文链接:https://arxiv.org/abs/2412.03572

这篇研究来自LeCun团队。

本文提出了一种导航世界模型(Navigation World Model,简称NWM),这是一种可控的视频生成模型,能够基于过去的视觉观测和导航动作预测未来的视觉观测。

NWM 采用了一种叫“条件扩散变换器”的技术,可以根据导航动作和过去的视觉信息,生成下一步可能的视觉画面。

这个模型是用大量“第一视角”(egocentric)视频训练的,包括人类和机器人在各种环境中的导航视频,总参数规模达到10亿。

在熟悉的环境中,NWM可以“在脑内模拟”不同的路径,并判断哪条路径能达到目标。

不像固定规则的导航方法,NWM可以在规划路径时灵活加入新的约束(比如避开障碍物)。

即使是在陌生的环境中,NWM也能从一张图片(比如初始场景)出发,想象出可能的导航路径,表现出很强的适应性。

实验结果显示,NWM可以在没有现成导航策略的情况下,直接规划出合理的路径。对于其他导航系统生成的路径,NWM可以对其进行排名,找到最优解。

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

论文链接:https://arxiv.org/abs/2409.17146

本项研究提出了一个新的视觉-语言模型家族Molmo,是当时最强开源模型之一。它有72亿参数规模,不仅拿下开源SOTA,还超越了Claude 3.5 Sonnet、Gemini 1.5 Pro等(注:该论文第一版发表时间为2024年9月)。

作者认为,现有性能最强的开源权重模型在很大程度上依赖于由闭源VLM生成的合成数据来获得良好表现,实质上是将这些闭源模型“蒸馏”成开源模型。

因此,作者认为学术界一直缺乏关于如何从零开始构建高性能VLM的基础知识,Molmo就是基于这一背景提出。

Molmo模型架构采用标准的视觉编码器(ViT)+语言模型设计,模型设计与优化方面,Molmo提出了若干新策略。

例如重叠多裁剪(overlapping multi-crop)图像处理策略、改进了视觉-语言连接模块、设计了支持指点能力的训练流程,这些创新提高了模型对复杂视觉任务(如定位、计数、自然图像理解)的能力。

他们还创建了一组全新数据集PixMo,完全没有依赖外部闭源模型生成。

其中包括用于预训练的高细节图像描述数据集、用于微调的自由问答图像数据集,以及一个创新的二维指点(pointing)数据集。

此外,PixMo还包含数个辅助的合成数据集,增强模型在读表、读图、读钟表等特定技能上的能力。

3D Student Splatting and Scooping

论文链接:https://arxiv.org/abs/2503.10148

这项研究提出了一个新的3D模型——Student Splatting and Scooping,简称SSS,其作者全部为华人,且均来自英国高校。

随着3DGS(3D高斯泼溅)逐渐成为众多模型的基础组件,任何对3DGS本身的改进都可能带来巨大的收益,为此,作者致力于改进3DGS的基本范式和公式结构。

但3DGS本质上是一个未归一化的混合模型,因此不必局限于高斯分布,也不一定要采用泼溅方式。

因此,作者提出了一种由灵活的Student’s t分布(distribution)组成的新型混合模型,它具有正密度(泼溅Splatting)和负密度(挖空Scooping)两种形式,这就是其名称的由来。

与传统高斯相比,Student’s t 分布通过可学习的尾部厚度参数实现了对从Cauchy到Gaussian的广泛分布建模能力,使得 SSS 在表达能力上更为强大。

但在提供更强表达能力的同时,SSS也带来了新的学习挑战,主要是参数耦合问题和负密度引入的优化复杂性。

为此,作者还提出了一种新的、具有理论依据的采样优化方法——SGHMC。

SGHMC通过在优化过程中引入动量变量(momentum)和受控噪声项,使得参数在优化过程中能跳出局部最优,同时能有效缓解参数之间的耦合问题。

通过在多个数据集、设置和评测指标上的全面评估与对比,作者证明了 SSS 在质量和参数效率方面优于现有方法。

在使用相似数量组件的情况下,SSS 可实现相当甚至更高的渲染质量,同时在某些场景下可将组件数量最多减少 82%,仍保持可比的结果。

最后,再次祝贺所有获奖团队与学者!

本文来源:量子位

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
尤文图斯0-2科莫,赛后评分:尤文图斯10号排第一

尤文图斯0-2科莫,赛后评分:尤文图斯10号排第一

侧身凌空斩
2026-02-21 23:59:38
学医后才知道,脑梗最危险信号,不是手脚麻,而是频繁出现3症状

学医后才知道,脑梗最危险信号,不是手脚麻,而是频繁出现3症状

风雨与阳光
2026-02-11 19:13:07
播了5集飙上9.1分,HBO最新猛剧终于发威!

播了5集飙上9.1分,HBO最新猛剧终于发威!

热荐电影
2026-02-21 21:06:40
越南谈79年中越战争:虽然得知中国出兵时间,但没想到势头如此猛

越南谈79年中越战争:虽然得知中国出兵时间,但没想到势头如此猛

谈古论今历史有道
2026-02-22 11:10:03
曹植最著名的一首诗,流传千古,几乎家喻户晓

曹植最著名的一首诗,流传千古,几乎家喻户晓

格命草
2026-02-22 10:55:00
奢侈品果然不坑穷人!15万“钻石围裙”成潮流,名媛一口气拿了仨

奢侈品果然不坑穷人!15万“钻石围裙”成潮流,名媛一口气拿了仨

揽星河的笔记
2026-01-21 21:19:06
日本公开一幅祝允明真迹!这才是真草书,字字都是“金字塔尖”!

日本公开一幅祝允明真迹!这才是真草书,字字都是“金字塔尖”!

书画博学
2026-01-15 09:27:02
住一晚上万,却被经理占座表演?上海女子曝光后续操作炸裂

住一晚上万,却被经理占座表演?上海女子曝光后续操作炸裂

今日搞笑分享
2026-02-22 00:43:17
女子故意扮丑去相亲,男子一眼看中,女子吃惊:他是不是太饿了

女子故意扮丑去相亲,男子一眼看中,女子吃惊:他是不是太饿了

丫头舫
2026-02-10 22:18:05
河南暴打女童者被刑拘,正脸曝光,官媒出手

河南暴打女童者被刑拘,正脸曝光,官媒出手

二凯训猛犬
2026-02-21 19:33:06
小米连出六辆新车!雷军彻底失控

小米连出六辆新车!雷军彻底失控

营销头版
2026-02-22 10:12:47
山东济南网红巨型空飘鳌鱼被大风吹走,现场工作人员尝试追回未能成功,网友称其“金鳞岂是池中物,一遇风云便化龙”

山东济南网红巨型空飘鳌鱼被大风吹走,现场工作人员尝试追回未能成功,网友称其“金鳞岂是池中物,一遇风云便化龙”

极目新闻
2026-02-20 21:36:29
国米领先10分还有五大利好!法布雷加斯送大礼,两大将即将回归

国米领先10分还有五大利好!法布雷加斯送大礼,两大将即将回归

宝哥精彩赛事
2026-02-22 09:56:50
古巨基刚晒了二胎照片,网友却齐刷刷心疼他57岁的太太

古巨基刚晒了二胎照片,网友却齐刷刷心疼他57岁的太太

喜欢历史的阿繁
2026-02-22 06:23:30
湛江祭妈祖临时换游神乩童,轿子抬不动,连掷9次圣杯不被认可

湛江祭妈祖临时换游神乩童,轿子抬不动,连掷9次圣杯不被认可

Mr王的饭后茶
2026-02-20 12:01:06
第1变第3!中国队战术失败葬送金牌,冬奥会奖牌榜更新:日本第10

第1变第3!中国队战术失败葬送金牌,冬奥会奖牌榜更新:日本第10

侃球熊弟
2026-02-21 19:38:36
“仨儿子打光棍”视频走红,网友调侃:长成这样,撸网贷都费劲!

“仨儿子打光棍”视频走红,网友调侃:长成这样,撸网贷都费劲!

妍妍教育日记
2026-02-04 19:09:07
1993年六位上将,还有三位健在,都快100岁了

1993年六位上将,还有三位健在,都快100岁了

文史茶馆2020
2026-02-15 16:43:24
杨秀清为什么打压韦昌辉和秦日纲,却不怎么打压石达开?

杨秀清为什么打压韦昌辉和秦日纲,却不怎么打压石达开?

掠影后有感
2026-02-22 09:45:48
“专科男生古茗8小时”事件引发广泛嘲讽,认知能力备受质疑。

“专科男生古茗8小时”事件引发广泛嘲讽,认知能力备受质疑。

特约前排观众
2026-02-20 00:20:06
2026-02-22 12:03:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5369文章数 64616关注度
往期回顾 全部

教育要闻

今年高二下半学期,平时基础六七十分,做英语高考卷子有用吗?

头条要闻

特朗普:将确定并公布新的、在法律上允许的关税措施

头条要闻

特朗普:将确定并公布新的、在法律上允许的关税措施

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

裴世矩养侄为刃 看懂两次放行裴行俨!

财经要闻

特朗普新加征关税税率从10%提升至15%

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

健康
教育
时尚
本地
房产

转头就晕的耳石症,能开车上班吗?

教育要闻

“只有穷人,才这样教育子女!”家长让孩子给外卖员送水,被群嘲

50岁女性过冬穿搭:有大衣和羽绒服就够了,简约从容才是优雅

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

无障碍浏览 进入关怀版