汇报一下ICCV全部奖项，恭喜朱俊彦团队获最佳论文|大模型|iccv|计算机视觉

分享至

刚刚，备受瞩目的ICCV 2025，在美国夏威夷正式“开奖”！

好家伙，在提交论文的作者里，中国直接占了半壁江山，不多不少占比50%。

各个奖项也是重中之重捷报频传，现场更是人山人海……好在前方参会的“詹姆斯邦迪”(小红书博主，欢迎大家去follow)，第一时间分享了最新进展。

让我们一起膜拜看看顶会荣耀，今年花落谁家？

最佳论文奖（马尔奖）：

Generating Physically Stable and Buildable Brick Structures from Text（从文本生成物理稳定且可搭建的积木结构）。

图源小红书博主：@詹姆斯邦迪

最佳学生论文奖：

FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models（基于预训练流模型的无反演文本编辑方法）。

图源小红书博主：@詹姆斯邦迪

最佳论文荣誉提名：

Spatially-Varying Autofocus（空间可变自动对焦）。

图源小红书博主：@詹姆斯邦迪

最佳学生论文荣誉提名：

RayZer: A Self-supervised Large View Synthesis Model（基于自监督学习的大规模视图合成模型）。

图源小红书博主：@詹姆斯邦迪

赫尔姆霍兹奖：

Fast R-CNN（快速区域卷积神经网络）和Delving Deep into Rectifiers：Surpassing Human-Level Performance on ImageNet Classification（深入研究修正激活函数：在ImageNet分类中超越人类水平）。

图源小红书博主：@詹姆斯邦迪

埃弗林厄姆奖：

The SMPL Body Model Team和The VQA Team。

图源小红书博主：@詹姆斯邦迪

杰出研究员奖：

David Forsyth和Michal Irani。

图源小红书博主：@詹姆斯邦迪

阿兹列尔·罗森菲尔德终身成就奖：

Rama Chellappa。

图源小红书博主：@詹姆斯邦迪

对于上述论文成果和奖项，是不是一下子有点懵？

别慌别慌，咱们一起来详细学习一下。

获奖的都是啥研究？最佳论文奖

首先介绍的是最佳论文奖，这含金量就不用多说了吧。

ICCV最佳论文又名马尔奖（Marr Prize），每两年评选一次，被誉为计算机视觉领域的最高荣誉之一。这一奖项因计算机视觉之父、计算机视觉先驱、计算神经科学的创始人David Courtnay Marr（大卫·马尔）而得名。

此研究提出了BRICKGPT——首个能够根据文本提示生成物理稳定的积木结构模型的方法。

研究团队构建了一个大规模、物理稳定的积木结构数据集StableText2Brick，包含超过47000个积木结构，涵盖28000多个独特三维物体，每个结构均配有详细的文字描述，并训练了一个自回归大型语言模型，通过逐步预测“下一个积木”来生成完整结构。

为了提升生成结构的稳定性，他们在推理过程中引入了有效性检测和物理感知回滚机制，利用物理规律和装配约束剔除不可行的预测。

实验表明，BRICKGPT能够生成稳定、多样且美观的积木结构，并与输入文本高度契合。进一步地，他们还开发了基于文本的积木纹理生成方法，可生成带颜色和纹理的设计，且这些结构既可以由人手动组装，也可以由机械臂自动搭建。

值得一提的是，这论文里也有不少华人身影，而带队的正是AI才俊朱俊彦。

朱俊彦，2008年进入清华大学计算机科学系，学习计算机科学专业。在同专业140人中，朱俊彦排名第2。2012年清华本科毕业后，朱俊彦奔赴美国，在CMU和UC伯克利经过5年学习，获得了UC伯克利电气工程与计算机科学系的博士学位，师从Alexei Efros。

其博士毕业毕业论文Learning to Generate Images，获得了计算机图形学顶会ACM SIGGRAPH 2018“杰出博士论文奖”。

博士毕业后，朱俊彦来到MIT计算机与人工智能实验室（CSAIL），成为一名博士后研究员。2020年秋季，他回到曾经的母校CMU（卡内基梅隆大学），担任助理教授一职。

其他几位：Kangle Deng，Roblox的一名研究科学家，研究重点是3D内容创作。本科毕业于北京大学，博士毕业于卡内基梅隆大学。

Ruixuan Liu，本科和硕士均毕业于卡内基梅隆大学，现为该校计算机学院机器人研究所的博士生，研究方向包括机器人学习、操作与控制、生成式智能，以及人机协作。

Changliu Liu，本科毕业于清华大学，博士毕业于美国加州大学伯克利分校，现为卡内基梅隆大学机器人研究所的副教授，

最佳学生论文奖

使用预训练的文本到图像（Text-to-Image，T2I）扩散或流模型编辑真实图像时，通常需要先将图像反演（inversion）到对应的噪声空间。

然而，仅靠反演往往难以获得理想结果，因此许多方法会在采样过程中额外干预。这类方法虽然能够提升效果，但无法在不同模型架构之间无缝迁移。

为此，研究团队提出了FlowEdit——一种针对预训练T2I流模型的文本驱动图像编辑方法。它无需反演、无需优化，并且对模型架构无依赖。

FlowEdit构建了一个常微分方程（ODE），直接在源分布与目标分布之间映射（对应源文本提示和目标文本提示），并实现了比传统反演方法更低的传输成本。

正如团队在Stable Diffusion 3和FLUX上的实验所示，该方法取得了最先进的效果。

最佳论文荣誉提名

透镜可以将一个平面聚焦到平面传感器上，因此场景中不在该焦平面上的部分会因失焦而模糊。

来自卡内基梅隆大学的团队打破常规，设计使用了Lohmann 透镜与仅相位空间光调制器（phase-only spatial light modulator）的光学组合，使得每个像素可以聚焦在不同深度上。

他们将经典自动对焦技术拓展至空间变化场景：利用对比度与视差线索迭代估算深度图，使相机能够根据场景深度动态调整景深分布。

通过光学方式直接获取全焦图像，此技术在以下两个关键方面超越了现有成果：一是能够同时使整个场景保持清晰对焦，二是可维持最高的空间分辨率。

最佳学生论文荣誉提名

研究团队提出了RayZer——一种无需任何3D监督（如相机位姿与场景几何信息）即可完成训练的自监督多视图3D视觉模型。

具体而言，RayZer以未标定且未校准的图像作为输入，自主恢复相机参数、重建场景表征并生成新视角画面。

在训练过程中，RayZer仅依赖其自预测的相机位姿来渲染目标视角，完全无需真实相机标注数据，实现了仅通过2D图像监督即可完成训练。

RayZer所表现出的三维感知能力主要归功于两个关键因素：

自监督框架设计：通过将相机表示和场景表示解耦，实现输入图像的三维感知自编码；
基于Transformer的模型设计：仅以射线结构作为唯一3D先验，同步关联相机、像素与场景信息。

实验表明，RayZer在新视角合成任务中展现出与”真值标注”方法相当甚至更优的性能。

赫尔姆霍兹奖

获赫尔姆霍兹奖的一共有两项研究，且都来自微软研究院。

其一为Fast R-CNN——一种基于快速区域卷积神经网络的目标检测方法。

Fast R-CNN在之前工作的基础上，利用深度卷积网络对候选目标区域进行高效分类。与以往方法相比，Fast R-CNN引入了多项创新，不仅提升了训练和测试速度，同时也提高了检测精度。

实验表明，在PASCAL VOC 2012数据集上，Fast R-CNN对VGG16网络的训练速度较R-CNN提升9倍，测试速度提升213倍，并获得了更高的mAP指标；相较于SPPnet，其VGG16训练速度加快3倍，测试速度提升10倍，且检测精度更优。

上面提到了，另一个获赫尔姆霍兹奖的也来自微软研究院。

研究从两个方面研究了用于图像分类的修正激活神经网络。

首先，他们提出了一种参数化修正线性单元（Parametric ReLU，PReLU），它是对传统修正激活单元的推广。PReLU在几乎不增加额外计算开销且几乎没有过拟合风险的情况下，提高了模型的拟合能力。

其次，他们提出了一种专门针对修正激活非线性的鲁棒初始化方法，能够从零开始训练极深的修正激活模型，并探索更深或更宽的网络架构。

基于PReLU网络（PReLU-nets），团队在ImageNet 2012分类数据集上实现了4.94%的Top-5测试误差，相比ILSVRC 2014冠军GoogLeNet（6.66%）提升了26%。据研究人员所知，这是首次在该视觉识别挑战中超过人类水平（5.1%）的结果。

获奖团队与大佬埃弗林厄姆奖

细数完获奖的一众研究，就该看看获奖的团队了。

首先是The SMPL Body Model Team，SMPL是一种基于蒙皮和混合形状技术、从数千例3D人体扫描数据中学习得到的逼真人体三维模型。该模型在精度上超越现有模型，并与主流图形渲染管线完全兼容。

值得一提的是，该模型参数完全从数据中学习得到，包括：静态姿态模板、混合权重、姿态混合形状、身份混合形状，以及从顶点到关节点位置的回归器。

与既有模型不同，此模型的姿态混合形状是姿态旋转矩阵元素的线性函数。这一简洁的数学表达使得模型能够基于大量不同人体、不同姿态的对齐3D网格数据进行端到端训练。

接下来是The VQA Team，VQA为一项自由形式开放式视觉问答任务。

在该任务中，给定一张图像和关于该图像的自然语言问题，系统需要提供一个准确的自然语言答案。

与现实场景（例如为视障人士提供帮助）类似，这里的问题和答案都是开放式的。视觉问题会有选择性地关注图像的不同区域，包括背景细节和潜在上下文信息。

因此，要在VQA任务中取得成功，系统通常需要比生成通用图像描述更深入理解图像内容和进行复杂推理的能力。

对此，研究团队提供了一个数据集，包含约25万张图像、76万个问题和约1000万个答案，并讨论了数据集所提供的信息。他们还提供了多种基线方法及VQA方法，并与人类表现进行了对比。

杰出研究员奖

David Forsyth，一位出生于南非的美国计算机科学家，现任伊利诺伊大学香槟分校（UIUC）计算机科学Fulton Watson Copp教授，主要研究方向包括计算机视觉、计算机图形学和机器学习。

他在约翰内斯堡维特沃特斯兰德大学获得电气工程学士和硕士学位，并于1989年在牛津大学获得计算机科学博士学位，导师为J. Michael Brady。

完成博士后工作后，他曾在爱荷华大学任教，并于1994至 2004 年在加州大学伯克利分校担任电气工程与计算机科学系教授，2004年起加入UIUC，成为该校计算机科学领域的领军人物。

此外，David长期参与国际学术会议的组织工作，曾三度担任IEEE计算机视觉与模式识别会议程序委员会联合主席（2000/2011/2018），两度担任CVPR大会联合主席（2006/2015），并担任2008年欧洲计算机视觉会议程序委员会联合主席。

他是所有主要国际计算机视觉会议程序委员会的常任委员，曾六度入选SIGGRAPH程序委员会并持续担任该会议评审。

Michal Irani，以色列魏茨曼科学研究院数学与计算机科学学院的教授及现任院长。曾在希伯来大学获得数学与计算机科学学士及计算机科学硕士、博士学位。

Michal的研究领域为计算机视觉、图像处理和人工智能。她尤其致力于理解自然图像和视频的内部统计信息、视频的时空分析以及基于构图的视觉推理。

Michal教授在学术界成就卓著，获得多项荣誉，包括萨诺夫研究中心技术成就奖、Yigal Alon杰出青年科学家奖、Morris L. Levinson数学奖、ECCV最佳论文奖等。

阿兹列尔·罗森菲尔德终身成就奖

Rama Chellappa，约翰霍普金斯大学布隆伯格杰出教授，现任电气与计算机工程系和生物医学工程系教授，兼任数据科学与人工智能研究所共同主任。

Rama教授于印度马德拉斯大学获得电子与通信工程学士学位（1975），随后在印度班加罗尔的印度科学研究院获得电子与通信工程硕士学位（1977），并在美国普渡大学获得电气工程硕士（1978）和博士学位（1981）。

他的研究领域涵盖计算机视觉、模式识别、图像与信号处理、机器学习和生物特征识别等，致力于利用数据、几何和物理学帮助计算机系统理解视觉世界。

One More Thing

有意思的是，这么大的会议，竟然有许多人坐在地上吃午饭。

所以网友合理建议：快多放点椅子吧～

论文链接：
[1]https://arxiv.org/abs/2505.05469
[2]https://arxiv.org/html/2412.08629v2
[3]https://imaging.cs.cmu.edu/svaf/static/pdfs/Spatially_Varying_Autofocus.pdf
[4]https://arxiv.org/abs/2505.00702
[5]https://arxiv.org/abs/1504.08083
[6]https://arxiv.org/abs/1502.01852

文章来源：量子位。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.