网易首页 > 网易号 > 正文 申请入驻

汇报一下ICCV全部奖项,恭喜朱俊彦团队获最佳论文

0
分享至

时令 发自 凹非寺
量子位 | 公众号 QbitAI

刚刚,备受瞩目的ICCV 2025,在美国夏威夷正式“开奖”!

好家伙,在提交论文的作者里,中国直接占了半壁江山,不多不少占比50%。



各个奖项也是重中之重捷报频传,现场更是人山人海……好在前方参会的“詹姆斯邦迪”(小红书博主,欢迎大家去follow),第一时间分享了最新进展。

让我们一起膜拜看看顶会荣耀,今年花落谁家?

最佳论文奖(马尔奖)

Generating Physically Stable and Buildable Brick Structures from Text(从文本生成物理稳定且可搭建的积木结构)。



△图源小红书博主:@詹姆斯邦迪

最佳学生论文奖

FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models(基于预训练流模型的无反演文本编辑方法) 。



图源小红书博主:@詹姆斯邦迪

最佳论文荣誉提名

Spatially-Varying Autofocus(空间可变自动对焦)。



△图源小红书博主:@詹姆斯邦迪

最佳学生论文荣誉提名

RayZer: A Self-supervised Large View Synthesis Model(基于自监督学习的大规模视图合成模型)。



△图源小红书博主:@詹姆斯邦迪

赫尔姆霍兹奖

Fast R-CNN(快速区域卷积神经网络)和Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification(深入研究修正激活函数:在ImageNet分类中超越人类水平)。



图源小红书博主:@詹姆斯邦迪

埃弗林厄姆奖

The SMPL Body Model Team和The VQA Team。



图源小红书博主:@詹姆斯邦迪

杰出研究员奖

David Forsyth和Michal Irani。



图源小红书博主:@詹姆斯邦迪

阿兹列尔·罗森菲尔德终身成就奖

Rama Chellappa。



图源小红书博主:@詹姆斯邦迪 图源小红书博主:@詹姆斯邦迪

对于上述论文成果和奖项,是不是一下子有点懵?

别慌别慌,咱们一起来详细学习一下。

获奖的都是啥研究?

最佳论文奖

首先介绍的是最佳论文奖,这含金量就不用多说了吧。

  • ICCV最佳论文又名马尔奖(Marr Prize),每两年评选一次,被誉为计算机视觉领域的最高荣誉之一。
  • 这一奖项因计算机视觉之父、计算机视觉先驱、计算神经科学的创始人David Courtnay Marr(大卫·马尔)而得名。



此研究提出了BRICKGPT——首个能够根据文本提示生成物理稳定的积木结构模型的方法。

研究团队构建了一个大规模、物理稳定的积木结构数据集StableText2Brick,包含超过47000个积木结构,涵盖28000多个独特三维物体,每个结构均配有详细的文字描述,并训练了一个自回归大型语言模型,通过逐步预测“下一个积木”来生成完整结构。



为了提升生成结构的稳定性,他们在推理过程中引入了有效性检测和物理感知回滚机制,利用物理规律和装配约束剔除不可行的预测。

实验表明,BRICKGPT能够生成稳定、多样且美观的积木结构,并与输入文本高度契合。进一步地,他们还开发了基于文本的积木纹理生成方法,可生成带颜色和纹理的设计,且这些结构既可以由人手动组装,也可以由机械臂自动搭建。



值得一提的是,这论文里也有不少华人身影,而带队的正是AI才俊朱俊彦。



朱俊彦,2008年进入清华大学计算机科学系,学习计算机科学专业。在同专业140人中,朱俊彦排名第2。2012年清华本科毕业后,朱俊彦奔赴美国,在CMU和UC伯克利经过5年学习,获得了UC伯克利电气工程与计算机科学系的博士学位,师从Alexei Efros。

其博士毕业毕业论文Learning to Generate Images,获得了计算机图形学顶会ACM SIGGRAPH 2018“杰出博士论文奖”。

博士毕业后,朱俊彦来到MIT计算机与人工智能实验室(CSAIL),成为一名博士后研究员。2020年秋季,他回到曾经的母校CMU(卡内基梅隆大学),担任助理教授一职。



其他几位:Kangle Deng,Roblox的一名研究科学家,研究重点是3D内容创作。本科毕业于北京大学,博士毕业于卡内基梅隆大学。



Ruixuan Liu,本科和硕士均毕业于卡内基梅隆大学,现为该校计算机学院机器人研究所的博士生,研究方向包括机器人学习、操作与控制、生成式智能,以及人机协作。



Changliu Liu,本科毕业于清华大学,博士毕业于美国加州大学伯克利分校,现为卡内基梅隆大学机器人研究所的副教授,

最佳学生论文奖

使用预训练的文本到图像(Text-to-Image,T2I)扩散或流模型编辑真实图像时,通常需要先将图像反演(inversion)到对应的噪声空间。

然而,仅靠反演往往难以获得理想结果,因此许多方法会在采样过程中额外干预。这类方法虽然能够提升效果,但无法在不同模型架构之间无缝迁移。



为此,研究团队提出了FlowEdit——一种针对预训练T2I流模型的文本驱动图像编辑方法。它无需反演、无需优化,并且对模型架构无依赖。

FlowEdit构建了一个常微分方程(ODE),直接在源分布与目标分布之间映射(对应源文本提示和目标文本提示),并实现了比传统反演方法更低的传输成本。

正如团队在Stable Diffusion 3和FLUX上的实验所示,该方法取得了最先进的效果。



最佳论文荣誉提名

透镜可以将一个平面聚焦到平面传感器上,因此场景中不在该焦平面上的部分会因失焦而模糊。

来自卡内基梅隆大学的团队打破常规,设计使用了Lohmann 透镜与仅相位空间光调制器(phase-only spatial light modulator) 的光学组合,使得每个像素可以聚焦在不同深度上。



他们将经典自动对焦技术拓展至空间变化场景:利用对比度与视差线索迭代估算深度图,使相机能够根据场景深度动态调整景深分布。

通过光学方式直接获取全焦图像,此技术在以下两个关键方面超越了现有成果:一是能够同时使整个场景保持清晰对焦,二是可维持最高的空间分辨率。



最佳学生论文荣誉提名

研究团队提出了RayZer——一种无需任何3D监督(如相机位姿与场景几何信息)即可完成训练的自监督多视图3D视觉模型。



具体而言,RayZer以未标定且未校准的图像作为输入,自主恢复相机参数、重建场景表征并生成新视角画面。

在训练过程中,RayZer仅依赖其自预测的相机位姿来渲染目标视角,完全无需真实相机标注数据,实现了仅通过2D图像监督即可完成训练。

RayZer所表现出的三维感知能力主要归功于两个关键因素:

  • 自监督框架设计:通过将相机表示和场景表示解耦,实现输入图像的三维感知自编码;
  • 基于Transformer的模型设计:仅以射线结构作为唯一3D先验,同步关联相机、像素与场景信息。

实验表明,RayZer在新视角合成任务中展现出与”真值标注”方法相当甚至更优的性能。



赫尔姆霍兹奖

获赫尔姆霍兹奖的一共有两项研究,且都来自微软研究院。

其一为Fast R-CNN——一种基于快速区域卷积神经网络的目标检测方法。



Fast R-CNN在之前工作的基础上,利用深度卷积网络对候选目标区域进行高效分类。与以往方法相比,Fast R-CNN引入了多项创新,不仅提升了训练和测试速度,同时也提高了检测精度。

实验表明,在PASCAL VOC 2012数据集上,Fast R-CNN对VGG16网络的训练速度较R-CNN提升9倍,测试速度提升213倍,并获得了更高的mAP指标;相较于SPPnet,其VGG16训练速度加快3倍,测试速度提升10倍,且检测精度更优。



上面提到了,另一个获赫尔姆霍兹奖的也来自微软研究院。



研究从两个方面研究了用于图像分类的修正激活神经网络。

首先,他们提出了一种参数化修正线性单元(Parametric ReLU,PReLU),它是对传统修正激活单元的推广。PReLU在几乎不增加额外计算开销且几乎没有过拟合风险的情况下,提高了模型的拟合能力。

其次,他们提出了一种专门针对修正激活非线性的鲁棒初始化方法,能够从零开始训练极深的修正激活模型,并探索更深或更宽的网络架构。

基于PReLU网络(PReLU-nets),团队在ImageNet 2012分类数据集上实现了4.94%的Top-5测试误差,相比ILSVRC 2014冠军GoogLeNet(6.66%)提升了26%。据研究人员所知,这是首次在该视觉识别挑战中超过人类水平(5.1%)的结果。



获奖团队与大佬

埃弗林厄姆奖

细数完获奖的一众研究,就该看看获奖的团队了。

首先是The SMPL Body Model Team,SMPL是一种基于蒙皮和混合形状技术、从数千例3D人体扫描数据中学习得到的逼真人体三维模型。该模型在精度上超越现有模型,并与主流图形渲染管线完全兼容。



值得一提的是,该模型参数完全从数据中学习得到,包括:静态姿态模板、混合权重、姿态混合形状、身份混合形状,以及从顶点到关节点位置的回归器。



与既有模型不同,此模型的姿态混合形状是姿态旋转矩阵元素的线性函数。这一简洁的数学表达使得模型能够基于大量不同人体、不同姿态的对齐3D网格数据进行端到端训练。

接下来是The VQA Team,VQA为一项自由形式开放式视觉问答任务。



在该任务中,给定一张图像和关于该图像的自然语言问题,系统需要提供一个准确的自然语言答案。

与现实场景(例如为视障人士提供帮助)类似,这里的问题和答案都是开放式的。视觉问题会有选择性地关注图像的不同区域,包括背景细节和潜在上下文信息。

因此,要在VQA任务中取得成功,系统通常需要比生成通用图像描述更深入理解图像内容和进行复杂推理的能力。

对此,研究团队提供了一个数据集,包含约25万张图像、76万个问题和约1000万个答案,并讨论了数据集所提供的信息。他们还提供了多种基线方法及VQA方法,并与人类表现进行了对比。

杰出研究员奖



David Forsyth,一位出生于南非的美国计算机科学家,现任伊利诺伊大学香槟分校(UIUC)计算机科学Fulton Watson Copp教授,主要研究方向包括计算机视觉、计算机图形学和机器学习。

他在约翰内斯堡维特沃特斯兰德大学获得电气工程学士和硕士学位,并于1989年在牛津大学获得计算机科学博士学位,导师为J. Michael Brady。

完成博士后工作后,他曾在爱荷华大学任教,并于1994至 2004 年在加州大学伯克利分校担任电气工程与计算机科学系教授,2004年起加入UIUC,成为该校计算机科学领域的领军人物。

此外,David长期参与国际学术会议的组织工作,曾三度担任IEEE计算机视觉与模式识别会议程序委员会联合主席(2000/2011/2018),两度担任CVPR大会联合主席(2006/2015),并担任2008年欧洲计算机视觉会议程序委员会联合主席。

他是所有主要国际计算机视觉会议程序委员会的常任委员,曾六度入选SIGGRAPH程序委员会并持续担任该会议评审。



Michal Irani,以色列魏茨曼科学研究院数学与计算机科学学院的教授及现任院长。曾在希伯来大学获得数学与计算机科学学士及计算机科学硕士、博士学位。

Michal的研究领域为计算机视觉、图像处理和人工智能。她尤其致力于理解自然图像和视频的内部统计信息、视频的时空分析以及基于构图的视觉推理。

Michal教授在学术界成就卓著,获得多项荣誉,包括萨诺夫研究中心技术成就奖、Yigal Alon杰出青年科学家奖、Morris L. Levinson数学奖、ECCV最佳论文奖等。

阿兹列尔·罗森菲尔德终身成就奖



Rama Chellappa,约翰霍普金斯大学布隆伯格杰出教授,现任电气与计算机工程系和生物医学工程系教授,兼任数据科学与人工智能研究所共同主任。

Rama教授于印度马德拉斯大学获得电子与通信工程学士学位(1975),随后在印度班加罗尔的印度科学研究院获得电子与通信工程硕士学位(1977),并在美国普渡大学获得电气工程硕士(1978)和博士学位(1981)。

他的研究领域涵盖计算机视觉、模式识别、图像与信号处理、机器学习和生物特征识别等,致力于利用数据、几何和物理学帮助计算机系统理解视觉世界。

One More Thing

有意思的是,这么大的会议,竟然有许多人坐在地上吃午饭。



所以网友合理建议:快多放点椅子吧~



论文链接:
[1]https://arxiv.org/abs/2505.05469
[2]https://arxiv.org/html/2412.08629v2
[3]https://imaging.cs.cmu.edu/svaf/static/pdfs/Spatially_Varying_Autofocus.pdf
[4]https://arxiv.org/abs/2505.00702
[5]https://arxiv.org/abs/1504.08083

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
男子理发变理财?投了40多万后发现不对劲,本人:我脸皮薄,不好意思拒绝别人

男子理发变理财?投了40多万后发现不对劲,本人:我脸皮薄,不好意思拒绝别人

极目新闻
2025-11-03 15:52:57
美国富豪CEO遭员工绑架杀害,逼员工做500个俯卧撑才发薪水

美国富豪CEO遭员工绑架杀害,逼员工做500个俯卧撑才发薪水

潇湘晨报
2025-11-02 16:19:15
自带“青霉素”的3种蔬菜,建议:天冷经常吃,增强免疫少感冒!

自带“青霉素”的3种蔬菜,建议:天冷经常吃,增强免疫少感冒!

江江食研社
2025-11-03 16:30:03
电讯报:密集赛程下,英超顶级球队可能将被迫放弃英格兰赛事

电讯报:密集赛程下,英超顶级球队可能将被迫放弃英格兰赛事

懂球帝
2025-11-03 15:39:13
国补确认恢复继续!国补政策2025年最新消息:国补没有结束,新一轮第四批690亿11月发放中,国补资格申领操作教程方法攻略

国补确认恢复继续!国补政策2025年最新消息:国补没有结束,新一轮第四批690亿11月发放中,国补资格申领操作教程方法攻略

开封网
2025-11-03 18:24:24
宣告奇迹出现不到1个月,蔡磊近况曝光,他已为自己安排好后路

宣告奇迹出现不到1个月,蔡磊近况曝光,他已为自己安排好后路

闻识
2025-11-03 15:20:57
曾担任志愿军参谋长的解方,为什么仅被授予少将军衔,有何缘由?

曾担任志愿军参谋长的解方,为什么仅被授予少将军衔,有何缘由?

元哥说历史
2025-11-02 21:00:03
那年暗恋高中女老师,毕业时我鼓起勇气表白,她笑着提出一个要求

那年暗恋高中女老师,毕业时我鼓起勇气表白,她笑着提出一个要求

晓艾故事汇
2025-10-30 17:20:46
“举报的家长们后悔了?”学校不打印课后作业,家长不满老师冷笑

“举报的家长们后悔了?”学校不打印课后作业,家长不满老师冷笑

熙熙说教
2025-11-01 20:36:25
3-1!亚马尔破门 拉什福德爆射独造12球 巴萨反超黄潜落后皇马5分

3-1!亚马尔破门 拉什福德爆射独造12球 巴萨反超黄潜落后皇马5分

狍子歪解体坛
2025-11-03 03:26:50
巴基斯坦飞行员很清楚:驾驶美制F-16战机,就等于和建功立业绝缘

巴基斯坦飞行员很清楚:驾驶美制F-16战机,就等于和建功立业绝缘

云上乌托邦
2025-11-03 11:30:52
好消息!瑟尔斯基宣布守住红军城,已歼灭俄军并成功清理几条街区

好消息!瑟尔斯基宣布守住红军城,已歼灭俄军并成功清理几条街区

环球热点快评
2025-11-02 08:25:30
北京今天最高气温14℃,明后两天夜间至早晨能见度较低

北京今天最高气温14℃,明后两天夜间至早晨能见度较低

新京报
2025-11-03 12:47:15
国产算力终于扬眉吐气!“GPU 第一股” 摩尔线程敲开科创板大门

国产算力终于扬眉吐气!“GPU 第一股” 摩尔线程敲开科创板大门

粤语音乐喷泉
2025-11-01 09:16:12
江苏8位同学宴请恩师,点了24道美食6瓶茅台,结账时集体“破防”

江苏8位同学宴请恩师,点了24道美食6瓶茅台,结账时集体“破防”

小蜜情感说
2025-11-02 11:59:32
你遇到过最尴尬的事是啥?网友:护士这活一般人还真干不了

你遇到过最尴尬的事是啥?网友:护士这活一般人还真干不了

解读热点事件
2025-11-02 00:15:03
真能单挑10万吨美军航母?尼米兹号刚进黄岩岛,055全速冲入编队

真能单挑10万吨美军航母?尼米兹号刚进黄岩岛,055全速冲入编队

爱史纪
2025-11-03 17:32:59
9.6分!这部无数人心中的NO.1美剧,值得一看

9.6分!这部无数人心中的NO.1美剧,值得一看

i书与房
2025-11-03 18:10:03
被叶柯榨干!47岁黄晓明大变样,满脸褶子还秃顶,小餐馆吃面太憔悴

被叶柯榨干!47岁黄晓明大变样,满脸褶子还秃顶,小餐馆吃面太憔悴

八星人
2025-11-03 16:17:52
友情不变,全红婵陈芋汐全运会有说有笑,和张家齐腻歪细节超有爱

友情不变,全红婵陈芋汐全运会有说有笑,和张家齐腻歪细节超有爱

二哥聊球
2025-11-03 09:41:26
2025-11-03 20:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
11619文章数 176322关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

男子夜钓遭枪击 家属:4人当场逃跑 伤者走回家后倒地

头条要闻

男子夜钓遭枪击 家属:4人当场逃跑 伤者走回家后倒地

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

教育
手机
艺术
健康
公开课

教育要闻

“家长举报的,凭啥跳脚?”老师不再打印作业后,家长群炸锅了

手机要闻

ColorOS 16正式版11月升级机型公布:OPPO Find X7/N3系列、一加Ace 5系列等23款

艺术要闻

90后跨国夫妻,到浙江山居:花20万租20年,值了!

超声探头会加重受伤情况吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版