网易首页 > 网易号 > 正文 申请入驻

汇报一下ICCV全部奖项,恭喜朱俊彦团队获最佳论文

0
分享至

刚刚,备受瞩目的ICCV 2025,在美国夏威夷正式“开奖”!

好家伙,在提交论文的作者里,中国直接占了半壁江山,不多不少占比50%。


各个奖项也是重中之重捷报频传,现场更是人山人海……好在前方参会的“詹姆斯邦迪”(小红书博主,欢迎大家去follow),第一时间分享了最新进展。

让我们一起膜拜看看顶会荣耀,今年花落谁家?

最佳论文奖(马尔奖)

Generating Physically Stable and Buildable Brick Structures from Text(从文本生成物理稳定且可搭建的积木结构)。


图源小红书博主:@詹姆斯邦迪

最佳学生论文奖

FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models(基于预训练流模型的无反演文本编辑方法) 。


图源小红书博主:@詹姆斯邦迪

最佳论文荣誉提名

Spatially-Varying Autofocus(空间可变自动对焦)。


图源小红书博主:@詹姆斯邦迪

最佳学生论文荣誉提名

RayZer: A Self-supervised Large View Synthesis Model(基于自监督学习的大规模视图合成模型)。


图源小红书博主:@詹姆斯邦迪

赫尔姆霍兹奖

Fast R-CNN(快速区域卷积神经网络)和Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification(深入研究修正激活函数:在ImageNet分类中超越人类水平)。


图源小红书博主:@詹姆斯邦迪

埃弗林厄姆奖

The SMPL Body Model Team和The VQA Team。


图源小红书博主:@詹姆斯邦迪

杰出研究员奖

David Forsyth和Michal Irani。


图源小红书博主:@詹姆斯邦迪

阿兹列尔·罗森菲尔德终身成就奖

Rama Chellappa。


图源小红书博主:@詹姆斯邦迪

对于上述论文成果和奖项,是不是一下子有点懵?

别慌别慌,咱们一起来详细学习一下。

获奖的都是啥研究? 最佳论文奖

首先介绍的是最佳论文奖,这含金量就不用多说了吧。

ICCV最佳论文又名马尔奖(Marr Prize),每两年评选一次,被誉为计算机视觉领域的最高荣誉之一。 这一奖项因计算机视觉之父、计算机视觉先驱、计算神经科学的创始人David Courtnay Marr(大卫·马尔)而得名。


此研究提出了BRICKGPT——首个能够根据文本提示生成物理稳定的积木结构模型的方法。

研究团队构建了一个大规模、物理稳定的积木结构数据集StableText2Brick,包含超过47000个积木结构,涵盖28000多个独特三维物体,每个结构均配有详细的文字描述,并训练了一个自回归大型语言模型,通过逐步预测“下一个积木”来生成完整结构。


为了提升生成结构的稳定性,他们在推理过程中引入了有效性检测和物理感知回滚机制,利用物理规律和装配约束剔除不可行的预测。

实验表明,BRICKGPT能够生成稳定、多样且美观的积木结构,并与输入文本高度契合。进一步地,他们还开发了基于文本的积木纹理生成方法,可生成带颜色和纹理的设计,且这些结构既可以由人手动组装,也可以由机械臂自动搭建。


值得一提的是,这论文里也有不少华人身影,而带队的正是AI才俊朱俊彦。


朱俊彦,2008年进入清华大学计算机科学系,学习计算机科学专业。在同专业140人中,朱俊彦排名第2。2012年清华本科毕业后,朱俊彦奔赴美国,在CMU和UC伯克利经过5年学习,获得了UC伯克利电气工程与计算机科学系的博士学位,师从Alexei Efros。

其博士毕业毕业论文Learning to Generate Images,获得了计算机图形学顶会ACM SIGGRAPH 2018“杰出博士论文奖”。

博士毕业后,朱俊彦来到MIT计算机与人工智能实验室(CSAIL),成为一名博士后研究员。2020年秋季,他回到曾经的母校CMU(卡内基梅隆大学),担任助理教授一职。


其他几位:Kangle Deng,Roblox的一名研究科学家,研究重点是3D内容创作。本科毕业于北京大学,博士毕业于卡内基梅隆大学。


Ruixuan Liu,本科和硕士均毕业于卡内基梅隆大学,现为该校计算机学院机器人研究所的博士生,研究方向包括机器人学习、操作与控制、生成式智能,以及人机协作。


Changliu Liu,本科毕业于清华大学,博士毕业于美国加州大学伯克利分校,现为卡内基梅隆大学机器人研究所的副教授,

最佳学生论文奖

使用预训练的文本到图像(Text-to-Image,T2I)扩散或流模型编辑真实图像时,通常需要先将图像反演(inversion)到对应的噪声空间。

然而,仅靠反演往往难以获得理想结果,因此许多方法会在采样过程中额外干预。这类方法虽然能够提升效果,但无法在不同模型架构之间无缝迁移。


为此,研究团队提出了FlowEdit——一种针对预训练T2I流模型的文本驱动图像编辑方法。它无需反演、无需优化,并且对模型架构无依赖。

FlowEdit构建了一个常微分方程(ODE),直接在源分布与目标分布之间映射(对应源文本提示和目标文本提示),并实现了比传统反演方法更低的传输成本。

正如团队在Stable Diffusion 3和FLUX上的实验所示,该方法取得了最先进的效果。


最佳论文荣誉提名

透镜可以将一个平面聚焦到平面传感器上,因此场景中不在该焦平面上的部分会因失焦而模糊。

来自卡内基梅隆大学的团队打破常规,设计使用了Lohmann 透镜与仅相位空间光调制器(phase-only spatial light modulator) 的光学组合,使得每个像素可以聚焦在不同深度上。


他们将经典自动对焦技术拓展至空间变化场景:利用对比度与视差线索迭代估算深度图,使相机能够根据场景深度动态调整景深分布。

通过光学方式直接获取全焦图像,此技术在以下两个关键方面超越了现有成果:一是能够同时使整个场景保持清晰对焦,二是可维持最高的空间分辨率。


最佳学生论文荣誉提名

研究团队提出了RayZer——一种无需任何3D监督(如相机位姿与场景几何信息)即可完成训练的自监督多视图3D视觉模型。


具体而言,RayZer以未标定且未校准的图像作为输入,自主恢复相机参数、重建场景表征并生成新视角画面。

在训练过程中,RayZer仅依赖其自预测的相机位姿来渲染目标视角,完全无需真实相机标注数据,实现了仅通过2D图像监督即可完成训练。

RayZer所表现出的三维感知能力主要归功于两个关键因素:

  • 自监督框架设计:通过将相机表示和场景表示解耦,实现输入图像的三维感知自编码;

  • 基于Transformer的模型设计:仅以射线结构作为唯一3D先验,同步关联相机、像素与场景信息。

实验表明,RayZer在新视角合成任务中展现出与”真值标注”方法相当甚至更优的性能。


赫尔姆霍兹奖

获赫尔姆霍兹奖的一共有两项研究,且都来自微软研究院。

其一为Fast R-CNN——一种基于快速区域卷积神经网络的目标检测方法。


Fast R-CNN在之前工作的基础上,利用深度卷积网络对候选目标区域进行高效分类。与以往方法相比,Fast R-CNN引入了多项创新,不仅提升了训练和测试速度,同时也提高了检测精度。

实验表明,在PASCAL VOC 2012数据集上,Fast R-CNN对VGG16网络的训练速度较R-CNN提升9倍,测试速度提升213倍,并获得了更高的mAP指标;相较于SPPnet,其VGG16训练速度加快3倍,测试速度提升10倍,且检测精度更优。


上面提到了,另一个获赫尔姆霍兹奖的也来自微软研究院。


研究从两个方面研究了用于图像分类的修正激活神经网络。

首先,他们提出了一种参数化修正线性单元(Parametric ReLU,PReLU),它是对传统修正激活单元的推广。PReLU在几乎不增加额外计算开销且几乎没有过拟合风险的情况下,提高了模型的拟合能力。

其次,他们提出了一种专门针对修正激活非线性的鲁棒初始化方法,能够从零开始训练极深的修正激活模型,并探索更深或更宽的网络架构。

基于PReLU网络(PReLU-nets),团队在ImageNet 2012分类数据集上实现了4.94%的Top-5测试误差,相比ILSVRC 2014冠军GoogLeNet(6.66%)提升了26%。据研究人员所知,这是首次在该视觉识别挑战中超过人类水平(5.1%)的结果。


获奖团队与大佬 埃弗林厄姆奖

细数完获奖的一众研究,就该看看获奖的团队了。

首先是The SMPL Body Model Team,SMPL是一种基于蒙皮和混合形状技术、从数千例3D人体扫描数据中学习得到的逼真人体三维模型。该模型在精度上超越现有模型,并与主流图形渲染管线完全兼容。


值得一提的是,该模型参数完全从数据中学习得到,包括:静态姿态模板、混合权重、姿态混合形状、身份混合形状,以及从顶点到关节点位置的回归器。


与既有模型不同,此模型的姿态混合形状是姿态旋转矩阵元素的线性函数。这一简洁的数学表达使得模型能够基于大量不同人体、不同姿态的对齐3D网格数据进行端到端训练。

接下来是The VQA Team,VQA为一项自由形式开放式视觉问答任务。


在该任务中,给定一张图像和关于该图像的自然语言问题,系统需要提供一个准确的自然语言答案。

与现实场景(例如为视障人士提供帮助)类似,这里的问题和答案都是开放式的。视觉问题会有选择性地关注图像的不同区域,包括背景细节和潜在上下文信息。

因此,要在VQA任务中取得成功,系统通常需要比生成通用图像描述更深入理解图像内容和进行复杂推理的能力。

对此,研究团队提供了一个数据集,包含约25万张图像、76万个问题和约1000万个答案,并讨论了数据集所提供的信息。他们还提供了多种基线方法及VQA方法,并与人类表现进行了对比。

杰出研究员奖


David Forsyth,一位出生于南非的美国计算机科学家,现任伊利诺伊大学香槟分校(UIUC)计算机科学Fulton Watson Copp教授,主要研究方向包括计算机视觉、计算机图形学和机器学习。

他在约翰内斯堡维特沃特斯兰德大学获得电气工程学士和硕士学位,并于1989年在牛津大学获得计算机科学博士学位,导师为J. Michael Brady。

完成博士后工作后,他曾在爱荷华大学任教,并于1994至 2004 年在加州大学伯克利分校担任电气工程与计算机科学系教授,2004年起加入UIUC,成为该校计算机科学领域的领军人物。

此外,David长期参与国际学术会议的组织工作,曾三度担任IEEE计算机视觉与模式识别会议程序委员会联合主席(2000/2011/2018),两度担任CVPR大会联合主席(2006/2015),并担任2008年欧洲计算机视觉会议程序委员会联合主席。

他是所有主要国际计算机视觉会议程序委员会的常任委员,曾六度入选SIGGRAPH程序委员会并持续担任该会议评审。


Michal Irani,以色列魏茨曼科学研究院数学与计算机科学学院的教授及现任院长。曾在希伯来大学获得数学与计算机科学学士及计算机科学硕士、博士学位。

Michal的研究领域为计算机视觉、图像处理和人工智能。她尤其致力于理解自然图像和视频的内部统计信息、视频的时空分析以及基于构图的视觉推理。

Michal教授在学术界成就卓著,获得多项荣誉,包括萨诺夫研究中心技术成就奖、Yigal Alon杰出青年科学家奖、Morris L. Levinson数学奖、ECCV最佳论文奖等。

阿兹列尔·罗森菲尔德终身成就奖


Rama Chellappa,约翰霍普金斯大学布隆伯格杰出教授,现任电气与计算机工程系和生物医学工程系教授,兼任数据科学与人工智能研究所共同主任。

Rama教授于印度马德拉斯大学获得电子与通信工程学士学位(1975),随后在印度班加罗尔的印度科学研究院获得电子与通信工程硕士学位(1977),并在美国普渡大学获得电气工程硕士(1978)和博士学位(1981)。

他的研究领域涵盖计算机视觉、模式识别、图像与信号处理、机器学习和生物特征识别等,致力于利用数据、几何和物理学帮助计算机系统理解视觉世界。

One More Thing

有意思的是,这么大的会议,竟然有许多人坐在地上吃午饭。


所以网友合理建议:快多放点椅子吧~


论文链接:
[1]https://arxiv.org/abs/2505.05469
[2]https://arxiv.org/html/2412.08629v2
[3]https://imaging.cs.cmu.edu/svaf/static/pdfs/Spatially_Varying_Autofocus.pdf
[4]https://arxiv.org/abs/2505.00702
[5]https://arxiv.org/abs/1504.08083
[6]https://arxiv.org/abs/1502.01852

文章来源:量子位。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一场全运会半决赛,戳穿了山东女排的真正实力,这次真的藏不住了

一场全运会半决赛,戳穿了山东女排的真正实力,这次真的藏不住了

郝小小看体育
2025-11-19 09:57:39
黑龙江63岁正厅级干部被开除党籍!原任职地四任市委书记落马→

黑龙江63岁正厅级干部被开除党籍!原任职地四任市委书记落马→

喜哈生活
2025-11-19 07:32:18
72年,刘沙去狱中看望丈夫吕正操,不断提醒:切不可对毛主席见外

72年,刘沙去狱中看望丈夫吕正操,不断提醒:切不可对毛主席见外

兴趣知识
2025-11-19 03:34:31
热评丨从秋招新风向看产业新变化

热评丨从秋招新风向看产业新变化

北青网-北京青年报
2025-11-18 11:35:03
选美冠军杀疯了!360度无死角美貌+超模身材,这配置让同行都破防

选美冠军杀疯了!360度无死角美貌+超模身材,这配置让同行都破防

动物奇奇怪怪
2025-11-10 06:23:02
女人同房时,会发出“嗯嗯”声,这意味着什么?

女人同房时,会发出“嗯嗯”声,这意味着什么?

思絮
2025-10-25 18:34:11
黑龙江省七台河市市场监督管理局党组书记、局长孙安红被查

黑龙江省七台河市市场监督管理局党组书记、局长孙安红被查

鲁中晨报
2025-11-18 16:17:04
泰国国王突然跪了,尊贵身份为何输给高僧?中泰佛缘暗藏玄机

泰国国王突然跪了,尊贵身份为何输给高僧?中泰佛缘暗藏玄机

刘哥谈体育
2025-11-18 03:33:33
美媒曝光中国轰炸计划:如果日本敢走错半步,或遭毁灭性打击

美媒曝光中国轰炸计划:如果日本敢走错半步,或遭毁灭性打击

一个有灵魂的作者
2025-11-16 14:54:03
江苏省副省长李忠军,任南京市代市长

江苏省副省长李忠军,任南京市代市长

观察者网
2025-11-18 18:34:20
许绍雄出殡众星相送,78岁林子祥双眼含泪,佘诗曼哭着脸奔赴灵堂

许绍雄出殡众星相送,78岁林子祥双眼含泪,佘诗曼哭着脸奔赴灵堂

开开森森
2025-11-18 11:22:50
湖南发现一株“极品”兰花,被人50元买走,却在兰展卖出了天价

湖南发现一株“极品”兰花,被人50元买走,却在兰展卖出了天价

单手搓核弹
2025-11-08 09:53:26
卢秀燕竟然声援“台独”,侯友宜紧随其后,国民党老毛病又犯了

卢秀燕竟然声援“台独”,侯友宜紧随其后,国民党老毛病又犯了

张殿成
2025-11-18 14:32:55
他只想更好地做科研写论文,却一不小心改变了全球程序员的命运......

他只想更好地做科研写论文,却一不小心改变了全球程序员的命运......

码农翻身
2025-11-18 09:00:17
林志玲首谈离婚,自曝患抑郁:结婚才3年,简直像换了一个人!

林志玲首谈离婚,自曝患抑郁:结婚才3年,简直像换了一个人!

热闹吃瓜大姐
2025-11-17 19:59:42
贾乃亮方发声明否认直播卖假货,“产品均由官方旗舰店发货”;品牌方回应:无法查询到相关信息

贾乃亮方发声明否认直播卖假货,“产品均由官方旗舰店发货”;品牌方回应:无法查询到相关信息

大风新闻
2025-11-19 10:06:03
马云戴工牌现身杭州蚂蚁园区 井贤栋、韩歆毅陪同

马云戴工牌现身杭州蚂蚁园区 井贤栋、韩歆毅陪同

观点机构
2025-11-18 19:59:21
孩子独自写作业监控曝光:全国一半妈妈发现,看到了自己家的娃的影子……

孩子独自写作业监控曝光:全国一半妈妈发现,看到了自己家的娃的影子……

品读时刻
2025-11-08 09:09:09
如何才能防得了农民工“规模性返乡滞乡”?

如何才能防得了农民工“规模性返乡滞乡”?

李未熟擒话2
2025-11-18 11:44:58
中统女谍潜伏东北40年,嫁给矿工生7个娃,她的伪装术有多高明?

中统女谍潜伏东北40年,嫁给矿工生7个娃,她的伪装术有多高明?

不易一字
2025-11-12 17:29:30
2025-11-19 11:00:49
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5237文章数 64596关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

女子被男友辱骂殴打后持刀刺胸口自杀 法院:男友无罪

头条要闻

女子被男友辱骂殴打后持刀刺胸口自杀 法院:男友无罪

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

又反转!曝喻恩泰出轨美女律师

财经要闻

黄金税改两周,水贝低价神话终结?

汽车要闻

脱胎换骨的优秀底盘Get 新款享界S9动态驾驶体验

态度原创

本地
手机
艺术
旅游
教育

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

手机要闻

10月国内排名:苹果夺冠,小米创新高,OPPO增速最快

艺术要闻

启功:我是画家,但书名超过了画名

旅游要闻

杭州官宣取消灵隐寺门票

教育要闻

县环卫所只招博士引质疑!可以“不拒博士”,不该“只招博士”

无障碍浏览 进入关怀版