网易首页 > 网易号 > 正文 申请入驻

刚刚,ICCV最佳论文出炉,朱俊彦团队用砖块积木摘得桂冠

0
分享至



机器之心报道

机器之心编辑部

10 月 22 日凌晨,国际计算机视觉大会 ICCV(IEEE International Conference on Computer Vision)揭幕了本年度最佳论文等奖项。

来自卡耐基梅隆大学(CMU)的研究获得了最佳论文奖,以色列理工学院(Technion)的研究获得最佳学生论文奖。



ICCV 是全球计算机视觉三大顶会之一,每两年举办一次,今年的会议在美国夏威夷举行。数据显示,今年大会共收到了 11239 份有效投稿,程序委员会推荐录用 2699 篇论文,最终录用率为 24%,相比上一届论文数量又有大幅增长。

最佳论文

最佳论文奖是来自卡耐基梅隆大学,AI 领域知名青年学者朱俊彦带领团队的论文《Generating Physically Stable and Buildable Brick Structures from Text》。



朱俊彦,清华大学校友,卡耐基梅隆大学计算机科学学院助理教授,前 Adobe 研究科学家。主要研究方向是计算机视觉、图形学、计算摄影和生成模型。



  • 论文标题:Generating Physically Stable and Buildable Brick Structures from Text
  • 论文链接:https://arxiv.org/pdf/2505.05469
  • 开源代码与模型:https://avalovelace1.github.io/BrickGPT/

这篇论文提出了BrickGPT,是首个能够根据文本提示生成物理稳定的相互连接的积木装配模型的方法。

为实现这一目标,研究团队构建了一个大规模、物理稳定的积木结构数据集,并为每个结构配备了对应的文本描述。随后,研究团队训练了一个自回归大型语言模型,通过「预测下一个 token」的方式来预测应添加的下一块积木。

为了提高生成设计的稳定性,研究者在自回归推理过程中引入了高效的有效性检查(validity check)和基于物理约束的回滚机制(physics-aware rollback),利用物理定律与装配约束来剪枝不可行的 token 预测。

实验结果表明,BrickGPT 能够生成稳定、多样且美观的积木结构,并且与输入的文本提示高度契合。我们还开发了一种基于文本的积木贴图方法,用于生成带有颜色和纹理的设计。

此外,这些设计既可以由人类手动装配,也可以由机械臂自动组装。同时,研究者公开了新的数据集 StableText2Brick,其中包含 47,000 多个积木结构、超过 28,000 个独特的三维对象及其详细描述文本。



该论文的方法流程如图所示。

首先,系统将一个积木结构离散化为一串文本 token 序列,按自下而上、逐行扫描(raster-scan)的顺序排列。

随后,研究者们构建了一个指令数据集,将积木序列与相应的文本描述配对,用于对 LLaMA-3.2-Instruct-1B 进行微调。

最后在推理阶段,BrickGPT 根据输入的文本提示,逐块预测生成积木结构。

对于每一个生成的积木,我们都会执行一系列有效性检查,以确保该积木:

  • 格式正确;
  • 存在于积木库中;
  • 不与已有积木发生碰撞。

在完成整体设计后,研究者们会对其物理稳定性进行验证。若检测到结构不稳定,系统会回滚至最近的稳定状态,即删除所有不稳定的积木及其后续部分,并从该位置继续生成。



将该论文方法与多种基线模型进行对比评估,评价指标包括:有效性(validity):是否存在超出积木库、越界或相互碰撞的积木;稳定性(stability);基于 CLIP 的文本相似度以及基于 DINOv2 的图像相似度。其中,稳定性、CLIP 相似度和 DINO 相似度的计算仅针对有效结构进行。对于 LLaMA-Mesh ,有效性要求其生成的 OBJ 文件格式正确。

实验结果表明,该论文的方法在采用拒绝采样(rejection sampling)与回滚机制(rollback)后,在有效性与稳定性上全面优于所有基线模型及其消融设置,同时仍保持较高的文本相似度。



结果展示与基线对比。该论文方法能够根据给定的文本提示,生成高质量、多样化且具有新颖性的积木结构。其中,黑色积木表示发生碰撞的部分。

在该研究之外,同样来自 CMU 的论文《Spatially-Varying Autofocus》获得了 ICCV 2025 最佳论文提名奖。



  • 论文地址:https://imaging.cs.cmu.edu/svaf/static/pdfs/Spatially_Varying_Autofocus.pdf

传统镜头只能在单一平面上成像清晰;因此,位于该焦平面之外的场景部分会因离焦而模糊。那么,能否打破这一成像规律,构建一种能够任意调整景深的「镜头」?

本研究探讨了这种具备空间选择性聚焦能力(spatially-selective focusing)的计算镜头的设计与实现。研究者采用了一种由 Lohmann 镜头与仅相位空间光调制器(phase-only SLM)组成的光学结构,使得每个像素都能聚焦在不同的深度平面上。在此基础上,我们将经典的自动对焦方法扩展到空间可变聚焦场景中,通过对比度与视差线索迭代估计深度图,从而使相机能够逐步调整景深形状以匹配场景深度分布。

通过这种方式,我们能够在光学层面上直接获得全清晰图像。与以往研究相比,本方法在两方面实现了突破:能够同时使整个场景清晰成像;能够保持最高的空间分辨率。

最佳学生论文

最佳论文奖是来自以色列理工学院(Technion)的论文《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》。



这篇论文介绍了一种名为FlowEdit的新型图像编辑方法。



  • 论文地址:https://arxiv.org/abs/2412.08629
  • 项目主页:https://matankleiner.github.io/flowedit/
  • Code&Data:https://github.com/fallenshock/FlowEdit
  • HuggingFace:https://huggingface.co/spaces/fallenshock/FlowEdit

研究者指出,使用预训练的文本到图像(T2I)扩散或流模型编辑真实图像时,通常需要将图像「反演」为其对应的噪声图。然而,单独的反演往往无法很好地保留原图的结构与细节,因此许多现有方法会在采样过程中额外进行干预。尽管这些方法提升了效果,但却无法在不同模型架构之间无缝迁移。

FlowEdit 创新地绕开了「图像 → 噪声 → 编辑后图像」的传统路径。它通过构建一个常微分方程(ODE),直接在源图像分布(由源提示词定义)与目标图像分布(由目标提示词定义)之间建立了一条直接映射路径。



这条直接路径实现了更低的传输成本,这意味着在编辑过程中能够最大程度地保留原始图像的结构和内容,从而实现更高保真度的编辑。

研究团队在 Stable Diffusion 3 和 FLUX 这两个先进的 T2I 流模型上对 FlowEdit 进行了广泛的实验验证。结果表明,该方法在各类复杂的编辑任务中均取得了 SOTA 效果,证明了其高效性和优越性。



此外,来自德州大学奥斯丁分校的论文《RayZer: A Self-supervised Large View Synthesis Model》获得了最佳学生论文提名奖。



  • 论文地址:https://arxiv.org/abs/2505.00702

研究人员提出了一个名为RayZer的自监督多视图 3D 视觉模型。该模型最核心的特点是,它在训练时无需任何 3D 监督信息(如相机位姿或场景几何),便能学习并展现出涌现的 3D 感知能力。

具体而言,RayZer 能够处理来自未标定相机、位姿未知的图像集合,并从中恢复相机参数、重建场景的 3D 表示,以及合成全新的视角。其创新之处在于,模型在训练过程中完全依赖自我预测的相机位姿来渲染目标视图进行学习,从而摆脱了对真实位姿标注的依赖,仅需 2D 图像即可完成训练。

实验结果表明,RayZer 在新视角合成任务上的表现,与那些在训练和测试中都依赖精确位姿标注的 「神谕」 方法相比,性能相当甚至更优,充分证明了该方法的有效性和潜力。

其他奖项

Helmholtz Prize

测试方法奖,表彰在计算机视觉基准测试中的贡献,该奖项有两篇获奖论文。

一篇是 Ross Girshick 的《Fast R-CNN》,该论文提出了一种用于目标检测的快速区域卷积网络 (Fast R-CNN)。该方法在前人研究基础上,利用深度卷积网络高效分类候选区域,并通过多项创新显著提升了训练、测试速度和检测精度。



  • 论文地址:https://arxiv.org/abs/1504.08083

另一篇是何恺明等人于 2015 年在 ICCV 发表的论文《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》。这篇工作引入了后来被广泛使用的PReLU 激活函数He 初始化方法,并首次在 ImageNet 上达到了「超越人类水平」的分类性能。



  • 论文地址:https://arxiv.org/abs/1502.01852

Everingham Prize

严谨评估奖,表彰对社区有重大贡献的研究者,该奖项有两个获奖团队。

一个是人体 3D 模型 SMPL 的团队。SMPL 是一种由人体扫描数据训练的三维可变形人体模型,它以参数化方式精准表示人体姿态与形状,被广泛应用于动画、虚拟人、动作捕捉、AR/VR 及生成式 AI 中,对计算机视觉与数字人领域的进步具有里程碑式影响。



  • 项目主页:https://smpl.is.tue.mpg.de/

另一个是 VQA 数据集团队。VQA 数据集是一种将图像理解与自然语言问答结合的大规模基准数据集,它推动了多模态 AI 在视觉理解、语言推理和跨模态语义对齐等方向的研究与突破。



Significant Researcher Award

该奖项旨在表彰那些其研究贡献「显著地推动了计算机视觉领域进展」的研究人员,颁给了 David Forsyth 和 Michal lrani。



David Forsyth 是计算机视觉领域的领军人物,他早期提出颜色恒常性方法、形状变化不变测量,并推动人体动作识别与追踪技术的发展,从而在物体识别、动作分析与图像–语言交叉研究方面产生了深远影响。

Michal Irani 是著名计算机视觉学者,她开创了 「图像内部自相似性」 与 「空间 - 时间视频形状」 研究范式,通过无监督或单样本方法解决超分辨、盲去模糊、视频结构分析等核心问题,从而丰富了视觉推断与学习的理论基础。

Azriel Rosenfeld Award

该奖项是计算机视觉领域极具荣誉的「终身成就奖」之一,专门用于表彰那些不仅在其研究生涯中取得重大成果,而且其成果在学术界与 / 或工业界都具有持续影响、推动整个领域发展的研究者,颁给了 Rama Chellappa。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广州又要降温了!新冷空气即将发货,最低气温12℃!

广州又要降温了!新冷空气即将发货,最低气温12℃!

羊城攻略
2025-11-12 17:42:36
她死于1688年,她的黄谣却传到了2025年

她死于1688年,她的黄谣却传到了2025年

最爱历史
2025-11-06 17:55:58
4分惜败!辽宁一胜难求,吴庆龙尽力了,刘子扬23分,李悦洲35+4

4分惜败!辽宁一胜难求,吴庆龙尽力了,刘子扬23分,李悦洲35+4

萌兰聊个球
2025-11-12 18:35:45
中方态度:支持,但暂不出资

中方态度:支持,但暂不出资

陆弃
2025-11-12 10:33:33
破产之后,王中磊仍住别墅,搬家后院子冷清,妻子感叹往日不再

破产之后,王中磊仍住别墅,搬家后院子冷清,妻子感叹往日不再

晓楖科普
2025-11-12 16:01:37
小米汽车的数据,好假!

小米汽车的数据,好假!

道哥说车
2025-11-12 09:47:12
A股:2个重要信号来了,明天,或将迎来新的上涨?

A股:2个重要信号来了,明天,或将迎来新的上涨?

明心
2025-11-12 16:34:46
匡琦太无奈:对朱婷没办法,她一个人带飞河南队!已是夺牌大热门

匡琦太无奈:对朱婷没办法,她一个人带飞河南队!已是夺牌大热门

金毛爱女排
2025-11-12 16:58:56
女子被赤裸抛尸续:继二伯狂打70通电话想发生关系,丈夫痛哭露面

女子被赤裸抛尸续:继二伯狂打70通电话想发生关系,丈夫痛哭露面

吭哧有力
2025-11-12 13:02:37
分享解剖学知识,破除多年来的G点谣传

分享解剖学知识,破除多年来的G点谣传

远方青木
2025-10-25 00:06:11
队史全运会第三冠!广东36分大胜浙江登顶 徐杰18+7吴前14中1

队史全运会第三冠!广东36分大胜浙江登顶 徐杰18+7吴前14中1

颜小白的篮球梦
2025-11-12 21:08:24
安徽高考生詹胡涛去世,年仅18岁,刚考上交通大学,前后仅2个月

安徽高考生詹胡涛去世,年仅18岁,刚考上交通大学,前后仅2个月

阅识
2025-11-12 10:15:35
谁注意,一位大人物赛后与杜锋握手致意,球迷:有排面日后或升官

谁注意,一位大人物赛后与杜锋握手致意,球迷:有排面日后或升官

南海浪花
2025-11-12 07:06:52
湖南人民医院事件新进展,视频拍摄者身份已清晰,第三者已出现

湖南人民医院事件新进展,视频拍摄者身份已清晰,第三者已出现

平老师666
2025-11-12 11:41:29
主动退出奥运申办!中国这一招,让西方媒体无话可说

主动退出奥运申办!中国这一招,让西方媒体无话可说

青梅侃史啊
2025-08-18 16:14:26
人事把我开除了,临走前问我还有什么想说的,我:被开除的是你

人事把我开除了,临走前问我还有什么想说的,我:被开除的是你

小秋情感说
2025-11-02 14:17:32
172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

健身迷
2025-10-16 10:10:40
中国名将2连胜!赵心童连胜3局,绝杀世界冠军,4强PK特鲁姆普

中国名将2连胜!赵心童连胜3局,绝杀世界冠军,4强PK特鲁姆普

小李子爱体育
2025-11-12 20:44:40
为什么床头不能放卫生纸?很多人不知道原因,看完赶紧收起来!

为什么床头不能放卫生纸?很多人不知道原因,看完赶紧收起来!

生活不过如此呀
2025-11-12 16:17:00
全运会7大省一哥遭淘汰!疯狂爆冷国乒新人堪忧,还得看小胖陈梦

全运会7大省一哥遭淘汰!疯狂爆冷国乒新人堪忧,还得看小胖陈梦

嘴炮体坛
2025-11-12 19:06:43
2025-11-12 21:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11699文章数 142504关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

头条要闻

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

教育
艺术
数码
旅游
家居

教育要闻

江西财经大学2026届保研487人,软件工程60人

艺术要闻

毛主席珍贵签名照曝光,鲜为人知的历史瞬间!

数码要闻

京东双11家电销冠之争:美的海尔都是第一,咋回事?

旅游要闻

中国有约丨走进《黑神话:悟空》取景地双林寺

家居要闻

情感之所 生活教会设计

无障碍浏览 进入关怀版