网易首页 > 网易号 > 正文 申请入驻

ICLR 2025 | 原生3D+流匹配,现有SOTA被GaussianAnything超越

0
分享至


兰宇时,MMLab@NTU博士生,导师为 Chen Change Loy。本科毕业于北京邮电大学,目前主要研究兴趣为基于神经渲染的 3D 生成模型、3D 重建与编辑。

尽管 3D 内容生成技术取得了显著进展,现有方法仍在输入格式、潜空间设计和输出表示上面临挑战。

在 ICLR 2025 中,来自南洋理工大学 S-Lab、上海 AI Lab、北京大学以及香港大学的研究者提出的基于 Flow Matching 技术的全新 3D 生成框架 GaussianAnything,针对现有问题引入了一种交互式的点云结构化潜空间,实现了可扩展的、高质量的 3D 生成,并支持几何-纹理解耦生成与可控编辑能力。

该方法在 Objaverse 数据集上进行了大规模训练,并在文本、图像、点云引导的 3D 生成任务中超越了现有的原生 3D 生成方法。

目前,项目所有模型和测试/训练代码均已全面开源至 Github/Huggingface, 并支持多卡、自动混合精度 (AMP) 训练、flash-attention 以及 BF16 等加速技巧。

  • 论文项目主页: https://nirvanalan.github.io/projects/GA/
  • 论文代码: https://github.com/NIRVANALAN/GaussianAnything
  • Gradio demo 地址: https://huggingface.co/spaces/yslan/GaussianAnything-AIGC3D
  • 个人主页: https://nirvanalan.github.io/
  • 论文标题:GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

研究背景

近年来,以可微渲染和生成模型为核心的神经渲染技术 (Neural Rendering) 取得了快速的进展,在新视角合成、3D 物体生成和编辑上取得了令人满意的效果。在统一图片/视频生成的 LDM 框架的基础上,近期关于原生 (native) 3D diffusion model 的研究也展现了更优的泛化性,更快的生成速度与更好的可编辑性。

然而,一些关于原生 3D diffusion 模型的设计挑战仍然存在: (1) 3D VAE 输入格式,(2) 3D 隐空间结构设计,(3) 3D 输出表征选择。

为了解决上述问题,研究者提出基于 Flow Matching 的可控点云结构化隐空间 3D 生成模型 GaussianAnything,支持多模态可控的高效、高质量的 3D 资产生成。

方法

方法概览图 (3D VAE 部分):

研究者提出的 3D-aware flow matching 模型主要包含以下三个部分:

  1. 利用编码器 (3D VAE Encoder) 将 3D 物体的 RGB-D (epth)-N (ormal) 多视图渲染图压缩到点云结构的 3D 隐空间。
  2. 在 3D 隐空间中训练几何 + 纹理的级联流匹配模型 (Flow Matching model), 支持图片、文字、和稀疏点云引导的 3D 物体生成。
  3. 使用 3D VAE Decoder 上采样生成的点云隐变量,并解码为稠密的表面高斯 (Surfel Gaussian)。

Point-cloud structured 3D VAE

结构化的高效、高质量 3D 压缩

高效的 3D 物体编码

高质量 3D 高斯上采样/解码

VAE 模型训练

Cascaded 3D Generation with Flow Matching

级联 3D 生成框架

在第二阶段,研究者在训练完成的 3D VAE space 上进行 Flow Matching 训练。在使用文本/单目图像作为输入条件时,他们均使用 Cross Attention 进行条件信息编码并送入 DiT 框架中进行训练。同时分为两个阶段单独学习几何 (稀疏点云) 和纹理 (点云结构的低维特征)。

具体而言,研究者首先训练一个稀疏点云上的 Flow Matching 模型:

在此基础上,研究者将点云输出作为条件信息进一步输出细节纹理特征:

该生成范式有效的支持了几何 - 纹理解耦的生成与编辑。

实验结果

Image-conditioned 3D Generation | 图生 3D

考虑到 3D 内容创作更多采用图片作为参考,本文方法同样支持在给定单目图像条件下实现高质量 3D 生成。相比于多视图生成 + 重建的两阶段方法,本文方案在 3D 生成效果、多样性以及 3D 一致性上有更稳定的表现:

数值结果:

可视化结果:

Text-conditioned 3D Generation | 文生 3D

在大规模 3D 数据集 Objaverse 上,研究者基于 Flow Matching 的 3D 生成模型支持从文本描述直接生成丰富,带有细节纹理的高质量 3D 资产,并支持 textured-mesh 的导出。生成过程仅需数秒即可完成。可视化对比结果如下:

在数值指标上,GaussianAnything 同样优于投稿时最优的原生 text-conditioned 3D 生成方法。

更多内容请参考原论文与项目主页。

Reference

[1] CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets. TOG 2024.

[2] CraftsMan: High-fidelity Mesh Generation with 3D Native Generation and Interactive Geometry Refiner. arXiv 2024.

[3] Scene Representation Transformer: Geometry-Free Novel View Synthesis Through Set-Latent Scene Representations. CVPR 2022

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
主力资金爆买化工股!600800,二连板!

主力资金爆买化工股!600800,二连板!

证券时报e公司
2026-03-26 12:26:30
火箭108-110森林狼!杜兰特看清现实,申京也迷茫,一人该被重用

火箭108-110森林狼!杜兰特看清现实,申京也迷茫,一人该被重用

鱼崖大话篮球
2026-03-26 15:37:49
宠物界医闹!全网最记仇的小狗坚持每天早中晚上门追着医生骂,狗主人:只因8年前在这里挨了一针,骂多久看心情,吃饱了就多骂一会儿

宠物界医闹!全网最记仇的小狗坚持每天早中晚上门追着医生骂,狗主人:只因8年前在这里挨了一针,骂多久看心情,吃饱了就多骂一会儿

观威海
2026-03-24 16:55:04
又是1-3、又是输在决赛!向鹏淘汰温瑞博,获世乒赛参赛资格

又是1-3、又是输在决赛!向鹏淘汰温瑞博,获世乒赛参赛资格

十点街球体育
2026-03-25 20:08:11
台名嘴:亲美派准备夺权!马英九亲自指控,萧旭岑用三件事回击!

台名嘴:亲美派准备夺权!马英九亲自指控,萧旭岑用三件事回击!

混沌录
2026-03-26 17:33:21
王励勤再次打破传统!国乒8人拿到伦敦门票,樊振东陈梦动向曝光

王励勤再次打破传统!国乒8人拿到伦敦门票,樊振东陈梦动向曝光

老糿尾声体育解说
2026-03-26 13:46:27
马刺大胜送灰熊出局,本赛季常规赛西部前十球队已全部出炉

马刺大胜送灰熊出局,本赛季常规赛西部前十球队已全部出炉

懂球帝
2026-03-26 12:27:11
大家有没有莫名不喜欢一类长相?网友:面相这个东西,还真有学问

大家有没有莫名不喜欢一类长相?网友:面相这个东西,还真有学问

另子维爱读史
2026-03-20 21:45:48
“以前每桶省20美元,现在一分折扣没有” 油价“破百”下的山东地炼产业现状深度调查

“以前每桶省20美元,现在一分折扣没有” 油价“破百”下的山东地炼产业现状深度调查

每日经济新闻
2026-03-26 13:14:14
“封杀”5年后,34岁郑爽财力现状被扒,结果估计和你想得不一样

“封杀”5年后,34岁郑爽财力现状被扒,结果估计和你想得不一样

梨花黛娱
2026-03-24 14:47:07
美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

美国最担心的事发生了,伊朗亮出中国“底牌”,中国或成最大赢家

徐云流浪中国
2026-03-04 15:30:07
13投仅仅1中 强如哈登也带不动 未来恐成骑士交易筹码?

13投仅仅1中 强如哈登也带不动 未来恐成骑士交易筹码?

砚底沉香
2026-03-26 13:53:44
怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

怀孕传闻真相大白后,翁帆突传“喜讯”,杨振宁终于可以放心了!

丁丁鲤史纪
2026-03-25 16:35:13
中国军事专家送日本3句话,太绝了,真不是吓唬他们

中国军事专家送日本3句话,太绝了,真不是吓唬他们

安安说
2026-03-26 11:21:19
李双江庆87岁大寿!怒吼要奋斗到90岁,切不动蛋糕戴玉强扶手帮忙

李双江庆87岁大寿!怒吼要奋斗到90岁,切不动蛋糕戴玉强扶手帮忙

嫹笔牂牂
2026-03-26 07:37:49
欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

西楼知趣杂谈
2026-03-24 14:38:30
何鸿燊是个谜!2009年,88岁何鸿燊各脏器就已衰竭

何鸿燊是个谜!2009年,88岁何鸿燊各脏器就已衰竭

果妈聊娱乐
2026-03-26 10:00:16
四川任免程文茂、陈伟、唐甲军、陆志明、江彬、王建军等职务

四川任免程文茂、陈伟、唐甲军、陆志明、江彬、王建军等职务

中国经济网
2026-03-26 13:51:03
回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

素衣读史
2026-03-25 21:05:22
在日本,除了呼吸,几乎全都要交税

在日本,除了呼吸,几乎全都要交税

东京新青年
2026-03-16 11:22:07
2026-03-26 18:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
本地
旅游
时尚
军事航空

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

旅游要闻

视点|陶然亭公园海棠春花文化节,解锁春日新体验

皮衣+裙,高级到炸

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版