网易首页 > 网易号 > 正文 申请入驻

RL加持3D生成时代!首个「R1 式」文本到3D推理大模型AR3D-R1登场

0
分享至



强化学习(RL)在大语言模型和 2D 图像生成中大获成功后,首次被系统性拓展到文本到 3D 生成领域!面对 3D 物体更高的空间复杂性、全局几何一致性和局部纹理精细化的双重挑战,研究者们首次系统研究了 RL 在 3D 自回归生成中的应用!

来自上海人工智能实验室、西北工业大学、香港中文大学、北京大学、香港科技大学等机构的研究者提出了AR3D-R1,这是首个强化学习增强的文本到 3D 自回归模型。该工作系统研究了奖励设计、RL 算法和评估基准,并提出Hi-GRPO——一种层次化强化学习范式,通过分离全局结构推理与局部纹理精修来优化 3D 生成。同时引入全新基准MME-3DR,用于评估 3D 生成模型的隐式推理能力。

实验表明 AR3D-R1 在 Kernel Distance 和 CLIP Score 上均取得显著提升,达到 0.156 和 29.3 的优异成绩。



  • 论文标题:Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation
  • 代码链接:
  • https://github.com/Ivan-Tang-3D/3DGen-R1
  • 论文链接:https://arxiv.org/pdf/2512.10949



强化学习应用于 3D 生成的挑战



强化学习在大语言模型(如 DeepSeek-R1)和 2D 图像生成中已被证明能够有效提升模型性能,但将 RL 应用于 3D 生成仍面临独特挑战:

  • 空间复杂性更高:3D 物体需要同时保持全局几何一致性和局部纹理精细度,比 2D 图像的空间复杂性高出一个维度。
  • 奖励设计困难:如何设计既能评估全局结构又能捕捉局部细节的奖励函数是关键难题。
  • 现有基准局限:当前的文本到 3D 基准主要关注物体多样性,无法有效评估模型的隐式推理能力。
  • 算法敏感性:3D 生成对奖励设计和 RL 算法的选择高度敏感,需要系统性的研究来指导实践。

在此前的工作中,3D 模型大多停留在「预训练 + 微调」框架,真正将 RL 引入 3D 生成的一步,还无人系统迈出。

从「推理」到「造物」:

AR3D-R1 的整体框架

AR3D-R1 构建在离散 3D 生成模型 ShapeLLM-Omni 之上,引入了一个推理驱动的 3D 生成流程:

  • 先想一想:模型会先根据文本提示生成一段高层语义推理(类似 CoT),规划出物体的大致结构、关系与风格。

  • 再动手造:随后,推理结果会作为「中间规划」,直接指导离散 token 的 3D 生成过程。

这让 AR3D-R1 不再是「凭本能画 3D」,而是先构思、再搭骨架、最后上细节——真正把 RL 驱动的「会想」能力,迁移到了「会造」的 3D 世界里。

奖励设计与 RL 算法的系统性研究


在奖励设计方面,研究者评估了多个奖励维度和模型选择,得出以下关键发现:



  • 人类偏好对齐至关重要:与人类审美偏好对齐的奖励信号能够显著提升生成质量。

  • 通用多模态模型具有鲁棒性:令人惊讶的是,通用多模态模型在评估 3D 相关属性时表现出强大的鲁棒性,有时甚至优于专门的 3D 评估模型。



在 RL 算法研究方面,研究者深入分析了 GRPO 的多个变体,包括标准 GRPO、引入 token 级平均与动态采样的 DAPO,和更偏序列级操作的 GSPO 等:

  • Token 级优化更有效:相比响应级优化,token 级别的损失平均能更好地捕捉生成过程中的全局结构差异。

  • 动态采样策略足以稳定训练:对于文本到 3D 生成任务,无需复杂的训练稳定技术。

  • 数据规模和迭代次数的扩展均能有效提升性能:但一味堆叠 RL 迭代反而可能引入过拟合或模式崩塌,需要精细校准。

这些发现为 3D 生成中的 RL 应用提供了系统性指导。

Hi-GRPO:

层次化强化学习范式





受 3D 生成自然层次结构的启发——模型首先构建全局几何,然后精修局部纹理(这与人类 3D 感知过程一致),研究者提出了 Hi-GRPO(Hierarchical GRPO)层次化强化学习范式。

Hi-GRPO 的核心思想是在单次迭代中联合优化层次化 3D 生成:

  • 全局规划阶段:模型首先针对文本提示进行全局结构规划,生成高层语义推理来指导粗糙形状生成。

  • 局部精修阶段:模型接收初始推理结果和原始文本提示,生成纹理精细化的 3D 物体。

  • 专用奖励集成:为粗糙阶段和精修阶段分别设计专门的奖励模型集成,计算组相对奖励来优化两个阶段。

通过这种层次化设计,Hi-GRPO 能够在保证全局几何一致性的同时,精细优化局部纹理细节,实现从粗到精的渐进式 3D 生成。

MME-3DR:

评估 3D 生成推理能力的新基准





现有的文本到 3D 基准,更多考察的是物体多样性,而不是推理能力。模型在简单 prompt 上表现不错,但一遇到复杂要求就频频「翻车」。为此,论文提出了全新的推理型 3D 基准 MME-3DR,覆盖五大高难类别:

  • 空间与结构几何(复杂构型、相对位置关系)
  • 机械可供性(能不能「看起来就能动起来」)
  • 生物与有机形状
  • 依赖世界知识的罕见物体
  • 风格化表达(风格、材质、抽象度的综合控制)

在这一更苛刻的场景下:传统 text-to-3D 模型普遍出现崩塌,要么结构错乱,要么风格跑偏。而 RL 训练之后的 AR3D-R1 在五大类别上都有明显提升,同时在多个 benchmark 上超越 Trellis 等模型,展现出更强的隐式 3D 推理能力。

定性定量分析







定量实验结果表明,AR3D-R1 在多个指标上取得了显著提升:

  • Kernel Distance 达到 0.156,表明生成的 3D 物体分布与真实数据分布高度接近。

  • CLIP Score 达到 29.3,表明生成结果与文本提示的语义对齐质量显著提升。

  • 在 Toys4K 等现有数据集和新引入的 MME-3DR 基准上均展现出优越性能,在几何一致性和纹理质量方面均有明显改进。



定性实验中,研究者展示了 AR3D-R1 在推理过程中清晰的从粗到精进展。模型首先构建合理的全局几何结构,然后逐步添加细节纹理,生成高质量的 3D 物体。可视化结果验证了 Hi-GRPO 层次化范式和专用奖励集成策略在提升 3D 生成质量方面的有效性。

AR3D-R1 的成功标志着强化学习在文本到 3D 生成领域的首次系统性突破,为构建更智能、更具推理能力的 3D 生成模型开辟了新方向。未来,这样的能力可以自然延伸到:

  • 具身智能与机器人:从自然语言到 3D 场景再到交互决策。
  • 游戏与内容创作:快速生成结构合理、细节丰富的 3D 资源。
  • AR/VR 与数字孪生:在复杂约束和多模态反馈下进行 3D 推理与生成。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
江苏一爸爸凌晨5点给孩子做豆浆,担心破壁机声音大吵到邻居,花几十块自购材料制作隔音罩

江苏一爸爸凌晨5点给孩子做豆浆,担心破壁机声音大吵到邻居,花几十块自购材料制作隔音罩

台州交通广播
2026-01-07 06:53:59
12.8万亿天量提前还贷!老百姓扛不住, 楼市救市, 这次真要来了?

12.8万亿天量提前还贷!老百姓扛不住, 楼市救市, 这次真要来了?

蜉蝣说
2026-01-05 15:00:34
善恶有报,2025年塌房的六大网红,为了流量各种作妖,不值得同情

善恶有报,2025年塌房的六大网红,为了流量各种作妖,不值得同情

单手搓核弹
2026-01-06 14:04:34
万亿央企蛀虫终于揪出来了!离职七年难逃法网,25年腐化史现真容

万亿央企蛀虫终于揪出来了!离职七年难逃法网,25年腐化史现真容

墨兰史书
2026-01-06 11:30:03
德媒:德国受够了,一个中国还不够吗?为什么全世界都欺负我们?

德媒:德国受够了,一个中国还不够吗?为什么全世界都欺负我们?

Kerry哲学
2026-01-07 13:49:56
流落柬埔寨女网红毒品检测呈阳性,视频主页称“靠自己没用的”,家人赴柬,大使馆提醒

流落柬埔寨女网红毒品检测呈阳性,视频主页称“靠自己没用的”,家人赴柬,大使馆提醒

潇湘晨报
2026-01-06 17:20:18
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
美橄榄球明星的隐私部位尺寸,被模特前妻公开讨论,怒而对簿公堂

美橄榄球明星的隐私部位尺寸,被模特前妻公开讨论,怒而对簿公堂

译言
2026-01-07 10:33:38
紧急道歉反转!雷军又被捅了一刀!

紧急道歉反转!雷军又被捅了一刀!

广告创意
2026-01-06 17:41:33
四川一党组书记任上被查!

四川一党组书记任上被查!

雅安生活网
2026-01-07 14:26:43
首次庭审细节曝光!马杜罗夫妇身穿囚服拒绝认罪

首次庭审细节曝光!马杜罗夫妇身穿囚服拒绝认罪

看看新闻Knews
2026-01-06 09:01:03
三四十元一碗的面,浇头汤底都是袋装?和府捞面回应:材料都是当天制作

三四十元一碗的面,浇头汤底都是袋装?和府捞面回应:材料都是当天制作

中国能源网
2026-01-07 08:45:05
工资从19万涨到66万多!一财会人员称,几乎考完了财务相关的证书

工资从19万涨到66万多!一财会人员称,几乎考完了财务相关的证书

火山詩话
2026-01-05 12:43:55
詹姆斯30+8+8创两大历史第1神迹!东契奇30+10,墨菲42分创纪录

詹姆斯30+8+8创两大历史第1神迹!东契奇30+10,墨菲42分创纪录

一将篮球
2026-01-07 12:16:03
A股:无需等待周四开盘了,市场已清晰,明天行情已可预见!

A股:无需等待周四开盘了,市场已清晰,明天行情已可预见!

财经大拿
2026-01-07 11:52:26
外交部亚洲司司长刘劲松意外“闯入”李在明自拍

外交部亚洲司司长刘劲松意外“闯入”李在明自拍

看看新闻Knews
2026-01-06 20:13:03
新华社消息|外交部:没有哪个国家可以充当国际警察,没有哪个国家可以自诩为国际法官

新华社消息|外交部:没有哪个国家可以充当国际警察,没有哪个国家可以自诩为国际法官

新华社
2026-01-06 17:32:44
疯狂的存储!1盒内存条堪比北京上海1套房,闪迪股价暴涨10倍,“国产双雄”长鑫科技、长江存储狂飙,估值已达数千亿

疯狂的存储!1盒内存条堪比北京上海1套房,闪迪股价暴涨10倍,“国产双雄”长鑫科技、长江存储狂飙,估值已达数千亿

金融界
2026-01-07 10:37:18
马杜罗被捕现场细节流出:古巴硬汉贴身安保,战至最后尽忠职守

马杜罗被捕现场细节流出:古巴硬汉贴身安保,战至最后尽忠职守

装甲铲史官
2026-01-04 15:14:32
山姆惊现寄生虫!900万会员天塌了

山姆惊现寄生虫!900万会员天塌了

广告案例精选
2026-01-07 11:30:45
2026-01-07 16:24:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12072文章数 142530关注度
往期回顾 全部

科技要闻

豪掷世界第一"球" 杨元庆亮出联想AI护城河

头条要闻

北京独生女被男友殴打致残:他让我再买房写他儿子名字

头条要闻

北京独生女被男友殴打致残:他让我再买房写他儿子名字

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

蔚来2025百万台收官 一场迟到的自我修复

态度原创

健康
时尚
本地
家居
公开课

这些新疗法,让化疗不再那么痛苦

冬天穿衣既要有温度又要有风度!看看这些穿搭,优雅又显瘦

本地新闻

云游内蒙|初见呼和浩特,古今交融的北疆都会

家居要闻

宁静不单调 恰到好处的美

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版