网易首页 > 网易号 > 正文 申请入驻

COLING 2025 | 多智能体让多模态输入的3D AIGC成为可能

0
分享至

团队提出了Idea23D,从用户的混合交错多模态输入(文本指令、图像、3D 模型)中生成 3D 内容。Idea23D结合大型多模态模型和现有生成式方法构建智能体,在完全自动化的循环中相互协作,无需人工干预,自动化地生成 3D 内容。

与直接从输入生成3D的方法不同, Idea23D使用查找差异任务作为反馈进行比较分析,使得输出的 3D模型能够更加接近人类偏好 ,实现了将用户提供的高层次、抽象的多模态交错输入转换为具体3D模型。Idea23D能够完全自动化地进行3D AIGC任务,展示了基于 LMM 的智能体在改进、评估和验证 3D 模型生成方面的有效性。

同时该团队首次提出了基于多模态输入的3D AIGC 任务评估数据集Eval3DAIGC-198,并通过用户偏好研究和定量实验证明了Idea23D的有效性,为今后的 3D AIGC任务提供了一个可供参考的评估标准。

论文题目: Idea23D: Collaborative LMM Agents Enable 3D Model Generation from Interleaved Multimodal Inputs 论文链接: https://arxiv.org/abs/2404.04363 项目主页: https://idea23d.github.io/

团队提出了Idea23D,这是一种创新的3D生成框架,能够处理交织的多模态输入(IDEAs),包括文本、图像和3D模型。Idea23D通过协作式大型多模态模型(LMM)、文本到图像(T-2-I)和图像到3D(I-2-3D)模型,实现了从复杂多样的用户输入自动生成高保真3D模型的目标。

一、动机

随着2D扩散模型的成功,2D人工智能生成内容(AIGC)已经深刻改变了人们的生活。近期,这一成功被延伸至3D领域,最先进的方法能够从单张图像或文本生成带纹理的3D模型。然而,现有的3D AIGC方法尚未充分释放人类的创造力。人们常常希望从多模态输入中生成3D内容,例如“如果我的宠物兔子正在桌子上吃甜甜圈,它会是什么样子?”。为此,团队提出了一种全新的3D AIGC方法:从人类想法(Idea)生成3D内容。Idea定义为由文本、图像和3D模型交错而成的一个多模态输入。最近 3D AIGC 端到端基础模型在识别用户想法上取得了明显的进步,但仍然面临着巨大的挑战:

1、无法处理交错的多模态输入指令,也无法处理高层次、抽象的指令输入

2、3D模型的生成过程缺乏人类反馈优化,导致生成的 3D模型和用户想法之间存在偏差

图 1. 和baseline 的对比。每个案例中红色虚线框内为输入,左侧结果是GPT-4V,DALLE和 zero123 的简单 pipeline,右侧结果是经过 Idea23D 框架之后的输出。

二、方法

Idea23D框架结合了三个基于大型多模态模型(LMM)的代理和现有算法工具。这三个代理分别负责提示生成、模型选择和反馈反思,通过协作和互相批评,实现全自动的3D设计与生成迭代优化,简要流程如下:

图:该框架利用大型多模态模型(LMM)代理,通过迭代自我优化,充分发挥T-2-3D模型的潜力,为用户输入的IDEA提供更优质的T-2-3D提示。绿色圆角矩形表示由LMM代理完成的步骤。紫色圆角矩形表示T-2-3D模块,包括T-2-I模型和I-2-3D模型。黄色圆角矩形表示现成的3D模型多视角生成算法。蓝色表示记忆模块,用于保存之前各轮的所有反馈、最佳3D模型和最佳文本提示。请注意,该循环由LMM代理全自动执行,无需任何人工干预。

(1)初始提示生成:Idea23D框架将复杂的多模式用户输入转换为用于生成3D模型的文本提示。具体来说,采用LMM来理解这些输入并将其表达为文本格式。每个3D模型通过渲染生成六个图像,从不同角度描绘模型:前、后、左、右、上、下。将这些图像与文本组件结合,生成下一轮的输入。

(2)3D模型生成与草稿选择:文本到图像模型生成2D图像,经过细化处理后输入到图像到3D模型中,产生3D模型。然后,Idea23D中用于模型选择的Agent根据与用户 意图的一致性从生成的3D模型集合中选择最佳草稿 3D 模型。这一关键步骤可以过滤掉低于标准的模型,确保高质量的迭代生成。

(3)反馈生成与迭代优化:在识别出最佳草稿模型之后,Agent决定是否最终确定该模型作为结果或继续细化。在后一种情况下,目标是生成文本反馈来指导最佳模型的增强。该决定取决于迭代计数是否超过最大阈值或者代理是否认为不需要进一步修改。在迭代中,每个文本提示都用作生成3D模型的输入,迭代细化,直到输出与用户的意图一致。每次迭代的最后阶段,Agent再次进行修订提示生成,利用文本反馈和记忆模块创建精致的模型生成提示,有效解决反馈中的问题。

三、实验

3.1 自我迭代优化过程的可视化

莫奈《睡莲》的装饰性雕塑:第一列 提示语简单,仅说明雕塑是基于莫奈《睡莲》的灵感。生成的3D模型质量较低,颜色和形态模糊,未能表现出《睡莲》的艺术氛围。 第二列 提示语更加详细,描述了雕塑的材料(陶瓷)、颜色(柔和的绿色、蓝色、粉色)以及艺术风格(印象派)。生成的3D模型显著改进,色彩更协调,造型更贴近提示语。 第三列 提示语进一步改进,增加了关于雕塑层次感、抽象风格以及柔和对比色的描述。生成的3D模型更加精致,体现出多层次的细节,颜色与形态高度一致,表现了印象派艺术的核心特质。 披萨店的展示雕塑:第一列 提示语简单,仅提到雕塑适合在披萨店展示。生成的3D模型非常粗糙,形态抽象,难以看出与披萨店的关联。 第二列 提示语详细描述了雕塑的现代风格、材质(耐用材料)和颜色(红色与白色结合)。生成的模型具有了更明确的形态,能够反映出提示语中提到的设计理念。 第三列 提示语进一步完善,增加了几何形状、光滑线条和高雅基座的描述。生成的3D模型体现了更清晰的几何美感,结构简洁且与披萨店的主题紧密关联。 兔子抓着甜甜圈的样子:第一列提示语简单,仅描述兔子用爪子抓着甜甜圈吃。生成的3D模型质量低,兔子的形态和甜甜圈的细节都不清晰,显得笨拙。第二列提示语更详细,描述了兔子的毛皮纹理、甜甜圈的糖霜和颜色细节。生成的模型更接近现实,兔子和甜甜圈的细节都有显著改进。第三列提示语进一步完善,强调场景自然性和整体和谐,要求甜甜圈的质感、兔子的姿态和背景细节和谐统一。生成的3D模型表现力极佳,兔子和甜甜圈的互动生动,整体视觉效果自然流畅。

一个具体的案例:“An elephant sitting on a wooden four-legged chair”(一只大象坐在一个四条腿的木椅子上)

Draft Prompt and 3D Model:

增加了更多细节,例如椅子的大小、材料和环境背景: "A realistic scene of an actual elephant sitting on a wooden chair with four legs. The chair is large and robust, made of sturdy wood to support the elephant’s size. The elephant is depicted in a natural, life-like manner, showcasing its grandeur and size. The setting is outdoors, possibly in a safari or nature reserve, with the chair placed on the ground amidst a natural environment. The scene captures the unusual and amusing juxtaposition of a majestic elephant comfortably seated on a human-made chair." 但是,根据提示语生成了一组初始3D模型(Draft 3D Model * N)。这些模型质量参差不齐,其中一些模型未能很好地表现提示语中的内容,例如:椅子的形状、材质和比例不准确。大象的纹理或姿势不自然。

Draft 3D Model Selection:从生成的模型中挑选出最符合提示语的一个模型作为进一步改进的基础。

问题描述 :如果模型在纹理、透视或细节方面存在问题,例如不自然或失真,需要进一步修改。确保大象的皮肤纹理和颜色准确表现;调整模型的比例,使椅子和大象的比例一致;增加细节,特别是椅子和大象的交互部分,以提升整体真实感。

文本反馈(Text Feedback):

针对初始模型和提示语的改进建议,提供具体的修改方向: 纹理与颜色、透视一致性、细节增强 。

修订后的提示语和模型(Revised Prompt and 3D Model):

修订后的提示语: 在收到反馈后,进一步完善提示语,强调了更多细节和设计风格,例如椅子的外观、大象的姿态和整体场景的趣味性: “An imaginative scene featuring an elephant sitting on a wooden four-legged chair. The elephant is depicted with a whimsical, cartoonish style, adding an element of playfulness to the scene. The chair is sturdy, made of dark brown wood, and is proportionally large enough to support the elephant. The background is simple and unobtrusive, focusing attention on the unusual and amusing sight of the elephant comfortably seated on the chair.”

3.2 基于 Eval3DAIGC-198 数据集的定量结果

团队提出的Eval3DAIGC-198 数据集包含198个IDEA,涵盖纯文本、文本与图像、文本与3D模型以及文本、图像与3D模型的多种组合,精心设计以模拟真实场景,并展示了多样化的标签分布。这些案例涵盖了多种复杂程度:9个仅包含文本,57个包含文本和图像输入,68个包含文本和3D模型输入,64个包含文本、图像和3D模型输入。每个测试案例都经过精心设计,以代表真实世界的情景。该数据集还包括标签的分布:9个不含标签,62个有1个标签,127个包含2个标签。每个案例的真实文本标签 GT 均由人工标注。

图:Eval3DAIGC-198 数据集中案例的分布。

团队在Eval3DAIGC-198 数据集的基础上对 Idea23D 进行了定量测试。T-2-3D所在列表示使用 LMM 作为图像、3D 模型注释生成,然后拼接到文本指令之后进行3D 生成的结果。Idea23D 所在列的结果更加接近于使用真实提示词(GT prompt)的结果。GPT-4o 、Flux和InstantMesh的组合效果最好,生成的3D模型质量最高,CLIP 和 ULIP-2 的分数作为评价文本到3D生成模型性能的重要参考。Idea23D显著提高了对用户意图的理解能力,超越了以往text23D模型的简单组合。

表:Eval3DAIGC-198 数据集上的定量结果

3.3 可视化对比

可视化对比结果显示,Idea23D生成的3D模型在质量和与用户意图的一致性方面显著优于现有方法。

图:使用 GPT-4o、FLUX 和 InstantMesh 作为 Idea23D 组件的结果,案例来自Eval3DAIGC-198 数据集。

图:和baseline 的对比。每个案例中红色虚线框内为输入,左侧结果是GPT-4V,DALLE和 zero123 的简单 pipeline,右侧结果是经过 Idea23D 框架之后的输出。

四、总结

本文介绍了Idea23D,一种利用 LMM 代理协作框架,通过从高级、交错的多模式用户输入 (IDEA) 自动创建模型,拓宽了3D AIGC领域的研究范围。这一框架集成文本、图像和 3D 模型,并以反馈纠错迭代过程为基础,增强了生成的 3D 模型与人类意图的一致性。人类偏好测试突出了其在满足用户输入和生成质量方面的优越性,同时提出了首个用于 3D AIGC 任务的评估数据集Eval3DAIGC-198,为未来的工作提供了一个评估标准。未来工作将优化框架结构,便于更精准的进行多模态融合和反馈,同时也将扩展输入范围以应用于更多样的下游任务。

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳30岁女白领天天喝饮料,满口长出可怕“可乐牙”

深圳30岁女白领天天喝饮料,满口长出可怕“可乐牙”

南方都市报
2026-06-26 22:02:12
2026车市最大骗局:省油电车全亏钱,烂大街油车才是真赢家

2026车市最大骗局:省油电车全亏钱,烂大街油车才是真赢家

民间胡扯老哥
2026-05-24 13:40:40
李连杰首澄清弃养女儿传闻,称利智给继女一笔巨款:能花到100岁

李连杰首澄清弃养女儿传闻,称利智给继女一笔巨款:能花到100岁

开开森森
2026-06-26 22:07:55
穆里尼奥:梅西夺冠让我相信足球之神!我从不信命,这次信了

穆里尼奥:梅西夺冠让我相信足球之神!我从不信命,这次信了

圣西罗的太阳
2026-06-26 12:02:51
逆市走红!“老登股”净利预增超23倍,股价一度涨停

逆市走红!“老登股”净利预增超23倍,股价一度涨停

21世纪经济报道
2026-06-26 11:16:05
浙江一老板,不舍得买车,花100W买了棵树,网友:买对了

浙江一老板,不舍得买车,花100W买了棵树,网友:买对了

刘哥谈体育
2026-06-26 13:34:48
2026年世界杯场下的吸金王:堪比篮球界的乔丹,资产超100亿元

2026年世界杯场下的吸金王:堪比篮球界的乔丹,资产超100亿元

柳先说
2026-06-26 19:42:25
大难临头各自飞!见福建舰现身南海:美国也不叫了,台独也不跳了

大难临头各自飞!见福建舰现身南海:美国也不叫了,台独也不跳了

骚年先锋
2026-06-26 02:24:00
39岁刘亦菲散场被搂!看清来人身份,全网瞬间闭嘴

39岁刘亦菲散场被搂!看清来人身份,全网瞬间闭嘴

小椰的奶奶
2026-06-26 19:53:58
被中国限制入境港澳后,美国宣布退出,不派官员参加澳门会议!

被中国限制入境港澳后,美国宣布退出,不派官员参加澳门会议!

王姐懒人家常菜
2026-06-26 14:38:43
俄总统新闻秘书:美国在俄乌问题上并非“绝对中立”

俄总统新闻秘书:美国在俄乌问题上并非“绝对中立”

环球网资讯
2026-06-26 21:56:31
摊牌了!马宁世界杯主裁喊停,不是吹黑哨,中国裁判组问题曝光

摊牌了!马宁世界杯主裁喊停,不是吹黑哨,中国裁判组问题曝光

老搽学科普
2026-06-26 05:39:16
重磅!曼城签约23岁英格兰中场达协议:转会费1.5亿欧 英超历史第1

重磅!曼城签约23岁英格兰中场达协议:转会费1.5亿欧 英超历史第1

风过乡
2026-06-26 05:29:48
黄金跌麻了!6月26日国内金价全线下跌,现在能上车吗?

黄金跌麻了!6月26日国内金价全线下跌,现在能上车吗?

别人都叫我阿腈
2026-06-26 14:40:04
就是这张图,刘亦菲让内娱从水光变“哑光”,全身涂粉时代开启

就是这张图,刘亦菲让内娱从水光变“哑光”,全身涂粉时代开启

书咚咚
2026-06-25 18:46:30
北约和欧盟计划向乌克兰提供高达数千亿欧元的新支持

北约和欧盟计划向乌克兰提供高达数千亿欧元的新支持

山河路口
2026-06-26 21:54:52
重要通知!山西社保系统即将停机

重要通知!山西社保系统即将停机

黄河新闻网吕梁
2026-06-26 16:06:46
71岁卢卡申科新伴仅22岁,常年被美女模特环绕,分居妻子杳无音信

71岁卢卡申科新伴仅22岁,常年被美女模特环绕,分居妻子杳无音信

译言
2026-06-21 07:11:28
利空突袭!万亿巨头,突然跳水!啥情况?

利空突袭!万亿巨头,突然跳水!啥情况?

证券时报
2026-06-26 15:02:09
抗美援朝牺牲的15位高级将领

抗美援朝牺牲的15位高级将领

祁州校尉
2026-06-26 13:00:16
2026-06-26 23:12:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2414文章数 596关注度
往期回顾 全部

科技要闻

拿了500亿的梁文锋,只挖地基,不信销售

头条要闻

女生被男友劫持到天台坠亡 初次约会就被灌醉发生关系

头条要闻

女生被男友劫持到天台坠亡 初次约会就被灌醉发生关系

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

悬在科技头上的达摩克利斯之剑

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

艺术
时尚
旅游
教育
健康

艺术要闻

莫兰迪不多见的简约风景画!

谁能不想求一个孟子义同款事业运!

旅游要闻

山东周末游|微山湖旅游区,演艺潮玩点燃盛夏旅游热潮

教育要闻

合肥师范学院今年计划招生3700人 多少分可以填报该校,来看官方解答!(编辑:檀檀)

“无糖汤圆”是否隐藏着健康陷阱?

无障碍浏览 进入关怀版