“ 感知技术 · 感触CG · 感受艺术 · 感悟心灵 ”
中国很有影响力影视特效CG动画领域自媒体
以前我们介绍过很多AI建模方式,比只用一张图片就能迅速创建模型等等。但今天介绍这个更有意思,只需要输入文本就可以直接出模型了。这是Google Research最近推出的一个名为DreamFusion方法,是一种从文本提示生成3D模型的新方法。
这种方法将文本到2D图像扩散的模型与神经辐射场(NeRF)相结合,生成质量适合于 AR 项目或作为雕刻的基础网格的带纹理3D模型。
至关重要的是,它不需要一组真实的3D模型来用作培训数据,为开发实用的、基于大众市场AI的文本到3D工具铺平了道路。
01
可将文字描述转为带纹理的3D模型
DreamFusion由Google Research和UC Berkeley的一个团队开发,它通过文本描述生成3D模型,例如“一个非常精细的松鼠金属雕塑,穿着金色衣服,正在吹萨克斯”。然后就直接出来模型了!这要是放在十几年前,估计有人会说瞎编骗人的,但现在真实现了?
除了3D模型的几何形状,文本还可定义它的材质和纹理,可以在在线演示中尝试将“金属雕塑”换成“木雕”或“DSLR照片”。
02
结合神经辐射场和2D扩散
为了生成模型DreamFusion结合了两种主要方法:神经辐射场和2D扩散。 它逐步改进初始的随机3D模型,以匹配从不同角度显示目标对象的2D参考图像,比如Nvidia的Instant NeRF等目前都在使用这种方法。
而DreamFusion与Instant NeRF不同,它参考的不是现实物体的照片,而是由 OpenAI的DALL-E 2和Stability.ai的Stable Diffusion使用的那种类型的2D文本到图像模型生成的合成图像。在这种情况下,2D扩散模型是Google自己的 Imagen,但总体结果是相同的:生成的3D模型与原始文本描述生成的2D参考图像相匹配。
生成原理解析
03
仍然只是一个研究演示
看到这里可能大家想问去哪里下载这个工具,想试试手了对吧?但是目前DreamFusion功能十分有限。项目的GitHub页面只可以让用户从一系列预设文本提示中进行选择,然后显示生成的3D模型,但不允许输入自己的文本描述。
还有就是生成的资产分辨率也相当低。DreamFusion的在线图库显示了一系列.glb格式的模型,只适合在AR项目中使用,或者作为基础网格然后导入其他DCC软件中进行精雕刻细化。
04
为新一代商业文本到3D工具铺平道路?
然而,像DreamFusion这样的研究项目的真正意义并不在于它们目前能做什么,而是它们如何为开发更实用的工具开辟道路。
虽然像DALL-E 2这样的2D扩散模型是根据从互联网上抓取的2D图像训练的,但要对3D做同样的事情要困难得多。
正如DreamFusion的摘要所言:“将这种方法应用于3D合成需要标记3D资产的大规模数据集和高效的3D数据去噪方法,这两种方法目前都不存在。”
通过消除对此类大规模3D数据集的需求,DreamFusion提出了新一波生成AI艺术工具的可能性,仅仅对于3D模型,而不是2D图像。
考虑到像DALL-E这样的2D AI艺术工具从最初的发布到大规模公开使用只花了不到两年的时间,所以推测这个DreamFusion未来的发展可能比你想象的要快得多。所以,很快你就会用上AI自动生成的模型了,到那时候,你只需根据自己的需求在此基础上进行细致雕刻,更或者只稍作调整就可以应用到项目中了,何乐而不为之?
全文完
高级生物学家精通Houdini、Maya、Nuke、PS、ZBrush,生物解剖学无人能敌!
被“骂”了一顿后,Blender决定将继续遵循VFX参考平台规范
全自学!作品被奥斯卡提名导演选中合作,国人科幻大神用实力说话!打造科幻机械盛宴
三分建模七分材质?这才是成为大神的关键
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.