![]()
在生成式 AI 的发展中,3D 一直是一道公认的难关。
生成文字靠语言模型,生成图像靠扩散模型,但要从一张二维图片“复原”出一个真实存在于空间的物体,却远比想象中复杂。它要求模型不仅能理解形状,还要理解尺度、光照、材质与物理属性——也就是让算法,不只是“看见”,而是“构建”一个世界。
这条技术路线走得异常漫长。过去三年,欧美大模型公司更偏向语言、图像、视频方向的竞争,而 3D 生成在全球范围内反而成了一个小众又高门槛的分支。但出乎意料的是,如今这个领域几乎被华人研究者占据:腾讯的 Hunyuan3D、太极的Meshy、VAST 的 Tripo、影眸的 Rodin,都来自中国团队或华人科学家主导的实验室。
这并非巧合。3D 生成涉及多模态理解、几何重建、仿真约束和视觉渲染等系统工程,而这些正是中国科研与工程团队的强项。与其说这是一次算法突破,不如说是一种文化取向的体现——中国团队更擅长处理结构化、具体、可验证的问题,而 3D 世界本身,就是结构的集合。
在这样的背景下,字节跳动正式进入了这一赛道。上周,由 Seed 视觉研究负责人冯佳时带领的团队发布了Seed3D 1.0—— 一款能够从单张 RGB 图像生成高保真、可用于物理仿真的三维模型的系统。
![]()
Seed3D 的技术突破与真实价值
从技术架构上看,Seed3D 基于Diffusion Transformer,结合大规模 3D 数据训练,能在输入一张 RGB 图片后,直接生成带有完整几何结构、纹理贴图和物理渲染材质的三维模型。
更值得注意的是,Seed3D 的参数规模仅约1.5B,但在外部评测中,却超越了部分 30 亿参数级别的模型,比如腾讯的Hunyuan3D 2.1。在几何闭合、多视角一致纹理、材质物理保真度等维度上,Seed3D 已可直接适配工业仿真与 XR 引擎,能被 Unity、Unreal Engine、Isaac Sim 等平台即刻读取使用。
性能表现
研究团队基于 43 组图像样本,对六种主流 3D 生成模型进行了系统性评测。评价维度包括清晰度、还原度、几何结构、透视一致性、纹理质量与细节丰富度。结果显示,Seed3D 在多个指标上表现稳定,尤其在复杂几何结构的还原和细节保持方面,生成结果更贴近输入图像的真实形态。这意味着模型在从二维信息向三维空间的映射过程中,具备较强的几何一致性和结构理解能力。
![]()
在几何生成部分,Seed3D 的表现尤其突出。评测显示,它在 ULIP-I 与 Uni3D-I 两项几何对齐指标上均取得领先,这说明模型能在较高精度下重建物体形态,并维持表面的闭合性与连贯性。换句话说,Seed3D 生成的模型不仅在视觉上成立,也能满足工程、仿真或打印的结构要求。
![]()
纹理生成方面,Seed3D 基于物理渲染(PBR)体系,能够输出包含 albedo、roughness、metalness 等通道的材质贴图,从而在不同光照角度下保持一致的反射与质感表现。研究团队还测试了多视角输入版本 Seed3D 1.0,其在纹理一致性与材质细节上的表现进一步提升。相比传统依赖人工贴图的方式,这种自动生成的结果在效率与可控性上具备明显优势。
![]()
![]()
在仿真适配能力上,Seed3D 展示出较强的工程兼容性。生成的模型可直接导入到 NVIDIA Isaac Sim 等物理仿真平台中,无需手动调整即可生成碰撞网格和摩擦参数,用于机器人抓取、物体交互等操作实验。实验结果表明,模型在接触力与物理反馈上的表现与真实数据较为接近。对于具身智能的研究,这意味着虚拟环境中可生成更丰富、可重复的训练数据,降低了对真实采样的依赖。
![]()
此外,Seed3D 的生成范围已不再局限于单个物体。借助视觉语言模型(VLM)的语义分解能力,它能识别输入图像中的多个对象及其空间关系,生成相应几何与材质后,再重组为完整场景。这种基于“分解—生成—组合”的机制,使模型能够在不同尺度下生成具有空间一致性的 3D 环境,从室内布局到城市街景,均能保持合理的结构逻辑。
实测
目前,火山引擎已上线 Seed3D 的体验版本。用户在视觉模型界面中点击“3D 生成”,即可上传图片,生成对应的三维模型。
从官网公开的示例来看,这一版本主要面向电商类应用场景。对于单一物体的生成,Seed3D 的表现相当稳健——文字、材质、纹理等细节都能被准确还原,生成的模型清晰且结构完整。
![]()
![]()
接着,我们逐步提升测试的难度。对于 3D 模型来说,PBR 材质是决定“真实感上限”的灵魂所在。官方宣称 Seed3D 1.0 能够生成符合物理规律的真实材质,并展示了瓷器、餐具等演示样例,质感出众。于是,我们选取了一只汝瓷盘作为测试对象。
结果令人惊喜:模型不仅准确还原了盘体的光泽与质地,连汝瓷特有的“开片纹”——那种细密却不规则的裂纹肌理——都被完整地重建了。
![]()
![]()
让我们继续提高任务难度。输入一张包含两个玻璃杯、深色桌面的图片。
模型依然能正确识别杯子的数量、形状与材质,但在颜色理解上出现了偏差。由于背景较暗,原本透明的玻璃被系统误判为深棕色。这类错误虽然不影响几何精度,却揭示了当前模型在透明材质和光照语义方面的局限。
![]()
![]()
在场景生成方面,我们测死了一张城市的付看图。
可以看到,模型能够从输入图像中识别出物体实例及其空间关系,生成布局图(layout map),其中包含每个物体的尺度、位置与方向。随后,它会为每个物体分别生成几何结构与纹理材质,并根据布局图将这些物体组合成完整场景。
从测试结果来看,无论是物体间的相对摆放还是整体光照的一致性,Seed3D 都表现出较好的空间理解能力,但细节上的表达仍有不足。
![]()
![]()
对于电商商家、短视频创作者、自媒体人等非专业用户而言,Seed3D 的吸引力几乎是显而易见的——它降低了 3D 创作的门槛,让“建模”这件过去需要专业软件和漫长打磨的工作,变成了一次点击的操作。
闭合几何、物理一致、可进引擎:Seed3D 把 3D 做成了标准件
技术层面,如果把“从单图到可仿真的 3D 资产”拆解成几件难事:几何是否闭合、纹理是否跨视角一致、材质是否满足 PBR 渲染、尺度是否能被物理引擎接受、以及从单物体到场景的可扩展性。
Seed3D 1.0 给出的是一条系统化的工程路径,而不是单点“秀肌肉”。
![]()
论文给出的框架是以 VAE 学到的几何潜空间为基座,再用条件化的 Diffusion Transformer 在潜空间里生成形体;在贴图与材质侧,引入多视角一致性约束与 PBR 通道的联合估计,使输出直接可进入现代渲染与仿真管线。更高一层,借助视觉语言模型抽取图像中的物体实例与空间关系,再将各对象的几何与材质按布局拼装,完成从“物体”到“场景”的过渡。
整个流程的目标很克制:不是“生成最惊艳的可视化”,而是“最少手工修补即可进引擎跑得起来”。这也解释了为何在几何对齐等量化指标(如 ULIP-I、Uni3D-I)上,Seed3D 相较既有方法有稳健优势,同时在 Isaac Sim 等环境中能自动生成碰撞体并参与抓取、交互等任务验证,形成合成数据—交互反馈—多模态评估的闭环。
把它放回行业坐标系,最直接的参照物是腾讯的 Hunyuan3D 系列。Hunyuan3D-2.0 把体系切成两大件:DiT 负责形状、Paint 负责纹理,并持续公开权重与训练流程,强调社区可复现、可微调、可量产,这让它在游戏与设计生态里更像“开放工坊”——上手快、改造空间大、评测与基线丰富。尤其 2.1 代在 PBR 纹理合成、端到端产线工具与开源程度上走得更彻底,企业可以较低迁移成本把它嫁接到现有美术管线里。
反过来看,Seed3D 的策略更像“工程一致性优先”:参数规模并不夸张,却把闭合网格、PBR 材质与仿真兼容作为硬约束,API 形态先行、权重暂不完全开源,更强调“可用即所得”的稳态体验——你可以把它理解为两种产品哲学:一个偏“可塑、可改、可学”,一个偏“可用、可接、可跑”。
在中国本土的 3D 生成赛道上,两条路径并行不悖:前者不断降低创作门槛,扩大技术普惠;后者则持续抬升工业可用的标准,夯实仿真落地的根基。3D 生成这片重要领域,如今正由华人团队执笔,勾勒出两种截然不同却又彼此呼应的新大陆蓝图。
https://seed.bytedance.com/zh/
欢迎扫码加群参与讨论
我们相信认知能够跨越阶层,
致力于为年轻人提供高质量的科技和财经内容。
稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。
我们正在招募新一期的实习生
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.