近日,京东探索研究院正式开源多模态基础模型JoyAI-Image-Edit,支持文生图、图像理解以及指令引导的图像编辑。该模型不仅具备像素级精细化编辑能力,更能赋予平面图像真实的"立体感",是业内首个将空间智能深度融入统一多模态框架的开源模型,在引入空间能力的同时,依然具备强大的通用生成与理解性能。
在公开的Benchmark中,JoyAI-Image-Edit的空间理解和空间编辑能力已达世界一流水平,超过现有开源模型,比肩顶尖闭源模型。
目前,模型已开源,开发者可直接基于其构建空间编辑应用。
![]()
JoyAI-Image-Edit的空间理解和空间编辑能力已达世界一流水平
破局行业痛点:理解与生成之间的“空间断层”
统一多模态模型是当前学界和产业界共同攻坚的方向,不少头部公司都在尝试将图像理解与生成整合进同一个模型框架。然而,理解与生成的协同在空间维度上存在明显短板。
这种短板在实际编辑中暴露得尤为突出:移动物体导致结构变形、比例失调;调整物体间的位置关系则遮挡层次全部错乱;切换视角时透视几何严重失真;反复微调后画面一致性彻底崩塌。根源在于模型缺乏对三维空间结构的深层理解,理解模块输出的语义信息没有真正"流入"生成模块的几何控制过程,编辑操作只是在像素层面"搬运",而非在空间层面"推理"。
JoyAI-Image-Edit正是为此而生——从数据构建、任务设计到训练策略全链路注入空间感知,让理解、生成与编辑在统一框架内彼此增强。
三大核心亮点:从架构到场景的全面突破
JoyAI-Image-Edit的技术优势集中体现在三个层面。 第一,生成与理解的深度融合。模型采用MLLM–MMDiT统一架构,彻底打破了理解与生成的边界。通过视觉感知与生成能力的深度协同,其空间理解指标已可比肩行业顶级闭源模型,在公开Benchmark中领跑同规模开源模型。 第二,空间编辑的范式突破。这是JoyAI-Image-Edit最具辨识度的能力。它支持三类此前开源模型难以胜任的操作:视角变换——用户可通过自然语言指定相机的偏航角、俯仰角及缩放程度,模型在保持场景几何一致性的前提下生成新视角图像;空间漫游——支持连续的视角移动,生成在空间中逻辑连贯的多视角图像序列,类似于在三维场景中"走动";物体空间关系操控——在保持场景整体结构稳定的前提下,对特定物体进行位移、缩放等空间变换,同时确保遮挡与光影关系自然合理。 第三,多场景的高性能表现。模型同时支持15类通用编辑能力,涵盖替换、删除、添加、风格调整等常用操作,结合空间编辑能力,在长文本渲染、多视角一致性生成等高难度任务中均表现卓越。 这些空间编辑能力背后有两大关键技术支撑:一是自研的OpenSpatial数据引擎,实现了空间数据的自动化合成;二是百万级规模的Blender渲染多视角数据集,使用Blender 4.5渲染了约100万组多视角图像,为模型的空间感知能力提供了坚实的数据基础。
![]()
具身场景,合成空间一致的多角度训练样本
落地场景:从电商到具身智能的广泛想象
JoyAI-Image-Edit的开源,为多个垂直领域打开了新的应用空间。 在电商领域,产品通常需要多角度、多场景展示图,传统方式依赖摄影棚实拍或3D建模渲染,成本高、周期长。通过JoyAI-Image-Edit,商家只需一张商品主图即可自动生成不同角度的展示图,商品"放入"不同场景时几何关系依然合理。
![]()
在具身智能领域,空间理解与生成的闭环能力是构建世界模型的基础。机器人执行导航、抓取等任务时需要对三维空间进行推理,而真实场景数据采集成本极高。JoyAI-Image-Edit可从有限真实图像出发,合成大量空间一致的多视角训练样本,为视觉-语言-动作系统和世界模型提供底层能力支撑。
在3D重建领域,传统流程依赖多视角实拍或激光雷达扫描,对硬件和拍摄条件要求较高。JoyAI-Image-Edit提供了全新路径——用户仅需输入三张图片,即可生成几何一致的多视角图像序列,在电商三维展示、品牌VI生成、数字孪生、工业仿真及文化遗产保护等场景中前景广阔。 在建筑设计、游戏与影视领域,设计师可从一张概念图快速探索不同视角效果,无需启动完整三维建模流程,显著提升创意验证效率。 这不是一次渐进式的版本更新,而是AI图像编辑从"平面修图"迈向"空间重塑"的范式级跃迁。随着模型全面开源,更多开发者将在此基础上探索空间智能的更多可能。广大开发者可前往HuggingFace或Github获取模型。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.