网易首页 > 网易号 > 正文 申请入驻

又一国产模型黑马出世,追平Gemini 2.5 Pro,空间编辑反超视频模型?

0
分享至


智东西
作者 江宇
编辑 漠影

大厂AI战局升温,转型几乎成为共识。模型在进化,Agent在落地,但成本高、落地难、数据不够,行业还在补课。

而京东在AI上的布局已然聚焦清晰:围绕供应链优势,推进具身智能,让AI真正进入物理世界。此次推出的一体化图像模型——JoyAI-Image-Edit,高度适用于生成电商、具身智能训练图片。

近日,京东开源图像模型JoyAI-Image-Edit,将空间智能纳入图像理解与编辑,让AI开始处理真实世界中的空间关系,让模型真正“理解空间,编辑空间”。

简单解释,这是一个以空间智能为核心的图像生成与编辑模型,让AI真正“看懂”三维空间,从而让生成更合理、编辑更精准。


从公开评测来看,JoyAI-Image-Edit各项指标显著领先,迈进了国际第一梯队空间理解刷新同量级开源模型SOTA,达到世界一流水平,大部分指标媲美或超越闭源模型 Gemini 2.5 Pro。长文本生成中英文双语领先,图像编辑能力全面覆盖,空间编辑精度甚至超过部分视频世界模型


智东西也实测了一番,在物体位置调整这类场景中,模型能够稳定保持结构一致性。

值得注意的是,此番调整的物体在画幅中仅占据很小比例,且原物体并非形状规则,为毛绒材质,并带有手部细节。即便如此,模型在移动或旋转时仍能有效减少透视错乱与遮挡问题,画面整体保持自然。


▲输入图与指令(左)、输出图(右)

进一步看,这类能力的主要落点,在电商内容生产与具身智能训练这两类场景尤为适配,进而也能延展到建筑设计、游戏开发和影视制作等场景。电商和具身,恰好与京东现有的AI布局形成了直接呼应。

一、把“空间智能”写进模型:从“会改图”到“会动空间”,图像编辑能力开始分层

传统图像编辑模型的短板集中在空间层。语义能跟上,但空间关系容易崩,例如替换物体、修改姿态时,常出现比例失真、遮挡错误、光影不一致等问题,本质是缺乏几何层面的理解能力。

JoyAI-Image-Edit则把“空间编辑”单独拉出来做能力核心。模型在支持15类通用编辑任务之外,进一步支持物体移动、旋转、视角变换等空间级操作,并可理解“移动0.3米”“旋转45度”等具备明确几何参数的指令,让编辑过程具备“可控性”。


在能力结构上,模型还采用MLLM+VAE+扩散模型(MMDiT)的统一架构。


具体来说,MLLM负责空间理解与语义建模,扩散模型执行生成与编辑,空间信息直接参与生成过程,形成“理解—生成—再理解”的循环。

空间能力是怎么提升起来的?答案在于数据体系的重构——包括300万规模的OpenSpatial-3M数据集、多视角生成数据,以及可记录精确位姿参数的空间编辑数据。这些数据引导模型在训练阶段学习真实几何关系。


得益于这种设计,在2D语义感知、3D空间理解、4D时空推理三个层级共13项Benchmark上,JoyAI-Image-Edit在9项空间理解Benchmark上均取得显著提升,平均分达到64.4追平闭源的Gemini-2.5-Pro


在SpatialEdit-Bench上,JoyAI-Image-Edit的空间编辑能力表现尤为突出:Object Overall Score为0.649、Camera Overall Score为0.571,大幅领先所有图像编辑模型,空间编辑精度超越Veo3.1、ViduQ2-Turbo和Kling等视频世界模型

与此同时,在业界权威的榜单GEdit(偏向中文指令评测和真实用户需求)和ImgEdit(偏向全面覆盖的能力评测,强调推理和精细化编辑能力)上,JoyAI-Image-Edit得分分别为8.27和4.57,刷新开源图像编辑模型SOTA


▲在249道评测集黑盒人工评测成绩:JoyAI-Image-Edit表现优于Qwen-Image-Edit-2511以及Flux2.Dev


由此可见,将空间理解、生成和编辑整合在同一体系,可以使模型不仅知道“画什么”,还知道“物体在什么位置、如何变化、是否合理”。

当图像可以被真正“操作”,而不只是简单修改时,图像模型的能力边界也随之被重新定义。

二、电商+具身场景高可用,空间能力开始直接“变现”

空间能力成立以后,最先吃到红利的,就是最依赖“真实世界”的场景

电商领域,商品多视角生成、虚拟试衣、商品摆位调整等任务对空间一致性要求极高。

JoyAI-Image-Edit的空间编辑能力——可以移动物体、旋转角度、调整视角,并理解具体几何参数——在电商场景下带来了非常直观的应用价值。

比如服饰和鞋类商品,经常需要展示不同角度、姿态或搭配组合。使用该模型,可以在原始图片基础上一键调整衣服折叠角度、鞋子摆放方向或包包手持位置,生成多角度素材,同时保持整体比例、光影和背景一致。


▲输入图(左)、输出图(右)、指令:Rotate the sneaker to show the front view

类似地,对于家电、家具或小型电子产品,空间编辑可让商品在不同场景下“自动换位”或旋转展示,如沙发在不同房间角度、咖啡机在不同台面布局,无需重拍,就能生成多角度素材。


结合模型的通用编辑能力,还可以同时进行文字标注、色彩微调和背景修饰等“一键精修”式功能,实现一次操作完成多种需求。


这样,电商团队能够快速产出多角度、精修、高可用的商品图,大幅降低拍摄成本,同时保证展示效果的统一。

具身智能训练中,这些能力同样适用。

机器人依赖大量真实世界数据,但采集成本高、周期长。该模型可以生成具备空间一致性的高质量图像数据,用于补充训练数据,与真实采集数据形成互补,从而提高训练效率和模型效果,辅助解决具身行业的数据难题。

此外,通过生成新视角辅助空间推理(Thinking with Novel Views),模型不仅用于内容生产,也能反向提升空间理解能力,为机器人“看懂世界”提供支持


由此可见,无论是电商还是具身智能,本质都依赖空间理解能力,而JoyAI-Image-Edit正是最直接落地的工具。

三、开源模型亮相,AI全景布局浮现端倪

这次开源JoyAI-Image-Edit显然是京东聚焦于走向实体世界这一宏大AI布局的一部分,但通过观察可以发现,开源并不是它唯一的动作。

除了这一模型,京东不久前还开源了JoyAI-LLM Flash模型,能力上在同等参数规模下显著提升了性能与效率,降低开发者使用门槛,避免单纯的参数规模竞争。

与此同时,京东在供应链和线下场景中的动作也在悄然推进:一方面,建设全球最大的具身智能数据采集中心,结合模型生成能力进行训练,为数据难题提供了新的解法;另一方面,通过JoyInside将AI能力嵌入家电、机器人、AI玩具终端,让模型直接落地真实环境,和用户产生大量深度交互。

从开源模型的应用和这些场景动作结合来看,可以明显感受到京东在模型、数据和终端之间尝试形成闭环。

开源或许只是早期的一步,而京东在产业场景中不断深挖AI实践与价值,则让我们得以观察到其AI能力的潜在落地路径。

结语:京东一手开源,一手落地

从JoyAI-Image-Edit这次开源动作可以看到,京东在AI上的选择很明确:一手开源,一手落地。

在模型侧,持续开放能力,把门槛降下来,让更多开发者可以直接用起来;在场景侧,把AI嵌入供应链、物理世界、真实产业场景,从数据、模型到终端形成闭环,让能力在真实环境中跑通。

可见,京东的AI战略更为务实。

供应链是京东最硬的一张牌。在AI时代,这张牌的价值进一步放大——模型可以嵌入商品、物流与设备,数据可以持续回流,能力可以不断迭代。

在今天,AI有望成为京东的另一张“增长引擎牌”。

注:文中部分输入图来源于Arena

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊媒:伊朗已拒绝美国提出的方案

伊媒:伊朗已拒绝美国提出的方案

新华社
2026-05-11 07:07:03
实锤了!俄媒公布俄军真实伤亡数字,比利时向乌克兰提供53架F16

实锤了!俄媒公布俄军真实伤亡数字,比利时向乌克兰提供53架F16

史政先锋
2026-05-10 21:05:57
三亚皮皮虾再升级!老板身亡仍被追责,游客曝猛料,不止是为了钱

三亚皮皮虾再升级!老板身亡仍被追责,游客曝猛料,不止是为了钱

北纬的咖啡豆
2026-05-10 11:43:20
“重达11000克拉”!外媒:缅甸发现迄今为止第二重的“罕见巨型”红宝石

“重达11000克拉”!外媒:缅甸发现迄今为止第二重的“罕见巨型”红宝石

环球网资讯
2026-05-10 11:20:10
“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

果壳
2026-05-09 12:33:57
安徽巨星夜崩盘,穷到欠薪却敢办大型演唱会,粉丝沦为韭菜太扎心

安徽巨星夜崩盘,穷到欠薪却敢办大型演唱会,粉丝沦为韭菜太扎心

法老不说教
2026-05-09 15:11:16
结不起还是结不动?一季度全国结婚登记再创纪录新低

结不起还是结不动?一季度全国结婚登记再创纪录新低

听心堂
2026-05-10 17:04:06
山西煤老板三小时连杀14人,被捕狂笑:要杀就杀光,我下去陪他们

山西煤老板三小时连杀14人,被捕狂笑:要杀就杀光,我下去陪他们

易玄
2026-05-10 12:45:04
孙颖莎独得2分!中国女团逆转日本,世乒赛团体赛七连冠

孙颖莎独得2分!中国女团逆转日本,世乒赛团体赛七连冠

澎湃新闻
2026-05-10 21:38:28
提前锁定下赛季欧战资格,科莫官方:队史首次挺进欧战

提前锁定下赛季欧战资格,科莫官方:队史首次挺进欧战

懂球帝
2026-05-10 23:05:47
中国大学“校史虚构大赛”:谁在争抢“第一”?

中国大学“校史虚构大赛”:谁在争抢“第一”?

深度报
2026-05-09 23:35:25
国家反诈平台竟成“内鬼”捞钱工具,最坚固的盾,成了最利的刀?

国家反诈平台竟成“内鬼”捞钱工具,最坚固的盾,成了最利的刀?

迷世书童H9527
2026-05-10 10:10:43
NBA状元联手浓眉!快船2换5赢麻了!年度最佳交易

NBA状元联手浓眉!快船2换5赢麻了!年度最佳交易

篮球教学论坛
2026-05-11 07:51:31
早田希娜赛后痛哭!水谷隼盛赞孙颖莎,桥本帆乃香表态下次要复仇

早田希娜赛后痛哭!水谷隼盛赞孙颖莎,桥本帆乃香表态下次要复仇

排球黄金眼
2026-05-10 23:34:01
花500块去迪士尼当NPC?万元通道合法插队,普通游客排队到崩溃

花500块去迪士尼当NPC?万元通道合法插队,普通游客排队到崩溃

李将平老师
2026-05-10 14:56:19
特斯拉降价,扯下电动汽车成本的遮羞布——电动车的成本有多低?

特斯拉降价,扯下电动汽车成本的遮羞布——电动车的成本有多低?

社会日日鲜
2026-05-10 09:26:48
马蓉澳洲落魄生活:5000万败光,超市打工不敢见人

马蓉澳洲落魄生活:5000万败光,超市打工不敢见人

流云随风去远方
2026-05-11 01:15:18
安第斯病毒何去何从?张文宏团队解析涉疫邮轮传播链精细拼图

安第斯病毒何去何从?张文宏团队解析涉疫邮轮传播链精细拼图

澎湃新闻
2026-05-10 22:34:13
7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

7万亿砸向“六张网”!旧基建落幕,新一轮造富机会在哪里?

柏年说政经
2026-05-10 18:00:03
普京表态引发关注,双方启动交换战俘,俄乌冲突“正走向结束”?

普京表态引发关注,双方启动交换战俘,俄乌冲突“正走向结束”?

环球网资讯
2026-05-11 07:00:15
2026-05-11 08:03:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11795文章数 117070关注度
往期回顾 全部

数码要闻

Silicon Motion CEO预警:内存与SSD供不应求的状况或延续至2028年

头条要闻

特朗普:伊朗的回应“完全不可接受”

头条要闻

特朗普:伊朗的回应“完全不可接受”

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

科技要闻

OPPO们永远学不会的年轻化

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

教育
健康
房产
时尚
亲子

教育要闻

女孩分享初中生毁掉前途的五个坏习惯

干细胞能让人“返老还童”吗

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

真爱大牌|| 用了4年都不舍得换,终于把小贵的价格也磨下来了

亲子要闻

这对劲吗咋还说话了

无障碍浏览 进入关怀版