网易首页 > 网易号 > 正文 申请入驻

图像编辑领域的ImageNet?苹果用Nano Banana开源一个超大数据集

0
分享至




机器之心报道

编辑:冷猫

苹果在大模型和大模型应用上总是慢人一步。

Apple Intelligence 发布也已经一年多了,除去其仍未能在国行设备上提供服务外,功能上也很难称得上有多好用。

就拿视觉生成类功能举例子,苹果的图像生成大概是这个画风:



但在开放研究领域里,苹果似乎一整个脱胎换骨,在纯粹的研究中经常会有一些出彩的工作。

但这次苹果发布的研究成果的确出人意料:

他们用谷歌的 Nano-banana 模型做个了视觉编辑领域的 ImageNet。



对于苹果用纳米香蕉和 Gemini 的事情,引发了网友遐想:



在文本引导的图像编辑的工作中,GPT4-o 和谷歌 Nano-banana 都能够实现令人惊艳的编辑效果,保留原图像的特征,实现高质量的新图像的生成。尤其是 Nano-banana,真正能被成为图像编辑的里程碑和新标杆。

但目前在研究界仍然缺乏针对图像编辑的,来自真实图像的大规模,高质量的开放数据集。

为此,来自苹果的研究团队提出Pico-Banana-400K,一个包含 40 万张图像的基于指令的图像编辑综合数据集。



  • 论文标题:Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
  • 论文链接:https://arxiv.org/pdf/2510.19808

该数据集通过利用 Nano-Banana 在 OpenImages 实拍照片上生成多样化的编辑对构建而成。

与以往的合成数据集不同,Pico-Banana-400K 的独特之处在于对质量与多样性的系统化设计。苹果的研究团队采用精细的图像编辑分类体系,以确保编辑类型的全面覆盖;并通过基于多模态大模型的质量评分与人工精筛,实现内容一致性与指令忠实性的平衡。



数据集构成

单轮监督微调 (SFT) 子集包含25.8 万个成功的单轮图像编辑示例,作为遵循指令的图像编辑模型的核心训练数据。此子集涵盖了 35 种编辑分类法的全部范围,并为模型训练提供强大的监督信号。

除了单轮编辑外,Pico-Banana-400K 还支持复杂的多轮编辑研究。数据集包含三个专门子集:

72K 多轮编辑集—— 用于研究连续修改中的顺序编辑、推理与规划;

多轮 SFT 子集包含7.2 万个按顺序进行的编辑交互示例,序列长度从 2 到 5 轮不等。对于每张采样的图像,随机选择 1-4 种额外的编辑类型以形成连贯的编辑序列。Gemini-2.5-Pro 为每一轮生成上下文感知指令,鼓励使用指代性语言以保持语篇连续性。该子集支持对迭代细化、上下文相关编辑以及跨多个编辑步骤的复杂推理进行研究。

56K 偏好集—— 用于对齐研究与奖励模型训练;

偏好子集包含5.6 万个示例,由原始图像、指令、成功编辑和失败编辑组成的三联体。这种独特的资源专为对齐研究而设计,可用于训练奖励模型和应用直接偏好优化(DPO)等对齐技术。这解决了现有数据集的一个关键空白,因为现有数据集通常只提供成功的编辑,而缺乏对比性的低质量编辑示例。

长短指令配对集—— 用于发展指令重写与摘要能力。

通过提供这一大规模、高质量且任务丰富的资源,Pico-Banana-400K 为训练和评测新一代文本引导图像编辑模型奠定了坚实基础。

苹果不仅发布了一个数据集,还构建了一个能够自我编辑和评估的完整流程:

纳米香蕉负责进行编辑。Gemini 2.5 Pro 负责评判结果,失败会自动重试,直到通过。该流程真正实现端到端运行,全程无需人工干预。



来自 Pico-Banana-400K 数据集的单轮文本引导图像编辑示例。每一对图像展示了编辑结果(右)及其对应的原始图像(左)。该数据集涵盖多种编辑类型,包括光度调整、物体级操作、风格化变换以及场景或光照修改等。



图像编辑指令内容的分布情况

该数据集系统地映射为35 种现实世界的编辑类型,涵盖了从全局色调变化到人类风格化和物体重新定位等所有方面。这就像向人工智能传授所有存在的 Photoshop 技能一样。



图像编辑分类。

如上表所示,每种操作都归属于其对应的类别。Count 表示在单轮编辑子集中,经 Gemini-2.5-Pro 评估器判定(符合指令且具备视觉质量)并在最多三次尝试内成功的样本数量。

若某个(图像,指令)对在三次生成尝试中全部失败,则被视为失败案例,并从公开数据集中剔除。若在获得成功结果前经历了一到两次失败尝试,则这些失败的编辑结果也会被保留下来,用于构建偏好数据(preference data)。

这里是一个很巧妙的地方,苹果保留了失败的编辑结果。

每个失败的编辑都与成功的编辑配对。因此,在该数据集上,不再只是训练模型「做得更好」,而是训练它们知道「更好」是什么样的。这是一种在多模态系统中构建判断力的方法。



偏好三元组示例。 从左至右依次为:原始图像、中间面板中的自然语言指令(要求将粉白色吸管移动到最左边的玻璃杯中),以及模型生成的两种结果:一种是成功的编辑,准确完成了指令并保持了场景一致性;另一种是失败的编辑,未正确执行指令(位置或几何关系错误)。

偏好子集是该领域中一项极具价值的贡献。通过系统地收集成功与失败的编辑尝试,该数据集为人类对齐与偏好学习研究提供了可能。

失败的编辑通常表现出一些常见的失误类型,例如未能完整遵循指令、出现视觉伪影或与原图内容融合不佳。这些数据可用于训练能够理解人类编辑质量判断的奖励模型,或用于应用 DPO 等技术,从而提升模型与人类偏好的对齐程度。

数据分析



各编辑类型的成功率

研究团队评估了数据集中不同编辑类型的成功率。如图所示,呈现出一致的规律:全局外观和风格编辑较为容易,而需要精细空间控制、布局或符号一致性的编辑仍然具有挑战性。

容易:全局编辑与风格化

全局编辑的可靠性最高。强艺术风格迁移的成功率为 0.9340,胶片颗粒 / 复古效果为 0.9068,现代↔历史风格互转为 0.8875。这些操作主要调整全局纹理、色彩统计和色调,对空间推理或显式目标协调的需求较低。

中等:对象语义与场景上下文

语义上有针对性但较粗粒度的编辑总体表现稳健。移除物体的成功率为 0.8328,替换类别为 0.8348。场景级修改(如季节变换 0.8015、照片→卡通 / 素描 0.8006)表现相似。典型失败案例源于仅文本条件下定位不准确(例如误改相邻区域)或轻微的颜色 / 纹理漂移。

困难:精确几何、布局与文字编辑

需要精细空间控制或符号正确性的编辑可靠性最低。移动物体最为困难,成功率仅 0.5923;改变尺寸 / 形状 / 方向为 0.6627,常出现透视不一致或拓扑断裂。外延绘制(outpainting) 的成功率为 0.6634,常在边界连续性上出现问题。

文字编辑尤为脆弱:更改字体 / 样式的成功率最低,仅 0.5759;而翻译、替换或添加文本也不稳定,反映出在真实感图像中保持字形完整性、对齐和对比度的困难。

在人类风格化编辑中,皮克斯 / 迪士尼式 3D 风格(0.6463)和漫画夸张风格(0.5884)往往出现身份漂移或阴影伪影,尤其在形变较大时更明显。

排版仍然是多模态人工智能迄今为止最难的问题。

总结

该论文的主要贡献有:

1.大规模可共享数据集:发布了 Pico-Banana-400K,包含约 40 万个基于真实图像构建的高质量图像编辑示例。数据集依据 35 类编辑类型分类体系 进行系统组织,并通过自动化评分与人工核验实施严格的质量控制。

2.多目标训练支持:除 25.8 万个单轮监督微调样本外,还提供 5.6 万对偏好样本(成功编辑 vs. 失败编辑),用于 DPO 和 奖励建模等对齐方法的研究,从而支持模型在鲁棒性与偏好学习方面的探索。

3.复杂编辑场景:收录了 7.2 万组多轮编辑序列,每个会话包含 2–5 次连续编辑,便于研究迭代式优化、上下文感知编辑与编辑规划等问题。所有样本均包含详细版与简洁版指令,以支持研究提示粒度对模型表现的影响。

Pico-Banana-400K 不仅仅是一个数据集,它是证明人工智能现在可以大规模生成和验证自己的训练数据,并且精确无误,无需人工监督。

苹果公司悄无声息地奠定了未来十年多模态学习的基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
装钱的麻袋都不够了!俄罗斯每天多挣500亿,四年战争,一朝回血

装钱的麻袋都不够了!俄罗斯每天多挣500亿,四年战争,一朝回血

泠泠说史
2026-03-20 18:31:09
4、5、6月幸运连连的三个生肖,危机变转机,财富破土节节攀升

4、5、6月幸运连连的三个生肖,危机变转机,财富破土节节攀升

毅谈生肖
2026-03-26 11:47:20
美国内政部长:美方近期从委内瑞拉“带回”价值1亿美元的黄金,将用于商业及消费;有网友直言“就是在抢劫”

美国内政部长:美方近期从委内瑞拉“带回”价值1亿美元的黄金,将用于商业及消费;有网友直言“就是在抢劫”

大风新闻
2026-03-26 15:51:37
一觉醒来,爱吃活鱼的人天塌了,央视曝光的内幕真可怕!

一觉醒来,爱吃活鱼的人天塌了,央视曝光的内幕真可怕!

涛哥锐评
2026-03-26 17:57:04
“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

火山詩话
2026-03-26 11:11:22
三亚梦幻同框!钟丽缇夫妇偶遇张纪中一家,现场画面太温馨

三亚梦幻同框!钟丽缇夫妇偶遇张纪中一家,现场画面太温馨

眼底星碎
2026-03-26 11:09:37
近90%都是“小蓝灯”!高架和高速越来越多了!网友:你不要过来啊!

近90%都是“小蓝灯”!高架和高速越来越多了!网友:你不要过来啊!

钱塘地产
2026-03-26 11:27:56
马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

马英九疑似患失智症,台律师:大陆已注意到,没让其担任统一大使

爱意随风起呀
2026-03-26 16:51:41
中国4大通血管食物,洋葱排第4,第1就藏在水果里,中老年要多吃

中国4大通血管食物,洋葱排第4,第1就藏在水果里,中老年要多吃

王二哥老搞笑
2026-03-26 05:50:58
俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

贱议你读史
2026-03-26 00:07:41
14亿人集体买房,为什么最后买出了一个烂摊子?

14亿人集体买房,为什么最后买出了一个烂摊子?

流苏晚晴
2026-03-25 18:14:02
以牙还牙,4000人因空袭死伤后,黎巴嫩导弹飞往以色列国防部大楼

以牙还牙,4000人因空袭死伤后,黎巴嫩导弹飞往以色列国防部大楼

音乐时光的娱乐
2026-03-26 17:14:56
多个省级党委组织部部长调整

多个省级党委组织部部长调整

上观新闻
2026-03-26 12:48:05
14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

14岁初中生把干冰放冰箱,半夜爆炸致价值上万冰箱报废 家长:没责备他

红星新闻
2026-03-24 23:25:19
已经抵达东莞?曝广东宏远大外援到位,NBA首轮秀,身高2米13

已经抵达东莞?曝广东宏远大外援到位,NBA首轮秀,身高2米13

篮球大陆
2026-03-26 14:01:14
斩草除根!美以联合空袭打击伊朗伊斯法罕关键光电及导弹研究设施

斩草除根!美以联合空袭打击伊朗伊斯法罕关键光电及导弹研究设施

军迷战情室
2026-03-25 07:42:05
麦迪:杨瀚森球商高有注定长期竞争力,打法让我想到约基奇

麦迪:杨瀚森球商高有注定长期竞争力,打法让我想到约基奇

懂球帝
2026-03-26 11:45:09
中方是否仍有意推进与日企经济联系? 商务部回应

中方是否仍有意推进与日企经济联系? 商务部回应

封面新闻
2026-03-26 17:36:14
深圳双雄互撕!大疆一纸诉状,影石一天没了50亿

深圳双雄互撕!大疆一纸诉状,影石一天没了50亿

野马财经
2026-03-26 16:39:35
退役体操冠军,直播“擦边”之后

退役体操冠军,直播“擦边”之后

中国新闻周刊
2026-03-25 21:34:08
2026-03-26 18:24:52
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
手机
本地
房产
公开课

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被立案调查!

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版