网易首页 > 网易号 > 正文 申请入驻

这个春节P图不求人!小红书开源图像编辑新SOTA

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

AI生图领域,又出了个“狠角色”。

今日,小红书基础模型FireRed-Image-Edit正式亮相。

看似“低调”,实则战绩惊人——其在处理复杂编辑指令、风格化转换,及高精度文字编辑等多个核心指标上,展现出超强实力。

对比结果显示,FireRed-Image-Edit凭借更精准的理解力、更强的ID保持度及高效的架构,在多项权威测试中脱颖而出,在ImgEdit、GEdit等多个榜单中取得了SOTA,达到业界领先水平。


△主流榜单和自建评测集上的指标对比

这种高效架构背后的技术底座,来自小红书Super Intelligence Team在图像生成与编辑领域的一次重要探索。

划重点!目前该项目代码、技术报告、demo网页已开源,模型权重也即将在未来几天开源。


△人工评估胜出率

硬核评测指标与全链路技术底座

FireRed-Image-Edit之所以能被称为“狠角色”,不仅在于榜单上的惊艳表现,更源于小红书团队为其量身定制的一套“高难度考卷”与“进阶版练功房”。

1、重新定义标准:RedEdit Bench

在AI生图领域,现有的基准测试往往难以覆盖用户真实的复杂需求。为此,团队推出了RedEdit Bench这一深度评测方案。

  • 全场景覆盖:包含15个子任务。除了常规的画面增删改外,该评测集还前瞻性地纳入了人像美化、低画质增强等高频实战场景。
  • 真实严苛:对比实验表明,相比ImgEdit和GEdit,该Bench对编辑模型通用能力的评估精度更高。

该Bench随后会开源,以期为开源社区对图像编辑模型的评估建立新维度的标准。



2、核心战力来源:数据构造与三阶段训练

有了严苛的考卷,如何“培养”出高分考生?

FireRed-Image-Edit依靠的是一套极具效率的数据引擎与训练逻辑

首先来看数据引擎方面,FireRed-Image-Edit构建了一套图像编辑数据生产引擎,从“快速、可控、精准”出发,将复杂编辑需求拆解为可组合的子任务,并通过三条路径规模化产出训练对

  • 指令控制的专家模型合成;
  • 结构化控制(如分割/关键点/深度等)的专家模型合成;
  • 模型无关的模板化合成(如3D/布局/文字)。

针对长尾编辑任务样本稀缺问题,采用“检查—补齐”的定向补数流程,由引擎快速生成针对性数据,并配合三层级去重、十余种质量清洗算子与严格一致性守门员,确保数据的指令遵循、视觉自然度与内容一致性



而在模型训练方面,当前模型框架参考主流编辑模型框架,模型通过三阶段训练来完成能力的进阶。

  • 预训练阶段:通过多条件感知桶采样来平衡不同的编辑任务,并通过随机动态指令来提升模型的指令泛化理解能力,并通过前置的embedding抽取来提升训练效率;
  • 微调阶段:通过高质量数据的引入,来提升模型表现;
  • 强化学习阶段:通过非对称梯度优化来强化正样本反馈,基于OCR奖励的diffusionNFT来提升文字编辑准确性。



模型核心能力展示

FireRed-Image-Edit的强大,源于对“编辑”二字的深度理解。

并非简单重绘,而是实现精准控制,其核心能力提升如下。

1、指令遵循一致性

指的是模型引入随机指令对齐的机制,通过随机打乱和动态重组prompt,来使模型能真正理解语义与图像的对应关系,而非死记硬背。

  • 请修正图像中的错误。

示例1:





示例2:





2、文字编辑

FireRed-Image-Edit创新性地提出了Layout-Aware OCR-based Reward

在强化学习阶段,团队不仅惩罚错别字,还惩罚字符的错位、大小异常和布局崩坏。

这使得模型在进行海报修改、文字替换时,能更准确地进行编辑并保持原始文字风格。

示例1:

  • 将海报上右下角的文字“ programme”修改为“program ongoing”,保持字体和风格一致。





示例2:

  • 用参考图的玩偶作为画面主角,衣服上面印着“FireRed-Image-Edit”字样,站在童话感花园草地中,周围有精致小花和柔和建筑背景,整体风格温暖梦幻,超清细节,商业级摄影质感。 小红薯正对镜头,自信可爱地站立,身后是一块黑板,用白色粉笔清晰写着: “FireRed-Image-Edit三大绝活:文字艺术家:中英文字体排版专业稳定,视觉风格统一 时光修复师:老照片修复细节丰富,呈现自然真实造型设计师:智能换装精准自然,多风格服饰一键切换”,文字为白色粉笔手写体。 画面光线柔和自然光,浅景深,背景轻微虚化,色彩明亮饱满,高清8K,真实摄影风格,细节锐利,无噪点,无畸变。





3、创意与多图生成

同时依赖于强大的模型架构能力,FireRed-Image-Edit支持了创造力场景生成和多参考图生成的能力,支持风格迁移或多图融合。

示例1:

  • 模特穿上图1服饰,版型宽松。搭配黑色、材质为氨纶、纯色、紧身、长度至大腿中部的骑行短裤,再搭配金色圆环耳环。







示例2:

  • 一瓶香水放居中,香水瓶放在水面上,透明方形瓶身搭配金色金属瓶盖,极简而现代。晶莹的水花如爆炸般环绕瓶身绽放开,无数水滴在空中定格,折射出梦幻的光彩。底部水波涟漪层层扩散,与飞溅的水花形成动静交织的视觉张力。清凉活力与高端奢华并存,仿佛将夏日清泉的瞬息灵动永久封存。透过瓶身能看到香水背后的说明书。





示例3:

  • 将这张图变成游戏CG风格,极具艺术感,震撼人心,超高清。落叶飞溅,前景落叶虚化,动态模糊,背景动态虚化,阳光灿烂,蓝天白云,光影交错,仰拍特写镜头,突出速度感和视觉冲击力,强透视。





示例4:

  • 将这张图变成游戏CG风格,极具艺术感,震撼人心。





示例5:

  • 设计一张A6折叠卡:打开时显示图片中的小屋。





示例6:

  • 画质修复,细节重现:除了通用编辑,实际应用中,用户经常面临照片模糊、低分辨率、曝光不足或画质受损的问题。FireRed-Image-Edit将超分、去模糊、去噪及光影增强等底层视觉任务统一纳入了指令微调的范畴。让用户可以一键画质调整。修复并上色这张老照片,使其看起来像是用现代相机拍摄的。





示例7:

  • 将这张模糊的图像增强清晰度,使其极为清晰且高质量。





通过开源FireRed-Image-Edit,小红书希望为社区提供一个高效、可控、高质量的基座。

后续将会进一步提升基础模型在人像美化、一致性、文字上的编辑能力,并将在未来几个月内持续开源更新版本和文生图基座模型。

欢迎大家下载体验,在GitHub上点亮Star!

GitHub:
https://github.com/FireRedTeam/FireRed-Image-Edit
技术报告:
https://github.com/FireRedTeam/FireRed-Image-Edit/blob/main/assets/FireRed_Image_Edit_1_0_Techinical_Report.pdf
体验Demo:
https://huggingface.co/spaces/FireRedTeam/FireRed-Image-Edit-1.0

以下是小红书Super Intelligence的团队介绍:



*本文系量子位获授权刊载,观点仅为原作者所有。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

科技前沿进展每日见

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
辽宁抚顺特大暴雨致3人死亡

辽宁抚顺特大暴雨致3人死亡

澎湃新闻
2026-07-05 00:13:04
WTT大满贯战报:被打一波7-0,国乒仍击败了世界第2,夺国乒第2金

WTT大满贯战报:被打一波7-0,国乒仍击败了世界第2,夺国乒第2金

求球不落谛
2026-07-05 07:20:36
俄罗斯陷“断油”危机,普京承认燃油短缺,乌无人机持续打击俄能源设施

俄罗斯陷“断油”危机,普京承认燃油短缺,乌无人机持续打击俄能源设施

网易新闻出品
2026-07-04 11:47:04
世界杯激烈冲突!姆巴佩被激怒,14人互相推搡,高卢雄鸡“中计”

世界杯激烈冲突!姆巴佩被激怒,14人互相推搡,高卢雄鸡“中计”

奥拜尔
2026-07-05 06:01:05
“允许”中国求和,给中国开侮辱性条件,这些小国哪儿来的胆子?

“允许”中国求和,给中国开侮辱性条件,这些小国哪儿来的胆子?

甜心猫独宠
2026-07-03 23:17:09
崩了!欧美订单取消!关闭4座工厂!10万人失业!

崩了!欧美订单取消!关闭4座工厂!10万人失业!

财经要参
2026-07-04 17:09:25
巴拉圭门将:我们踢球脏?那又能怎么办呢,我们就是这么强硬

巴拉圭门将:我们踢球脏?那又能怎么办呢,我们就是这么强硬

懂球帝
2026-07-05 10:01:04
TA深度解读:湖人失去詹姆斯后,东契奇领衔的新阵容还能否冲冠?

TA深度解读:湖人失去詹姆斯后,东契奇领衔的新阵容还能否冲冠?

罗说NBA
2026-07-05 09:59:02
WTT美国大满贯:张禹珍4-0横扫韩国悍将,强势晋级男单4强

WTT美国大满贯:张禹珍4-0横扫韩国悍将,强势晋级男单4强

侧身凌空斩
2026-07-05 10:11:38
粉丝从5万暴涨到近2000万,佛得角40岁门将火了!梅西谈佛得角:他们好像总是多出一个人

粉丝从5万暴涨到近2000万,佛得角40岁门将火了!梅西谈佛得角:他们好像总是多出一个人

都市快报橙柿互动
2026-07-04 13:23:28
LV批量起诉惹争议,网友:你敢起诉人民币吗?

LV批量起诉惹争议,网友:你敢起诉人民币吗?

映射生活的身影
2026-07-04 20:06:13
快讯!台湾欢呼,中国飞机来了!

快讯!台湾欢呼,中国飞机来了!

故事终将光明磊落
2026-07-05 09:46:59
今日!CCTV5直播国乒冲击冠军,孙颖莎出战,张本美和VS张本美和

今日!CCTV5直播国乒冲击冠军,孙颖莎出战,张本美和VS张本美和

晚池
2026-07-05 02:10:58
发现一个扎心的真相:穷人的富养是带孩子吃喝玩乐,喂大了孩子的胃口;富人的富养是教孩子看清世界的真相和规则,掌握两条解决问题的方法

发现一个扎心的真相:穷人的富养是带孩子吃喝玩乐,喂大了孩子的胃口;富人的富养是教孩子看清世界的真相和规则,掌握两条解决问题的方法

心理观察局
2026-07-05 07:00:10
清华大学因“宿舍太差”冲上热搜!网友辣评:狗看了都摇头!

清华大学因“宿舍太差”冲上热搜!网友辣评:狗看了都摇头!

谭老师地理大课堂
2026-07-05 00:04:04
WTT美国大满贯:女单4强出炉2席!韩国全军覆没,张本美和4:1

WTT美国大满贯:女单4强出炉2席!韩国全军覆没,张本美和4:1

国乒二三事
2026-07-05 05:38:58
9.37吨战略物资偷运日本,这不是走私,是叛国!

9.37吨战略物资偷运日本,这不是走私,是叛国!

华山穹剑
2026-07-04 20:30:02
女护士:生活作风不当?

女护士:生活作风不当?

新动察
2026-07-04 14:41:36
她是大家熟悉的演员,不拍戏在法国洗碗谋生,如今遭遇高温热得慌

她是大家熟悉的演员,不拍戏在法国洗碗谋生,如今遭遇高温热得慌

流史岁月
2026-07-03 16:00:07
谢尔基:我以前都不知道竟然可以犯规几十次而不被出牌

谢尔基:我以前都不知道竟然可以犯规几十次而不被出牌

懂球帝
2026-07-05 08:04:06
2026-07-05 11:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
12893文章数 176510关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

姆巴佩回应巴拉圭队球风:他们想用粗野风格压制我们

头条要闻

姆巴佩回应巴拉圭队球风:他们想用粗野风格压制我们

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

王力宏成都舞台受伤 仍然坚持三小时

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

本地
数码
时尚
健康
手机

本地新闻

国内足球之旅?这座小城给你高分答案

数码要闻

苹果A20 Pro或采用96位LPDDR6 内存 打破13年传统

伊姐周六热推:电视剧《画梦录》;电视剧《灿如繁星》......

听说少吃点能抗衰老?专家讲解!

手机要闻

小米玄戒芯片:安卓手机处理器排名第四!

无障碍浏览 进入关怀版