网易首页 > 网易号 > 正文 申请入驻

CVPR 2026 | 中科院、港中文等提出HiFi-Inpaint:无损还原物体细节,重塑Inpainting生成范式

0
分享至

在 AIGC 领域,基于参考图像的图像修复(Reference-based Inpainting)一直是一项备受关注的核心任务,它旨在利用参考图像引导修复过程,生成视觉一致的内容。这一技术在广告营销和电商领域有着巨大的应用潜力,例如让 AI 自动生成 “真人手持或穿戴商品” 的展示图。然而,真实世界的商业应用对高保真度有着极其苛刻的要求。现有的模型在处理这类高标准任务时常常 “翻车”,尤其是在精细细节的保留上显得力不从心:品牌 Logo 扭曲、包装文字乱码、产品纹理丢失等问题,成为了阻碍技术落地的最大痛点。

为了攻克这一难题,来自中国科学院大学、香港中文大学等机构的研究团队联合提出了 HiFi-Inpaint 模型。该工作深入探索了参考图像修复的本质,通过创新性地引入高频特征引导机制,实现了令人惊叹的高保真细节还原。目前,该项工作已被计算机视觉顶级会议 CVPR 2026 接收。


论文标题: HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images 论文链接: https://arxiv.org/abs/2603.02210 项目主页: https://correr-zhou.github.io/HiFi-Inpaint

一、行业痛点:为什么商品细节这么难搞?

虽然当前的扩散模型(Diffusion Models)在图像生成上取得了革命性进展,甚至能通过图像定制或文本驱动编辑来生成内容,但在处理高度定制化的 “人 + 商品” 图像时,依然力不从心 。

现有的 “基于参考图像的图像修复(Reference-based Inpainting)” 方法提供了一个解决思路,但在实际应用中仍面临三大阻碍 :

1.细节易丢失: 扩散模型的去噪过程倾向于将内容 “平均化” 或产生幻觉,导致纹理、形状和品牌元素(如文字)的严重不一致。

2.监督信号粗糙: 传统的隐空间(Latent Space)MSE 损失无法提供精确到像素级别的指导,难以约束高频细节。

3.缺乏高质量数据: 大规模、多样化且精准对齐的 “人 + 商品” 开源训练数据极度匮乏。

二、核心洞察与解决方案:HiFi-Inpaint

为了解决上述问题,研究团队提出了 HiFi-Inpaint。它的核心 Insight 在于:既然隐空间容易丢失高频信息,那就显式地将 “高频特征” 提取出来,直接注入到网络结构和损失函数中!

HiFi-Inpaint 能够将商品参考图无缝融合到带 Mask 的人物图像中,同时保持极高保真度的细节还原。

HiFi-Inpaint 基于 FLUX.1-Dev 架构进行了深度改造 ,其三大核心创新点如下:


HiFi-Inpaint 的整体框架,包含了数据集构建流程、高频特征提取、SEA 模块以及 DAL 损失。

1. 结构创新:共享增强注意力(Shared Enhancement Attention, SEA)

为了在重绘区域精准保留商品特征,研究团队设计了共享增强注意力模块。它利用共享的双流视觉 DiT 块来细化 Mask 区域内的视觉 Token。具体而言,模型在另一个分支中将商品图像的 Token 替换为对应的高频图 Token,通过学习一个权重因子,将高频特征注入回主干网络:
这种设计既增强了模型捕获复杂商品特征的能力,又因为参数共享机制,保持了模型的紧凑性(每个模块仅引入了一个额外参数)。

采用固定的高频权重(Fixed)往往会导致特征冲突,在重绘区域产生明显的视觉伪影;而 SEA 模块巧妙地引入了可学习的权重因子(Learnable),使高频细节的注入更加平滑、自适应,最终生成的 “人 + 商品” 图像在光影与结构上更加和谐真实。

2. 训练策略:细节感知损失(Detail-Aware Loss, DAL)

仅仅在模型结构上发力还不够。为了弥补隐空间监督的不足,研究团队引入了细节感知损失函数。这是一种利用高频像素级监督的损失函数:
它专门针对 Mask 区域内的高频成分(如文字边缘、图案纹理)进行约束,有效指导了那些难以仅通过潜在级别监督恢复的细粒度细节的重建。

传统的 Canny 边缘检测会无差别地提取所有轮廓,引入大量无用的背景杂乱信息(如红框所示);而 HiFi-Inpaint 采用的特定频域滤波方法(Ours)能够精准高亮商品上的关键文字、Logo 与精细纹理(如蓝框所示),从而为 DAL 损失提供最纯净、最精确的像素级监督信号 。

3. 数据破局:构建 HP-Image-40K 数据集

为了打破数据瓶颈,团队提出了一套自动化的 “自合成与过滤” 流水线,构建了包含 4 万多张 高质量样本的数据集 HP-Image-40K 。 流程包括:使用 FLUX.1-Dev 生成双联图(左侧商品,右侧人 + 商品)-> 边缘检测分割 ->YOLOv8 与 CLIP 进行语义一致性过滤 -> InternVL 进行文本重合度(Textual Filtering)过滤。这保证了训练数据中商品文字和形态的高度一致性。

左侧直方图展示了极为广泛的 Mask 面积占比分布,这意味着模型在训练后能自适应从 “小挂件” 到 “大物件” 的各种生成比例;右侧词云图则凸显了极其丰富的商品类别,为模型学习真实世界中千变万化的产品材质、形状和物理结构打下了极其坚实的数据基石。 三、惊艳的效果对比

有了高频特征引导和高质量数据的加持,HiFi-Inpaint 在定量和定性评估上都展现出了统治力。


与 ACE++、Insert Anything 和 FLUX-Kontext 相比,HiFi-Inpaint 能够完美还原瓶身上的微小文字、Logo 和瓶盖纹理,拒绝 “AI 幻觉”。

在自动评估指标中,HiFi-Inpaint 在文本对齐(CLIP-T)、视觉一致性(CLIP-I 达到 0.950,DINO 达到 0.919)和结构相似度(SSIM-HF 达到 0.429)上均取得了 SOTA(State-of-the-Art) 的表现 。


HiFi-Inpaint 在多项自动评估指标上取得最佳性能(上:合成测试数据,下:真实测试数据)。

此外,即使在更为复杂、未见过的真实世界数据集(包含复杂光照、遮挡、室内外场景)上,HiFi-Inpaint 依然表现出了强大的泛化能力和鲁棒性,能够自然地将目标商品融入场景并保留关键视觉属性 。


无论是户外无人物理环境、大姿态全身视角、复杂商品遮挡,还是大幅度的风格迁移(如漫画风),HiFi-Inpaint 都能游刃有余。 四、总结与思考 (Takeaways)

HiFi-Inpaint 的出现,为电商海报生成、商品虚拟试用等商业落地场景扫清了一大障碍。它的成功给我们带来了两个核心启发:

1. 高频信号不可忽视:在生成模型全面走向高保真度要求的今天,单纯依赖网络 “自己领悟” 隐空间特征在某些任务中是不够的。显式地引入传统图像处理中的先验(如通过傅里叶变换提取高频图),能为模型提供极其精准的 “锚点”。

2. Data-Centric AI 依然奏效:利用大模型进行自动化数据合成与多重严格过滤,并进行自蒸馏学习,是突破领域数据匮乏的高效途径。

目前该工作已被顶级计算机视觉会议 CVPR 2026 接收。期待未来能在更多商业和视频生成场景中看到它的身影。

Illustration generated by AI.

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

添加工作人员微信(aceyiming投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
所有退休人员注意:收到这条短信,务必抓紧解决!

所有退休人员注意:收到这条短信,务必抓紧解决!

笔墨V
2026-04-13 15:56:59
俄媒这句话直接封神,“只有把中国惹急了,世界才会安静。”

俄媒这句话直接封神,“只有把中国惹急了,世界才会安静。”

流史岁月
2026-04-09 13:55:03
匈牙利政权更迭,欧盟欲借机遏制中国,真实算盘到底有多深?

匈牙利政权更迭,欧盟欲借机遏制中国,真实算盘到底有多深?

御前带刀大人
2026-04-14 09:07:15
41岁男子威胁女邻居发生关系,事后女子为自证清白,让他再来一次

41岁男子威胁女邻居发生关系,事后女子为自证清白,让他再来一次

丫头舫
2026-04-10 21:54:02
想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

哄动一时啊
2026-03-26 17:34:56
三天闪电访华!苏林急得直跺脚,东南亚集体掉头靠向中国

三天闪电访华!苏林急得直跺脚,东南亚集体掉头靠向中国

安珈使者啊
2026-04-14 09:30:18
毕井泉,被逮捕、提起公诉

毕井泉,被逮捕、提起公诉

新京报政事儿
2026-04-14 10:12:38
几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

几乎全是假货!利润高达2400%,咋消费者还前赴后继争相购买?

世界圈
2026-02-12 17:04:31
郑丽文刚回到台湾,民进党就发难,民众党摊牌,侯友宜不装了

郑丽文刚回到台湾,民进党就发难,民众党摊牌,侯友宜不装了

流史岁月
2026-04-13 17:00:08
网友投诉张雪机车业务员“太狂”,张雪本人回应:提供证据,奖励1万

网友投诉张雪机车业务员“太狂”,张雪本人回应:提供证据,奖励1万

极目新闻
2026-04-13 11:56:44
女人在什么年龄段偷情率最高呢?

女人在什么年龄段偷情率最高呢?

思絮
2026-04-14 08:59:07
欧尔班下台,日媒称“中国失去欧盟最好的朋友”,却忽略重要一点

欧尔班下台,日媒称“中国失去欧盟最好的朋友”,却忽略重要一点

DS北风
2026-04-13 18:40:05
中国“退步”最快的城市:曾与上海、南京齐名,如今沦为三线城市

中国“退步”最快的城市:曾与上海、南京齐名,如今沦为三线城市

潮鹿逐梦
2026-04-02 18:05:04
员工中1500万彩票裸辞!税后1200万,工资都不要了,直接炒掉老板

员工中1500万彩票裸辞!税后1200万,工资都不要了,直接炒掉老板

数码八叔
2026-04-13 09:43:05
特朗普警告伊朗攻击艇勿靠近封锁线

特朗普警告伊朗攻击艇勿靠近封锁线

界面新闻
2026-04-13 22:33:11
749局退休人员口述:外星人真实存在,我在秦岭深处亲眼见过一次

749局退休人员口述:外星人真实存在,我在秦岭深处亲眼见过一次

千秋文化
2026-04-09 15:56:25
仅24岁!湖北美女护士付雪飞,走斑马线遭拖行致死,判同等责任?

仅24岁!湖北美女护士付雪飞,走斑马线遭拖行致死,判同等责任?

川渝视觉
2026-04-13 15:54:25
4.14日早评|爆了!美伊要达成协议!A股上涨稳了?

4.14日早评|爆了!美伊要达成协议!A股上涨稳了?

龙行天下虎
2026-04-14 07:48:17
女子16岁遭邻居性侵后选择原谅,26年后竟下毒将其杀害

女子16岁遭邻居性侵后选择原谅,26年后竟下毒将其杀害

就一点
2026-04-13 23:45:31
网盘禁止分享美剧?天塌了

网盘禁止分享美剧?天塌了

来看美剧
2026-04-12 16:08:02
2026-04-14 10:59:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2342文章数 596关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

女子做完医美吃不下睡不着 女技师吐槽"本来就不好看"

头条要闻

女子做完医美吃不下睡不着 女技师吐槽"本来就不好看"

体育要闻

他做对了所有事,却被整个职业网坛放逐了八年

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

伊朗要求五个中东国家赔偿战争损失

汽车要闻

长城欧拉5限定版纯电版上市 限量99台售价13.38万元

态度原创

教育
亲子
本地
时尚
公开课

教育要闻

做有思考、有思路、有思想的校长

亲子要闻

清明过后少给娃吃凉,多喝这碗扶阳汤,体质好长得壮

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

今年科切拉的风吹向了谁?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版