网易首页 > 网易号 > 正文 申请入驻

中科院、港中文等提出HiFi-Inpaint:重塑Inpainting生成范式!

0
分享至

来源:市场资讯

(来源:机器之心Pro)

HiFi-Inpaint 的整体框架,包含了数据集构建流程、高频特征提取、SEA 模块以及 DAL 损失。采用固定的高频权重(Fixed)往往会导致特征冲突,在重绘区域产生明显的视觉伪影;而 SEA 模块巧妙地引入了可学习的权重因子(Learnable),使高频细节的注入更加平滑、自适应,最终生成的 “人 + 商品” 图像在光影与结构上更加和谐真实。传统的 Canny 边缘检测会无差别地提取所有轮廓,引入大量无用的背景杂乱信息(如红框所示);而 HiFi-Inpaint 采用的特定频域滤波方法(Ours)能够精准高亮商品上的关键文字、Logo 与精细纹理(如蓝框所示),从而为 DAL 损失提供最纯净、最精确的像素级监督信号 。左侧直方图展示了极为广泛的 Mask 面积占比分布,这意味着模型在训练后能自适应从 “小挂件” 到 “大物件” 的各种生成比例;右侧词云图则凸显了极其丰富的商品类别,为模型学习真实世界中千变万化的产品材质、形状和物理结构打下了极其坚实的数据基石。与 ACE++、Insert Anything 和 FLUX-Kontext 相比,HiFi-Inpaint 能够完美还原瓶身上的微小文字、Logo 和瓶盖纹理,拒绝 “AI 幻觉”。HiFi-Inpaint 在多项自动评估指标上取得最佳性能(上:合成测试数据,下:真实测试数据)。图注:无论是户外无人物理环境、大姿态全身视角、复杂商品遮挡,还是大幅度的风格迁移(如漫画风),HiFi-Inpaint 都能游刃有余。


在 AIGC 领域,基于参考图像的图像修复(Reference-based Inpainting)一直是一项备受关注的核心任务,它旨在利用参考图像引导修复过程,生成视觉一致的内容。这一技术在广告营销和电商领域有着巨大的应用潜力,例如让 AI 自动生成 “真人手持或穿戴商品” 的展示图。然而,真实世界的商业应用对高保真度有着极其苛刻的要求。现有的模型在处理这类高标准任务时常常 “翻车”,尤其是在精细细节的保留上显得力不从心:品牌 Logo 扭曲、包装文字乱码、产品纹理丢失等问题,成为了阻碍技术落地的最大痛点。

为了攻克这一难题,来自中国科学院大学、香港中文大学等机构的研究团队联合提出了HiFi-Inpaint模型。该工作深入探索了参考图像修复的本质,通过创新性地引入高频特征引导机制,实现了令人惊叹的高保真细节还原。目前,该项工作已被计算机视觉顶级会议CVPR 2026接收。


行业痛点:为什么商品细节这么难搞?

虽然当前的扩散模型(Diffusion Models)在图像生成上取得了革命性进展,甚至能通过图像定制或文本驱动编辑来生成内容,但在处理高度定制化的 “人 + 商品” 图像时,依然力不从心 。

现有的“基于参考图像的图像修复(Reference-based Inpainting)”方法提供了一个解决思路,但在实际应用中仍面临三大阻碍 :

1.细节易丢失: 扩散模型的去噪过程倾向于将内容 “平均化” 或产生幻觉,导致纹理、形状和品牌元素(如文字)的严重不一致。

2.监督信号粗糙: 传统的隐空间(Latent Space)MSE 损失无法提供精确到像素级别的指导,难以约束高频细节。

3.缺乏高质量数据: 大规模、多样化且精准对齐的 “人 + 商品” 开源训练数据极度匮乏。

核心洞察与解决方案:HiFi-Inpaint

为了解决上述问题,研究团队提出了HiFi-Inpaint。它的核心 Insight 在于:既然隐空间容易丢失高频信息,那就显式地将 “高频特征” 提取出来,直接注入到网络结构和损失函数中!


HiFi-Inpaint 能够将商品参考图无缝融合到带 Mask 的人物图像中,同时保持极高保真度的细节还原。

HiFi-Inpaint 基于 FLUX.1-Dev 架构进行了深度改造 ,其三大核心创新点如下:


1. 结构创新:共享增强注意力(Shared Enhancement Attention, SEA)

为了在重绘区域精准保留商品特征,研究团队设计了共享增强注意力模块。它利用共享的双流视觉 DiT 块来细化 Mask 区域内的视觉 Token。具体而言,模型在另一个分支中将商品图像的 Token 替换为对应的高频图 Token,通过学习一个权重因子,将高频特征注入回主干网络:


这种设计既增强了模型捕获复杂商品特征的能力,又因为参数共享机制,保持了模型的紧凑性(每个模块仅引入了一个额外参数)。


2. 训练策略:细节感知损失(Detail-Aware Loss, DAL)

仅仅在模型结构上发力还不够。为了弥补隐空间监督的不足,研究团队引入了细节感知损失函数。这是一种利用高频像素级监督的损失函数:


它专门针对 Mask 区域内的高频成分(如文字边缘、图案纹理)进行约束,有效指导了那些难以仅通过潜在级别监督恢复的细粒度细节的重建。


3. 数据破局:构建 HP-Image-40K 数据集

为了打破数据瓶颈,团队提出了一套自动化的 “自合成与过滤” 流水线,构建了包含 4 万多张 高质量样本的数据集HP-Image-40K。 流程包括:使用 FLUX.1-Dev 生成双联图(左侧商品,右侧人 + 商品)-> 边缘检测分割 ->YOLOv8 与 CLIP 进行语义一致性过滤 -> InternVL 进行文本重合度(Textual Filtering)过滤。这保证了训练数据中商品文字和形态的高度一致性。


惊艳的效果对比

有了高频特征引导和高质量数据的加持,HiFi-Inpaint 在定量和定性评估上都展现出了统治力。


在自动评估指标中,HiFi-Inpaint 在文本对齐(CLIP-T)、视觉一致性(CLIP-I 达到 0.950,DINO 达到 0.919)和结构相似度(SSIM-HF 达到 0.429)上均取得了 SOTA(State-of-the-Art) 的表现 。



此外,即使在更为复杂、未见过的真实世界数据集(包含复杂光照、遮挡、室内外场景)上,HiFi-Inpaint 依然表现出了强大的泛化能力和鲁棒性,能够自然地将目标商品融入场景并保留关键视觉属性 。


总结与思考 (Takeaways)

HiFi-Inpaint 的出现,为电商海报生成、商品虚拟试用等商业落地场景扫清了一大障碍。它的成功给我们带来了两个核心启发:

1.高频信号不可忽视: 在生成模型全面走向高保真度要求的今天,单纯依赖网络 “自己领悟” 隐空间特征在某些任务中是不够的。显式地引入传统图像处理中的先验(如通过傅里叶变换提取高频图),能为模型提供极其精准的 “锚点”。

2.Data-Centric AI 依然奏效: 利用大模型进行自动化数据合成与多重严格过滤,并进行自蒸馏学习,是突破领域数据匮乏的高效途径。

目前该工作已被顶级计算机视觉会议 CVPR 2026 接收。期待未来能在更多商业和视频生成场景中看到它的身影。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《妻旅》3对姐弟恋各有槽点:均是女强男弱,被看好的只有伊能静

《妻旅》3对姐弟恋各有槽点:均是女强男弱,被看好的只有伊能静

扒点半吃瓜
2026-05-10 07:00:14
黄一鸣自曝做直角肩!疼到抬不起胳膊,说要穿衣自由,瘦到100斤

黄一鸣自曝做直角肩!疼到抬不起胳膊,说要穿衣自由,瘦到100斤

观鱼听雨
2026-05-08 23:43:55
火箭交易计划披露!不卖杜兰特+将追另一名超巨 愿为字母哥卖申京

火箭交易计划披露!不卖杜兰特+将追另一名超巨 愿为字母哥卖申京

锅子篮球
2026-05-09 22:27:40
马来西亚撕毁中马合同转向日本,拒赔中国361亿,如今怎样了?

马来西亚撕毁中马合同转向日本,拒赔中国361亿,如今怎样了?

鉴史录
2026-05-09 17:44:39
林良锋:40亿结烂果,曼联侥平更红魔的黑猫

林良锋:40亿结烂果,曼联侥平更红魔的黑猫

体坛周报
2026-05-10 17:21:10
史诗级合作!英伟达联手康宁光连接扩产 10倍 5大供应商直接起飞

史诗级合作!英伟达联手康宁光连接扩产 10倍 5大供应商直接起飞

元芳说投资
2026-05-10 06:20:08
普京:乌克兰冲突正接近尾声

普京:乌克兰冲突正接近尾声

参考消息
2026-05-10 11:59:10
熟客不再光顾都是因为啥?网友:这老板掉钱眼里了

熟客不再光顾都是因为啥?网友:这老板掉钱眼里了

解读热点事件
2026-05-05 00:05:15
新华社:不要让机关事业单位中的“官油子”得势得利!

新华社:不要让机关事业单位中的“官油子”得势得利!

职场资深秘书
2026-05-10 17:16:55
诺兰新作,炸翻外网:他想让你相信男人们会为了这女人发动战争

诺兰新作,炸翻外网:他想让你相信男人们会为了这女人发动战争

文娱春秋Plus
2026-05-08 14:46:34
3-0横扫黑马一姐!中国女乒27岁1米76王牌闪耀:有她马琳很安心

3-0横扫黑马一姐!中国女乒27岁1米76王牌闪耀:有她马琳很安心

李喜林篮球绝杀
2026-05-09 20:48:55
中央5台直播乒乓时间表:5月10日今晚18点CCTV5直播决赛,附赛程

中央5台直播乒乓时间表:5月10日今晚18点CCTV5直播决赛,附赛程

八斗小先生
2026-05-10 14:18:17
赫内斯谈克罗斯:多要一欧元,那就得走

赫内斯谈克罗斯:多要一欧元,那就得走

懂球帝
2026-05-10 17:07:24
阿联酋决定给世界一点小小的王爷震撼

阿联酋决定给世界一点小小的王爷震撼

李建秋
2026-05-08 20:31:37
突传噩耗!何庆魁晚年再遭打击,54岁爱女病逝,家族遗传病曝光

突传噩耗!何庆魁晚年再遭打击,54岁爱女病逝,家族遗传病曝光

尺素a
2026-05-10 15:08:55
东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案!间谍郭万钧一家三口,全部被处以死刑

番外行
2026-03-31 08:28:28
透出来的圆润,并不是装的!

透出来的圆润,并不是装的!

飛娱日记
2026-04-21 10:06:58
从全民狂刷到无人问津,JRPG的黄金时代,可能再也回不来了

从全民狂刷到无人问津,JRPG的黄金时代,可能再也回不来了

单机时代
2026-05-10 15:29:25
量子科技迎重磅利好!社保基金新进的两家量子科技,还都在横盘!

量子科技迎重磅利好!社保基金新进的两家量子科技,还都在横盘!

Thurman在昆明
2026-05-10 10:24:20
北京协和医学院博士:千万不要把烦死了、累死了、气死了挂在嘴上

北京协和医学院博士:千万不要把烦死了、累死了、气死了挂在嘴上

洞见
2026-04-30 09:25:41
2026-05-10 18:35:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3161899文章数 7292关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

县交警队长被举报工作日KTV饮酒 当地:其事先已请假

头条要闻

县交警队长被举报工作日KTV饮酒 当地:其事先已请假

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

大S女儿玥儿开通账号,用烟花缅怀母亲

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

手机
房产
旅游
艺术
军事航空

手机要闻

HarmonyOS 7将至?华为开发者大会HDC 2026活动详情公布

房产要闻

低价甩卖!海口这个地标商业,无人接盘!

旅游要闻

初夏泰山 青绿漫山野 古建映海棠

艺术要闻

预售 | 丁一林风景写生线上课程(最新)

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版