网易首页 > 网易号 > 正文 申请入驻

挖掘DiT位置解耦特性,Personalize Anything免训练个性化图像生成

0
分享至

本文的主要作者来自北京航空航天大学、清华大学和中国人民大学。本文的第一作者为清华大学硕士生封皓然,共同第一作者暨项目负责人为北京航空航天大学硕士生黄泽桓,团队主要研究方向为计算机视觉与生成式人工智能。本文的通讯作者为北京航空航天大学副教授盛律。

个性化图像生成是图像生成领域的一项重要技术,正以前所未有的速度吸引着广泛关注。它能够根据用户提供的独特概念,精准合成定制化的视觉内容,满足日益增长的个性化需求,并同时支持对生成结果进行细粒度的语义控制与编辑,使其能够精确实现心中的创意愿景。随着图像生成模型的持续突破,这项技术已在广告营销、角色设计、虚拟时尚等多个领域展现出巨大的应用潜力和商业价值,正在深刻地改变着我们创造和消费视觉内容的方式。

然而当人们对个性化图像生成的期望不断上升时,传统的个性化图像生成方法面临着以下几个挑战:①细节还原瓶颈(如何更精准地还原物体细节,尤其是在多物体的情况下)② 交互控制难题(如何在进行个性化生成的同时,支持对物体位置等空间因素的精准控制)③ 应用拓展受限(如何将个性化和编辑统一在同一框架,以满足更多应用需求)。这些挑战严重制约着个性化图像生成技术的进一步突破,亟需构建更高效的生成框架。

因此,清华大学、北京航空航天大学团队推出了全新的架构设计 ——Personalize Anything,它能够在无需训练的情况下,完成概念主体的高度细节还原,支持用户对物体进行细粒度的位置操控,并能够扩展至多个应用中,为个性化图像生成引入了一个新范式。

总结而言,Personalize Anything 的特点如下:

  • 高效的免训练框架:无需训练,具备较高的计算效率,仅需一次反演(inversion)和一次推理过程
  • 高保真度与可控性:在保持高精度细节的同时兼顾了物体姿态的多样性,并支持位置控制
  • 高扩展性:同时支持多种任务,包括多物体处理、物体与场景的整合、inpainting 和 outpainting 等

  • 论文标题:Personalize Anything for Free with Diffusion Transformer
  • 论文链接:https://arxiv.org/abs/2503.12590
  • 项目主页:https://fenghora.github.io/Personalize-Anything-Page/
  • 代码仓库:https://github.com/fenghora/personalize-anything

效果展示:无需训练,支持个性化、多物体组合、编辑

Personalize Anything 能够在多种任务上表现出色,可以对多组物体与场景进行组合,并同时自由控制主体位置,这是以往个性化图像生成模型难以做到的。

下面图像中依次展示了 Personalize Anything 在布局引导生成、inpainting、outpainting 三种任务上的表现。可以看到,Personalize Anything 在多种任务上都能够生成贴合文本的高质量图像。

技术突破:从 DiT 架构的新发现到个性化任意内容

个性化图像生成的传统方法通常需要对定制概念进行微调,或者在大规模数据集上进行预训练,这不仅消耗大量计算资源,还影响模型的泛化能力。最近,无需训练的方法尝试通过注意力共享机制来避免这些问题,但这些方法难以保持概念的一致性。此外,由于这些方法主要针对传统的 UNet 架构设计,无法应用于最新的 DiT 架构模型,导致它们无法应用在更大规模和更好效果的图像生成模型上。

注意力共享机制不适用于 DiT 架构

在了解 Personalize Anything 技术细节前,先来看看为什么传统无需训练的方法不能够应用在 DiT 架构的图像生成模型上。

如上文所述,传统无需训练的方法多通过注意力共享机制,也就是在运算自注意力时,将概念图像特征直接与生成图像特征进行拼接,但是经由团队实验发现,对于 DiT 架构而言,由于位置编码的影响,当去噪图像和参考图像共用同一套位置编码时,会导致过度关注,从而在生成的图像中产生重影(图 a);当调整参考图像的位置编码避免冲突时,生成图像的注意力几乎不出现在参考图像中,导致主体一致性较弱(如图 b 和图 c),这限制了传统方法在 DiT 架构上的应用。

通过上述实验发现,DiT 中显式编码的位置信息对其注意力机制具有强烈影响 —— 这与 U-Net 隐式处理位置的方式存在根本差异。这使得生成的图像难以在传统的注意力共享中正确地关注参考对象的标记。

DiT 架构的新启发:标记替换引发主体重建

基于对 DiT 架构显式位置编码的认识,团队继续对 DiT 的特征表示进行了探索。团队发现,将参考图像未带位置编码的标记替换进去噪图像的指定位置,能够重建出良好的主体图像。而传统 Unet 架构所具有的卷积操作会导致位置编码与图像特征混杂在一起,导致在进行特征替换时影响最后的图像质量。

这一发现使团队意识到,简单但有效的特征替换,对于 DiT 架构而言是一个可行的个性化图像生成方法。

定制任意内容:时间步适应替换策略与特征扰动

基于上述发现,团队将特征替换引入个性化图像生成方法中,并创新地提出了时间步适应标记替换机制(Timestep-adaptive Token Replacement) 。

在整个流程中,首先对参考图像进行反演,并通过 mask 获取参考图像未带位置编码的标记。在去噪过程的早期阶段,为了保留物体特征细节,将参考图像主体的标记直接替换进生成图像中。而在后期,则转为传统的注意力共享机制。这种时间适应特征替换机制能够增图像生成后概念主体的多样性,同时减少生成图像的割裂感。

为了进一步保证概念主体姿态的多样性,团队又额外提出了特征扰动,旨在通过对概念图像特征进行重排,或者调整 mask,来控制特征替换时的概念图像特征代表的物体姿态等,从而为生成的图像引入多样性。

更多应用:无缝扩展至布局引导、多物体组合、编辑等

Personalize Anything 除了在核心任务上表现出色,还具有强大的扩展能力,可以应用于更复杂的实际场景。首先,可以通过自由选择特征注入的位置,来实现位置引导的生成;其次,框架支持对多物体进行自由组合,采取顺序注入的方式,支持物体间层级关系的控制;并且 Personalize Anything 支持用户将将图像视为整体,允许用户保留部分图像内容,同时对另一部分进行可控编辑。这种灵活的可扩展性为未来的研究和应用开辟了更为广阔的前景。

卓越性能:在保真度和多功能性等多个维度上表现突出

团队从单物体定制,多物体组合,物体 - 场景组合这三个任务入手,与众多优秀的开源模型进行定性定量的对比。可以看到 Personalize Anything 的结果基本都优于现有方法,并在后续的人类偏好测试中取得了显著优势。

单物体个性化生成

多物体组合生成

物体 - 场景组合

未来展望

Personalize Anything 研究团队揭示了 DiT 中位置解耦表示的性质,为免训练的图像空间操纵、个性化生成奠定基础。团队期待 DiT 的几何编程原理能够进一步拓展到视频、3D 生成等领域,实现更复杂、更精细的场景构建与编辑。希望通过深入研究和广泛应用,让这一思路激发更多可控生成的研究,推动 AI 在创意内容生成、虚拟现实、数字孪生等领域的广泛应用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曝许家印香港大宅挖出460平地牢,潜伏15年才被发现,是为藏啥?

曝许家印香港大宅挖出460平地牢,潜伏15年才被发现,是为藏啥?

林子说事
2026-03-07 10:33:20
从化疗到死亡仅1年,医生提醒:这4种癌症患者或不建议化疗!

从化疗到死亡仅1年,医生提醒:这4种癌症患者或不建议化疗!

39健康网
2026-03-07 18:34:09
朱拉尼胆子不小,趁着以伊大打出手,他要在以色列后方干票大的?

朱拉尼胆子不小,趁着以伊大打出手,他要在以色列后方干票大的?

云舟史策
2026-03-07 07:13:41
美退伍军人听证会现场大喊: “没人愿意为以色列而战” 被按倒拖走

美退伍军人听证会现场大喊: “没人愿意为以色列而战” 被按倒拖走

闪电新闻
2026-03-05 19:42:22
原来这才是普通家庭存款啊!网友:两套房一辆车,无房贷车贷

原来这才是普通家庭存款啊!网友:两套房一辆车,无房贷车贷

另子维爱读史
2026-03-06 20:12:51
输不起的比赛!加图索招“二老”回蓝衣军团,杯赛附加生死战

输不起的比赛!加图索招“二老”回蓝衣军团,杯赛附加生死战

里芃芃体育
2026-03-07 04:00:03
30多年前《封神榜》里穿衣尺度太大,镜头太裸,差点都播不出来

30多年前《封神榜》里穿衣尺度太大,镜头太裸,差点都播不出来

小徐讲八卦
2026-02-08 15:30:09
刘美贤:谷爱凌因为代表中国被批评 让她回中国 真回去了你们又生气

刘美贤:谷爱凌因为代表中国被批评 让她回中国 真回去了你们又生气

乡野小珥
2026-03-07 15:25:14
巴黎偶遇陈飞宇!素颜嘴凸明显黑眼圈抢镜,吃麻辣烫比耶好接地气

巴黎偶遇陈飞宇!素颜嘴凸明显黑眼圈抢镜,吃麻辣烫比耶好接地气

青橘罐头
2026-03-06 14:52:33
离婚后才明白,有些话难听,却是现实

离婚后才明白,有些话难听,却是现实

加油丁小文
2026-02-14 08:00:20
特朗普又盯上了谁?搞定委内瑞拉斩首伊朗 美国下一个目标已敲定

特朗普又盯上了谁?搞定委内瑞拉斩首伊朗 美国下一个目标已敲定

军评陈光文
2026-03-07 20:58:17
浙江夫妻收留脑部受伤流浪汉供养他17年,谁料17年后,流浪汉大喊

浙江夫妻收留脑部受伤流浪汉供养他17年,谁料17年后,流浪汉大喊

明智家庭教育
2026-03-07 12:57:10
金价一夜大变!今日金价(2026年3月7日)今日黄金价格多少钱一克

金价一夜大变!今日金价(2026年3月7日)今日黄金价格多少钱一克

亿通电子游戏
2026-03-07 10:51:22
克雷桑:今年是我在泰山的第五年,希望用最大努力为球队做贡献

克雷桑:今年是我在泰山的第五年,希望用最大努力为球队做贡献

懂球帝
2026-03-07 21:29:14
网红“寿司郎”吃出寄生虫卵:员工100次洗手挡不住顾客数百次投诉

网红“寿司郎”吃出寄生虫卵:员工100次洗手挡不住顾客数百次投诉

财中社
2026-03-06 16:19:27
美国驻华大使馆发微博遭到网友嘲讽,史诗狂怒还是无能狂怒?

美国驻华大使馆发微博遭到网友嘲讽,史诗狂怒还是无能狂怒?

可乐爱微笑
2026-03-07 09:19:32
从“利苑”到“猪肉婆”:“明星总厨”吴玉擎的掌勺人生

从“利苑”到“猪肉婆”:“明星总厨”吴玉擎的掌勺人生

红厨网
2026-03-06 09:55:48
炸锅!贝尔语出惊人:皇马队友有 3 人比 C 罗更强

炸锅!贝尔语出惊人:皇马队友有 3 人比 C 罗更强

奶盖熊本熊
2026-03-07 05:29:47
伤势突然加重!利雅得胜利主帅确认:C罗离开沙特,在马德里治疗

伤势突然加重!利雅得胜利主帅确认:C罗离开沙特,在马德里治疗

夏侯看英超
2026-03-07 01:08:55
北京50岁阿姨独居37㎡小家,全屋大白墙、不吊顶,却越看越高级!

北京50岁阿姨独居37㎡小家,全屋大白墙、不吊顶,却越看越高级!

家居设计师宅哥
2026-03-07 17:40:32
2026-03-07 21:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12431文章数 142578关注度
往期回顾 全部

科技要闻

OpenClaw爆火,六位"养虾人"自述与AI共生

头条要闻

特朗普:伊朗今天将遭到极其猛烈的打击

头条要闻

特朗普:伊朗今天将遭到极其猛烈的打击

体育要闻

塔图姆298天走完这段路 只用27分钟征服这座城

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

针对"不敢休、不让休"怪圈 国家出手了

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

数码
艺术
时尚
游戏
教育

数码要闻

解锁“她力量”专属存储方案,为每一份热爱精彩定格

艺术要闻

2025年天津市第十届油画双年展 | 人物油画选刊

这些才是适合普通人的穿搭!搭配腰带、多穿牛仔裤,简单舒适

良性竞争比互黑重要!Arc玩家主动声援失落星船马拉松

教育要闻

打开政府工作报告看新词,英语还能这样学

无障碍浏览 进入关怀版