网易首页 > 网易号 > 正文 申请入驻

浙大提出ContextGen,实现布局锚定多实例生成新SOTA

0
分享至

来源:市场资讯

(来源:机器之心Pro)


随着扩散模型(Diffusion Models)的迭代演进,图像生成已经日臻成熟。然而,在多实例图像生成(Multi-Instance Image Generation, MIG)这一有着大量用户场景的关键领域,现有的方法仍面临核心瓶颈:如何同时实现对多个对象的空间布局控制(Layout Control)以及身份特征的良好保持(Identity Preservation)。

主流方法往往无法做到两全其美:依赖文本和布局引导(Layout-to-Image)的模型往往难以实现高度的实例定制化,且实例遗漏、属性泄露的问题时有发生;而主流的主体驱动(Subject-driven)方法在主体数量增加时,面临着严重的身份混淆和细节丢失的问题。


ContextGen 与主流 SOTA 的对比示例,以及 ContextGen 的使用例

为解决这一制约高度定制化图像生成的难题,浙江大学 ReLER 团队发布 ContextGen,一个新型的基于Diffusion Transformer (DiT)的框架,旨在通过上下文学习,可靠地完成图像引导的多实例生成任务!


ContextGen 提出了全新的上下文生成范式,通过整合布局图像和多张参考图像,将布局控制与身份保持的挑战转化为统一的上下文建模问题。

双核驱动:实现布局与身份的双重保真

ContextGen 的双重核心机制,共同作用于统一的上下文 Token 序列上:


ContextGen 框架结构概览

上下文布局锚定(Contextual Layout Anchoring, CLA)

CLA 机制聚焦于全局上下文的引导,接受用户设计(或者模型自动拼合)的布局图像作为输入,以提供精确的全局布局控制和初步的身份信息。它通过在 DiT 模块的前置层和后置层部署自注意力机制,确保文本、待生成图像和布局图像三者进行充分注意力交互,对整体图像结构进行有效控制。

身份一致性注意力(Identity Consistency Attention, ICA)

ICA 机制聚焦细粒度的身份注入,利用原始高保真度的参考图像,将身份信息注入到其对应的目标位置,从而保障多个实例的身份一致性。它被部署到 DiT 模块的中间层,通过一个隔离式的注意力掩码,将参考图像的 Token 与对应待去噪区域的 Token 建立连接,旨在缓解重叠或者压缩导致的细节丢失问题,并在图像序列增长时保证身份信息的稳定注入。

这种的层次化的双重注意力策略,有效地让框架兼具了宏观的布局控制和精细的实例级身份保持。此外,ContextGen 还采用了增强的位置索引策略,系统性地区分和组织统一 Token 序列中多图像之间的关系。

数据基石:大规模详细标注的多实例数据集

针对当前领域高质量训练数据稀缺的现状,团队同时推出了IMIG-100K 数据集。这是首个为图像引导的多实例生成任务设计的大规模、具备不同难度层级、提供详细布局和身份标注的合成数据集,其构建流程代码也已经开源,支持用户根据自身需求生成定制化数据集。


IMIG-100K 数据集概览


IMIG-100K 的布局、身份标注

性能优化:DPO 强化学习解放创造力

团队在训练过程中发现,仅仅使用监督微调容易使得模型过度参考布局图像,导致生成的图像缺乏多样性和灵活性。为此,在监督微调之外,ContextGen 还引入了基于偏好优化(DPO)的强化学习阶段。该阶段将布局图像作为非偏好输入,鼓励模型不僵硬复制布局内容,生成更具创意和多样性的图像。


DPO 微调过程示例

实验验证:对标闭源模型,树立性能标杆

在广泛的定量和定性评估中,ContextGen 展现出卓越的 SOTA 性能。

身份保持:比肩闭源巨头

在LAMICBench++基准测试中,ContextGen 不仅超越了所有开源模型(平均得分提升+1.3%),更在身份一致性上比肩了一些闭源的商业巨头,在多实例的复杂场景中,ContextGen 在人物身份保持 (IDS) 和物体特征保持 (IPS) 上甚至可以和 GPT-4o 和 Nano Banana 一较高下。


LAMICBench++ 基准的定量对比


LAMICBench++ 基准的定性对比1


LAMICBench++ 基准的定性对比2

布局与属性控制:准确率大幅提升

在COCO-MIG上,ContextGen 在实例级成功率 (I-SR) 上提升+3.3%,空间准确性 (mIoU) 提升+5.9%。 在LayoutSAM-Eval中,ContextGen 在颜色、材质等属性的正确率上也超过了现有的模型。


COCO-MIG 和 LayoutSAM-Eval 基准的定量比较


COCO-MIG 基准的定性比较


LayoutSam-Eval 基准的定性比较

这些结果充分证明了 ContextGen 在多实例图像生成任务中的强大能力,成功实现了对布局和身份的双重精确控制。

前端支持:便捷的用户交互

为了方便用户体验,在项目中团队增加了一个简单易用的前端界面,支持用户上传参考图像、以文本的形式添加新素材、通过拖拽方便地设计布局,生成多实例图像。


ContextGen 前端交互界面

展望与未来

ContextGen 通过带有双重注意力的上下文机制,为高度可控的多实例生成提供了一个强大且可行的 DiT 框架。ReLER 团队进一步提出,如何更智能地理解用户的文本意图与多模态参考,仍然是一个值得深入探索的课题。未来,团队计划进一步优化模型架构,提升生成效率,并探索更多样化的用户交互方式,以满足更广泛的应用需求。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马杜罗被捕现场细节流出:古巴硬汉贴身安保,战至最后尽忠职守

马杜罗被捕现场细节流出:古巴硬汉贴身安保,战至最后尽忠职守

装甲铲史官
2026-01-04 15:14:32
现场画面曝光!美媒公布美军打击委内瑞拉蒂乌纳堡基地后景象

现场画面曝光!美媒公布美军打击委内瑞拉蒂乌纳堡基地后景象

环球网资讯
2026-01-04 14:02:30
【英超】超戏剧!补时阶段各进1球!利物浦2比2富勒姆

【英超】超戏剧!补时阶段各进1球!利物浦2比2富勒姆

体坛周报
2026-01-05 01:34:13
美军突袭抓获马杜罗,三个细节值得关注

美军突袭抓获马杜罗,三个细节值得关注

中国能源网
2026-01-04 15:34:08
美国通讯能力太强了!特朗普在家中随便找张桌子,就能实时观看马杜罗抓捕现场

美国通讯能力太强了!特朗普在家中随便找张桌子,就能实时观看马杜罗抓捕现场

回旋镖
2026-01-04 12:38:03
深度 | 强掳马杜罗还不够?委内瑞拉之后,特朗普还有下一个目标?

深度 | 强掳马杜罗还不够?委内瑞拉之后,特朗普还有下一个目标?

上观新闻
2026-01-04 20:20:07
特朗普威胁古巴、哥伦比亚

特朗普威胁古巴、哥伦比亚

界面新闻
2026-01-04 07:16:33
这才是“闽南第一豪宅”?帝景苑老板梁林伟,这次彻底摊牌了...

这才是“闽南第一豪宅”?帝景苑老板梁林伟,这次彻底摊牌了...

地产人言
2026-01-03 21:50:19
最低9.9!对标山姆冲刺百店,“穷鬼超市”来势汹汹,打工人狂喜

最低9.9!对标山姆冲刺百店,“穷鬼超市”来势汹汹,打工人狂喜

财经八卦
2026-01-04 17:16:59
中国唯一飞往委内瑞拉航班取消,客机将空机返委,航司称12天后委内瑞拉飞中国航班正常,在委华人近日可中转回国

中国唯一飞往委内瑞拉航班取消,客机将空机返委,航司称12天后委内瑞拉飞中国航班正常,在委华人近日可中转回国

极目新闻
2026-01-04 13:50:57
美国发动对委内瑞拉战争之前,可能已与俄罗斯和中国达成默契

美国发动对委内瑞拉战争之前,可能已与俄罗斯和中国达成默契

碳基生物关怀组织
2026-01-03 23:30:35
赖清德想向大陆摊牌,郑丽文直接变脸了,解放军或有大动作

赖清德想向大陆摊牌,郑丽文直接变脸了,解放军或有大动作

南宫一二
2026-01-04 17:27:53
日媒:如何就美国突袭委内瑞拉表态,高市陷入两难

日媒:如何就美国突袭委内瑞拉表态,高市陷入两难

参考消息
2026-01-04 14:43:05
中国女子流落柬埔寨街头,中使馆:已联系其家属来柬办理回国事宜

中国女子流落柬埔寨街头,中使馆:已联系其家属来柬办理回国事宜

界面新闻
2026-01-04 19:50:22
折磨人的生理反应有哪些?网友:排卵期就想穿性感一点

折磨人的生理反应有哪些?网友:排卵期就想穿性感一点

带你感受人间冷暖
2026-01-04 00:10:07
张子宇首秀12分钟15+6!山东女篮力克河北 王丽丽25+10

张子宇首秀12分钟15+6!山东女篮力克河北 王丽丽25+10

醉卧浮生
2026-01-04 21:22:28
美国对中国下狠手!4400颗卫星集体降低轨道,目标直指中国空间站

美国对中国下狠手!4400颗卫星集体降低轨道,目标直指中国空间站

奉壹数码
2026-01-04 21:05:18
委内瑞拉曾多次将美国石油公司“国有化”,无视国际仲裁补偿,终演变为军事冲突

委内瑞拉曾多次将美国石油公司“国有化”,无视国际仲裁补偿,终演变为军事冲突

回旋镖
2026-01-04 19:21:13
强行抓走马杜罗后,特朗普:这个说法得改了

强行抓走马杜罗后,特朗普:这个说法得改了

环球时报国际
2026-01-04 18:59:38
闹大了,陈若琳晒出全红婵的奥运房间,评论区网友炸锅!

闹大了,陈若琳晒出全红婵的奥运房间,评论区网友炸锅!

娱乐白名单
2024-07-26 15:53:53
2026-01-05 01:44:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1902431文章数 5159关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

特朗普为什么还要掳走马杜罗夫人 美媒分析

头条要闻

特朗普为什么还要掳走马杜罗夫人 美媒分析

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

健康
艺术
游戏
手机
军事航空

这些新疗法,让化疗不再那么痛苦

艺术要闻

震撼视觉!西班牙画家安格拉达的油画作品引热议

自走棋火了6年后,我才玩了《王者万象棋》

手机要闻

一加Turbo6参数公布,挑战Turbo档最强游戏体验

军事要闻

美军突袭抓获马杜罗 三个细节值得关注

无障碍浏览 进入关怀版