网易首页 > 网易号 > 正文 申请入驻

对标GPT-4o和香蕉!浙大开源ContextGen:布局身份协同新SOTA

0
分享至


新智元报道

编辑:LRST

【新智元导读】浙江大学ReLER团队开源ContextGen框架,攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构,通过双重注意力机制,实现布局精准锚定与身份高保真隔离,在基准测试中超越开源SOTA模型,对标GPT-4o等闭源系统,为定制化AI图像生成带来新突破。

在定制化AI图像生成领域,多实例图像生成(MIG)面临一个关键的协同控制挑战:精确布局控制多主体身份保真的同步实现。

现有方法往往只能达成二者之一,少数能兼顾的方法在性能上也存在显著不足。

为解决这一布局与身份的协同控制瓶颈,浙江大学ReLER团队提出了ContextGen框架,首次在Diffusion Transformer (DiT) 架构内部,通过双重上下文注意力机制实现了架构级的分层解耦控制。

ContextGen在基准测试上,身份保持能力超越SOTA开源模型,并成功对标了GPT-4o和Nano-Banana等强大的闭源系统,实现了在复杂定制化控制方面实现了关键突破。


论文地址:https://arxiv.org/abs/2510.11000

代码地址:https://github.com/nenhang/ContextGen

行业痛点

多实例生成中的「协同控制挑战」


当前MIG模型在实际应用中,主要表现出在布局精准度与身份保真度协同控制上的挑战:

  1. 宏观布局难以固化即使模型显式提供了布局控制功能,生成的多个实例也难以精确地锚定到用户指定的空间位置,属性泄露和实例遗失现象频发,导致生成图像的构图混乱且不符合预期。

  2. 身份细节极易丢失目前很多模型都支持多主体定制化,但主体数量增加时,身份细节丢失的概率会显著上升,生成结果往往无法忠实还原每个实例的独特身份特征。

ContextGen的核心突破在于:它利用注意力机制控制的上下文学习,实现了对这两个问题的协同解决,并在多个关键基准上达到了新的SOTA水平。

核心机制

布局锚定与身份隔离


ContextGen框架基于DiT架构构建,将所有输入整合成一个统一的Token序列T,创新在于在DiT模块中嵌入了两个功能不同的「注意力核」。

宏观布局控制模块

上下文布局锚定 (Contextual Layout Anchoring, CLA)机制是DiT网络的「布局控制器」,负责全局结构和构图:

机制:该模块采用的注意力掩码MCLA允许查询Token q与所有文本、图像和布局Token进行广泛通信。

效果:通过在DiT模块的前置和后置层建立宏观约束,确保生成的实例能够鲁棒且精确地遵循用户指定的布局要求。这种图像层面的宏观布局引导更适配于现有的DiT上下文学习机制,简单而有效地提升了布局控制的准确性。

微观身份隔离模块

身份一致性注意力 (Instance Consistency Attention, ICA)机制是解决多主体身份混淆与丢失的「身份隔离器」:

机制:采用隔离式的注意力掩码MICA,强制限制位于实例n边界框Bn内的查询Token q,只能关注其自身区域Bn、文本T以及对应的参考图像Rn

效果:这一设计在DiT模块的中间层,切断了不同实例身份Token之间的交叉通信,它为每个实例创造了一个「注意力孤岛」,从机制上保障了多主体身份信息的高保真隔离注入,这一机制在应对实例重叠、压缩等复杂场景时,能有效缓解身份信息丢失问题,同时在上下文变长时,也能维持鲁棒的身份保真度。

辅助优化与数据基石


DPO强化学习引入直接偏好优化 (DPO),解决了监督微调可能导致的布局僵硬复制问题,从而增强了生成图像的多样性和自然度。


IMIG-100K数据集团队同步发布了IMIG-100K,首个包含详细布局与身份标注的、含有不同难度层级的、大规模高质量多实例合成数据集。

实验结果

开源SOTA,对标闭源巨头

ContextGen的性能突破,体现在布局精度和身份保持两个维度:

布局精度提升:在COCO-MIG基准上,空间准确性(mIoU) 实现了+5.9%提升,验证了ContextGen在精确构图上的领先性。


身份保持的突破:在LAMICBench++身份保持测试中,ContextGen的在较多主体下的身份保真度(IDS) 比肩甚至超越了GPT-4o和Nano-Banana等闭源模型。这一关键结果证明了ContextGen在复杂多主体场景中,对细节的保真还原能力。


定性结果清晰显示,ContextGen也能还原细粒度的面部特征,也能灵活融合不同风格的参考图像,同时还能遵循用户的布局设计要求。




前端支持

用户友好界面

团队还开发了一个简单的前端界面,用户可以上传自己的参考图像,方便地设计布局,从而定制化生成多实例图像。


结语

ContextGen框架通过在DiT架构中引入CLA和ICA双核注意力机制,创新性地实现了宏观布局和微观身份信息的架构级分层解耦。

这一工作不仅为多实例生成提供了SOTA解决方案,成功突破了布局与身份的协同控制瓶颈,也为DiT等基础扩散模型在高度定制化AIGC任务中的应用开辟了新的技术路径。

作者简介

本工作由浙江大学ReLER团队完成,其中第一作者是浙江大学计算机科学与技术学院本科生许瑞航,通讯作者为浙江大学求是讲席教授杨易老师。ReLER团队长期致力于人工智能领域的前沿研究,包括但不限于生成模型、多模态学习、AI+X等方向。

参考资料:

https://arxiv.org/abs/2510.11000

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
太突然!董事长汤建,因心梗意外去世

太突然!董事长汤建,因心梗意外去世

每日经济新闻
2026-03-25 18:21:26
日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

日军官闯中国使馆后,天皇玄孙迅速澄清,高市失声,特朗普没说错

谛听骨语本尊
2026-03-25 16:26:02
梁兴初被隔离审查8年,自由后叶帅给出两个选择,梁:一个也不要

梁兴初被隔离审查8年,自由后叶帅给出两个选择,梁:一个也不要

兴趣知识
2026-03-25 12:32:27
王励勤动真格了!伦敦世乒赛阵容有变,陈梦调整,2人被冷落

王励勤动真格了!伦敦世乒赛阵容有变,陈梦调整,2人被冷落

不似少年游
2026-03-25 17:03:59
张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

张雪峰传奇人生揭秘:父母下岗,大学考上郑大,第一份工作开饭店

谈史论天地
2026-03-25 07:26:54
这是清朝格格们的真实容貌,都看看吧,这不是演员扮演的

这是清朝格格们的真实容貌,都看看吧,这不是演员扮演的

圆梦的小老头
2026-03-24 13:38:33
黄天鹅就鸡蛋角黄素抽检结果发布声明,三地监管部门抽检结果反馈,鸡蛋未检出角黄素

黄天鹅就鸡蛋角黄素抽检结果发布声明,三地监管部门抽检结果反馈,鸡蛋未检出角黄素

每日经济新闻
2026-03-25 18:11:54
离谱!皇马队医坑完姆巴佩坑卡马文加,前员工曝其用ChatGPT开药

离谱!皇马队医坑完姆巴佩坑卡马文加,前员工曝其用ChatGPT开药

仰卧撑FTUer
2026-03-26 08:02:05
面对伊朗同归于尽打法,美军亮出王炸底牌:如果战败,就爆核武器

面对伊朗同归于尽打法,美军亮出王炸底牌:如果战败,就爆核武器

半壁胭脂色
2026-03-24 16:09:17
女儿高考当天,我撞见婆婆往她汤里下药,我偷偷换给了高考的侄子

女儿高考当天,我撞见婆婆往她汤里下药,我偷偷换给了高考的侄子

鱼语昱雨轩
2026-03-25 14:03:47
央视发文,60岁释永信再迎噩耗,被他害惨的4个明星也出了口恶气

央视发文,60岁释永信再迎噩耗,被他害惨的4个明星也出了口恶气

阿伧说事
2026-03-25 07:11:23
87年薄一波去杭州探望陈云,期间二人神秘交谈,薄提醒:你悠着点

87年薄一波去杭州探望陈云,期间二人神秘交谈,薄提醒:你悠着点

谈古论今历史有道
2026-03-25 15:15:03
好莱坞的AI招魂术:死亡不再是劳动的终点

好莱坞的AI招魂术:死亡不再是劳动的终点

动察Beating
2026-03-26 11:06:56
中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

南宗历史
2026-03-25 16:04:15
姆巴佩:无法想象没有内马尔的世界杯,但我也不能去反对安帅

姆巴佩:无法想象没有内马尔的世界杯,但我也不能去反对安帅

懂球帝
2026-03-26 07:00:47
固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

芭比衣橱
2026-03-26 09:52:41
李双江庆87岁大寿!怒吼要奋斗到90岁,切不动蛋糕戴玉强扶手帮忙

李双江庆87岁大寿!怒吼要奋斗到90岁,切不动蛋糕戴玉强扶手帮忙

嫹笔牂牂
2026-03-26 07:37:49
5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

5种“夺命花”不要养,家里要有赶快扔,谁不听劝谁吃亏

三农老历
2026-03-26 09:42:30
打疯!东契奇生涯32次单节20+追平哈登 历史第三仅输库里科比

打疯!东契奇生涯32次单节20+追平哈登 历史第三仅输库里科比

醉卧浮生
2026-03-26 07:54:15
新型啃老正流行,67岁大妈哭诉:女儿的陪伴式养老是我晚年的噩梦

新型啃老正流行,67岁大妈哭诉:女儿的陪伴式养老是我晚年的噩梦

惟来
2026-03-25 09:45:12
2026-03-26 13:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
本地
房产
健康
公开课

旅游要闻

明起全面实行线上实名预约购票!云台山景区发布公告

本地新闻

春日吃花第三站——广东

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版