网易首页 > 网易号 > 正文 申请入驻

对标GPT-4o和香蕉!浙大开源ContextGen:布局身份协同新SOTA

0
分享至


新智元报道

编辑:LRST

【新智元导读】浙江大学ReLER团队开源ContextGen框架,攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构,通过双重注意力机制,实现布局精准锚定与身份高保真隔离,在基准测试中超越开源SOTA模型,对标GPT-4o等闭源系统,为定制化AI图像生成带来新突破。

在定制化AI图像生成领域,多实例图像生成(MIG)面临一个关键的协同控制挑战:精确布局控制多主体身份保真的同步实现。

现有方法往往只能达成二者之一,少数能兼顾的方法在性能上也存在显著不足。

为解决这一布局与身份的协同控制瓶颈,浙江大学ReLER团队提出了ContextGen框架,首次在Diffusion Transformer (DiT) 架构内部,通过双重上下文注意力机制实现了架构级的分层解耦控制。

ContextGen在基准测试上,身份保持能力超越SOTA开源模型,并成功对标了GPT-4o和Nano-Banana等强大的闭源系统,实现了在复杂定制化控制方面实现了关键突破。


论文地址:https://arxiv.org/abs/2510.11000

代码地址:https://github.com/nenhang/ContextGen

行业痛点

多实例生成中的「协同控制挑战」


当前MIG模型在实际应用中,主要表现出在布局精准度与身份保真度协同控制上的挑战:

  1. 宏观布局难以固化即使模型显式提供了布局控制功能,生成的多个实例也难以精确地锚定到用户指定的空间位置,属性泄露和实例遗失现象频发,导致生成图像的构图混乱且不符合预期。

  2. 身份细节极易丢失目前很多模型都支持多主体定制化,但主体数量增加时,身份细节丢失的概率会显著上升,生成结果往往无法忠实还原每个实例的独特身份特征。

ContextGen的核心突破在于:它利用注意力机制控制的上下文学习,实现了对这两个问题的协同解决,并在多个关键基准上达到了新的SOTA水平。

核心机制

布局锚定与身份隔离


ContextGen框架基于DiT架构构建,将所有输入整合成一个统一的Token序列T,创新在于在DiT模块中嵌入了两个功能不同的「注意力核」。

宏观布局控制模块

上下文布局锚定 (Contextual Layout Anchoring, CLA)机制是DiT网络的「布局控制器」,负责全局结构和构图:

机制:该模块采用的注意力掩码MCLA允许查询Token q与所有文本、图像和布局Token进行广泛通信。

效果:通过在DiT模块的前置和后置层建立宏观约束,确保生成的实例能够鲁棒且精确地遵循用户指定的布局要求。这种图像层面的宏观布局引导更适配于现有的DiT上下文学习机制,简单而有效地提升了布局控制的准确性。

微观身份隔离模块

身份一致性注意力 (Instance Consistency Attention, ICA)机制是解决多主体身份混淆与丢失的「身份隔离器」:

机制:采用隔离式的注意力掩码MICA,强制限制位于实例n边界框Bn内的查询Token q,只能关注其自身区域Bn、文本T以及对应的参考图像Rn

效果:这一设计在DiT模块的中间层,切断了不同实例身份Token之间的交叉通信,它为每个实例创造了一个「注意力孤岛」,从机制上保障了多主体身份信息的高保真隔离注入,这一机制在应对实例重叠、压缩等复杂场景时,能有效缓解身份信息丢失问题,同时在上下文变长时,也能维持鲁棒的身份保真度。

辅助优化与数据基石


DPO强化学习引入直接偏好优化 (DPO),解决了监督微调可能导致的布局僵硬复制问题,从而增强了生成图像的多样性和自然度。


IMIG-100K数据集团队同步发布了IMIG-100K,首个包含详细布局与身份标注的、含有不同难度层级的、大规模高质量多实例合成数据集。

实验结果

开源SOTA,对标闭源巨头

ContextGen的性能突破,体现在布局精度和身份保持两个维度:

布局精度提升:在COCO-MIG基准上,空间准确性(mIoU) 实现了+5.9%提升,验证了ContextGen在精确构图上的领先性。


身份保持的突破:在LAMICBench++身份保持测试中,ContextGen的在较多主体下的身份保真度(IDS) 比肩甚至超越了GPT-4o和Nano-Banana等闭源模型。这一关键结果证明了ContextGen在复杂多主体场景中,对细节的保真还原能力。


定性结果清晰显示,ContextGen也能还原细粒度的面部特征,也能灵活融合不同风格的参考图像,同时还能遵循用户的布局设计要求。




前端支持

用户友好界面

团队还开发了一个简单的前端界面,用户可以上传自己的参考图像,方便地设计布局,从而定制化生成多实例图像。


结语

ContextGen框架通过在DiT架构中引入CLA和ICA双核注意力机制,创新性地实现了宏观布局和微观身份信息的架构级分层解耦。

这一工作不仅为多实例生成提供了SOTA解决方案,成功突破了布局与身份的协同控制瓶颈,也为DiT等基础扩散模型在高度定制化AIGC任务中的应用开辟了新的技术路径。

作者简介

本工作由浙江大学ReLER团队完成,其中第一作者是浙江大学计算机科学与技术学院本科生许瑞航,通讯作者为浙江大学求是讲席教授杨易老师。ReLER团队长期致力于人工智能领域的前沿研究,包括但不限于生成模型、多模态学习、AI+X等方向。

参考资料:

https://arxiv.org/abs/2510.11000

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子大闹奶茶店后续:人被拘留,学校停了她的课,正脸曝光已社死

女子大闹奶茶店后续:人被拘留,学校停了她的课,正脸曝光已社死

江山挥笔
2026-05-26 09:32:15
成都蓉城队间歇期也没闲着!已提前要给大家一份大礼,值得期待

成都蓉城队间歇期也没闲着!已提前要给大家一份大礼,值得期待

振刚说足球
2026-06-03 09:34:20
美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

美国也没想到,转为中国籍仅6年,谷爱凌竟已成美国头号劲敌

削桐作琴
2026-02-25 18:15:14
这是1895年一名探矿者在加利福尼亚发现了一具巨人的尸体。

这是1895年一名探矿者在加利福尼亚发现了一具巨人的尸体。

岁月有情1314
2026-05-28 14:17:28
课本上看不到的真相:甲午海战惨败的深层次原因,为啥是必败的

课本上看不到的真相:甲午海战惨败的深层次原因,为啥是必败的

贱议你读史
2026-05-26 06:20:03
葡萄牙队世界杯号码公布:C罗身披7号领衔,B费8号、B席10号

葡萄牙队世界杯号码公布:C罗身披7号领衔,B费8号、B席10号

懂球帝
2026-06-02 18:00:13
蓝营风波持续,赵少康节目收视率跌至0.38%

蓝营风波持续,赵少康节目收视率跌至0.38%

郭茂辰海峡传真
2026-06-02 21:43:32
奉劝所有人:退休后,跟别人关系再好,一日游、二日游都行,但千万别尝试长时间一起游,否则早晚会后悔

奉劝所有人:退休后,跟别人关系再好,一日游、二日游都行,但千万别尝试长时间一起游,否则早晚会后悔

背包旅行
2026-05-28 18:04:35
几大天灾齐聚东北,乱成了一锅粥 | 地球知识局

几大天灾齐聚东北,乱成了一锅粥 | 地球知识局

地球知识局
2026-06-02 20:41:12
库里与李宁签订10年长约!Curry品牌开启全球布局,称是毕生之约

库里与李宁签订10年长约!Curry品牌开启全球布局,称是毕生之约

夜白侃球
2026-06-03 10:39:35
胆子更大了!塔利班拿到俄罗斯给的强援后,立马调转枪口怼邻国

胆子更大了!塔利班拿到俄罗斯给的强援后,立马调转枪口怼邻国

真的好爱你
2026-06-03 05:30:54
他若不死必是十大元帅之首?毛主席:他比我厉害十倍

他若不死必是十大元帅之首?毛主席:他比我厉害十倍

小豫讲故事
2026-05-04 06:00:15
在基辅的哥伦比亚雇佣兵:有我被俘视频吗?父母竟这样得知我活着

在基辅的哥伦比亚雇佣兵:有我被俘视频吗?父母竟这样得知我活着

风信子的花
2026-06-03 09:43:17
贪财又好色,德不配位的几位老艺术家,晚节不保一点都不冤

贪财又好色,德不配位的几位老艺术家,晚节不保一点都不冤

林轻吟
2026-06-03 07:18:26
被北大三次退档的河南考生已顺利硕士毕业,他给了北大乃至整个中国高校一记响亮的耳光!

被北大三次退档的河南考生已顺利硕士毕业,他给了北大乃至整个中国高校一记响亮的耳光!

人间运行手册
2026-05-31 10:02:15
有人预测:2026年下半年,二手房市场或将面对这3大变化

有人预测:2026年下半年,二手房市场或将面对这3大变化

猫叔东山再起
2026-06-03 09:00:15
美股光通信股深夜狂飙,迈威尔科技涨超32%,中概股科技龙头全线飘红,腾讯涨9%

美股光通信股深夜狂飙,迈威尔科技涨超32%,中概股科技龙头全线飘红,腾讯涨9%

21世纪经济报道
2026-06-03 07:10:56
一个离婚女人的自述:婚内追我的人排着队,离了婚他们全跑了

一个离婚女人的自述:婚内追我的人排着队,离了婚他们全跑了

千秋文化
2026-05-27 19:53:48
于正晒与晚晚合照引争议,于正回怼:骂她的都是嫉妒她的美貌财力

于正晒与晚晚合照引争议,于正回怼:骂她的都是嫉妒她的美貌财力

露珠聊影视
2026-06-02 17:55:28
张学良晚年坦言:我从不迷信,但在老虎厅杀杨宇霆后,我不得不信

张学良晚年坦言:我从不迷信,但在老虎厅杀杨宇霆后,我不得不信

史之铭
2026-05-28 00:45:35
2026-06-03 11:44:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15374文章数 66897关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

头条要闻

受贿数额特别巨大 内蒙古自治区政府原主席王莉霞被诉

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

2030年之前 莲花还来得及

态度原创

时尚
教育
手机
游戏
公开课

一身夏装三种模样,跟着Mai拿捏夏日甜辣

教育要闻

专访北京中关村一小校长商红领:落实“健康第一”,要避免3个“窄化”

手机要闻

星星海梦幻外观+4K原生实况!vivo S60手机全面评测:一台懂年轻人日常需求的轻旗舰

漫威金刚狼琴格蕾首曝!玩家吐槽像控制“董明珠”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版