网易首页 > 网易号 > 正文 申请入驻

对标GPT-4o和香蕉!浙大开源ContextGen:布局身份协同新SOTA

0
分享至


新智元报道

编辑:LRST

【新智元导读】浙江大学ReLER团队开源ContextGen框架,攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构,通过双重注意力机制,实现布局精准锚定与身份高保真隔离,在基准测试中超越开源SOTA模型,对标GPT-4o等闭源系统,为定制化AI图像生成带来新突破。

在定制化AI图像生成领域,多实例图像生成(MIG)面临一个关键的协同控制挑战:精确布局控制多主体身份保真的同步实现。

现有方法往往只能达成二者之一,少数能兼顾的方法在性能上也存在显著不足。

为解决这一布局与身份的协同控制瓶颈,浙江大学ReLER团队提出了ContextGen框架,首次在Diffusion Transformer (DiT) 架构内部,通过双重上下文注意力机制实现了架构级的分层解耦控制。

ContextGen在基准测试上,身份保持能力超越SOTA开源模型,并成功对标了GPT-4o和Nano-Banana等强大的闭源系统,实现了在复杂定制化控制方面实现了关键突破。


论文地址:https://arxiv.org/abs/2510.11000

代码地址:https://github.com/nenhang/ContextGen

行业痛点

多实例生成中的「协同控制挑战」


当前MIG模型在实际应用中,主要表现出在布局精准度与身份保真度协同控制上的挑战:

  1. 宏观布局难以固化即使模型显式提供了布局控制功能,生成的多个实例也难以精确地锚定到用户指定的空间位置,属性泄露和实例遗失现象频发,导致生成图像的构图混乱且不符合预期。

  2. 身份细节极易丢失目前很多模型都支持多主体定制化,但主体数量增加时,身份细节丢失的概率会显著上升,生成结果往往无法忠实还原每个实例的独特身份特征。

ContextGen的核心突破在于:它利用注意力机制控制的上下文学习,实现了对这两个问题的协同解决,并在多个关键基准上达到了新的SOTA水平。

核心机制

布局锚定与身份隔离


ContextGen框架基于DiT架构构建,将所有输入整合成一个统一的Token序列T,创新在于在DiT模块中嵌入了两个功能不同的「注意力核」。

宏观布局控制模块

上下文布局锚定 (Contextual Layout Anchoring, CLA)机制是DiT网络的「布局控制器」,负责全局结构和构图:

机制:该模块采用的注意力掩码MCLA允许查询Token q与所有文本、图像和布局Token进行广泛通信。

效果:通过在DiT模块的前置和后置层建立宏观约束,确保生成的实例能够鲁棒且精确地遵循用户指定的布局要求。这种图像层面的宏观布局引导更适配于现有的DiT上下文学习机制,简单而有效地提升了布局控制的准确性。

微观身份隔离模块

身份一致性注意力 (Instance Consistency Attention, ICA)机制是解决多主体身份混淆与丢失的「身份隔离器」:

机制:采用隔离式的注意力掩码MICA,强制限制位于实例n边界框Bn内的查询Token q,只能关注其自身区域Bn、文本T以及对应的参考图像Rn

效果:这一设计在DiT模块的中间层,切断了不同实例身份Token之间的交叉通信,它为每个实例创造了一个「注意力孤岛」,从机制上保障了多主体身份信息的高保真隔离注入,这一机制在应对实例重叠、压缩等复杂场景时,能有效缓解身份信息丢失问题,同时在上下文变长时,也能维持鲁棒的身份保真度。

辅助优化与数据基石


DPO强化学习引入直接偏好优化 (DPO),解决了监督微调可能导致的布局僵硬复制问题,从而增强了生成图像的多样性和自然度。


IMIG-100K数据集团队同步发布了IMIG-100K,首个包含详细布局与身份标注的、含有不同难度层级的、大规模高质量多实例合成数据集。

实验结果

开源SOTA,对标闭源巨头

ContextGen的性能突破,体现在布局精度和身份保持两个维度:

布局精度提升:在COCO-MIG基准上,空间准确性(mIoU) 实现了+5.9%提升,验证了ContextGen在精确构图上的领先性。


身份保持的突破:在LAMICBench++身份保持测试中,ContextGen的在较多主体下的身份保真度(IDS) 比肩甚至超越了GPT-4o和Nano-Banana等闭源模型。这一关键结果证明了ContextGen在复杂多主体场景中,对细节的保真还原能力。


定性结果清晰显示,ContextGen也能还原细粒度的面部特征,也能灵活融合不同风格的参考图像,同时还能遵循用户的布局设计要求。




前端支持

用户友好界面

团队还开发了一个简单的前端界面,用户可以上传自己的参考图像,方便地设计布局,从而定制化生成多实例图像。


结语

ContextGen框架通过在DiT架构中引入CLA和ICA双核注意力机制,创新性地实现了宏观布局和微观身份信息的架构级分层解耦。

这一工作不仅为多实例生成提供了SOTA解决方案,成功突破了布局与身份的协同控制瓶颈,也为DiT等基础扩散模型在高度定制化AIGC任务中的应用开辟了新的技术路径。

作者简介

本工作由浙江大学ReLER团队完成,其中第一作者是浙江大学计算机科学与技术学院本科生许瑞航,通讯作者为浙江大学求是讲席教授杨易老师。ReLER团队长期致力于人工智能领域的前沿研究,包括但不限于生成模型、多模态学习、AI+X等方向。

参考资料:

https://arxiv.org/abs/2510.11000

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
现货白银站上92美元/盎司

现货白银站上92美元/盎司

新京报
2026-02-05 12:50:08
委内瑞拉和伊朗这一手“反水”,直接给中国上一堂最昂贵的战略课

委内瑞拉和伊朗这一手“反水”,直接给中国上一堂最昂贵的战略课

南权先生
2026-01-16 16:22:00
南京Lily姐火了。
​38岁陪读妈妈,牵着70岁德国工程师的手

南京Lily姐火了。 ​38岁陪读妈妈,牵着70岁德国工程师的手

岁月有情1314
2026-02-05 11:13:16
太痛了!极端天气夺命,华人老人与10岁外孙不幸遇难

太痛了!极端天气夺命,华人老人与10岁外孙不幸遇难

华人生活网
2026-01-29 05:04:00
陪玩陪睡不够!集体开嫖、舔手指、目无王法,阴暗面彻底藏不住了

陪玩陪睡不够!集体开嫖、舔手指、目无王法,阴暗面彻底藏不住了

好贤观史记
2025-11-09 21:58:39
大S雕像仪式刚结束,葛斯齐深夜爆其猛料,许雅钧表现逆转口碑!

大S雕像仪式刚结束,葛斯齐深夜爆其猛料,许雅钧表现逆转口碑!

古希腊掌管月桂的神
2026-02-03 10:20:14
一夜八笔交易!豪赌还是摆烂,各家在想什么?

一夜八笔交易!豪赌还是摆烂,各家在想什么?

篮球盛世
2026-02-05 16:44:52
大S死因反转!具俊晔时隔一年改口,酒店发病是假的,三疑点戳穿谎言

大S死因反转!具俊晔时隔一年改口,酒店发病是假的,三疑点戳穿谎言

八星人
2026-02-04 20:32:35
萧美娘乳白写真合集(2)

萧美娘乳白写真合集(2)

情感大头说说
2026-01-24 15:26:40
很多人以为殉葬就是把活人关进地宫,门一关,他们只能哭喊着等死

很多人以为殉葬就是把活人关进地宫,门一关,他们只能哭喊着等死

忠于法纪
2026-01-18 17:42:24
“价格屠夫”:河北电商,正在“血洗”全国批发市场

“价格屠夫”:河北电商,正在“血洗”全国批发市场

苏格拉高
2026-01-31 07:50:47
非要抢港,第三国接手中资港口,李嘉诚不再沉默,中方撂下1句话

非要抢港,第三国接手中资港口,李嘉诚不再沉默,中方撂下1句话

落梅如雪乱飞
2026-02-06 01:41:43
十四世达赖在爱泼斯坦档案中被提及168次

十四世达赖在爱泼斯坦档案中被提及168次

观察者网
2026-02-05 21:58:04
乌克兰消灭“俄罗斯英雄”莫斯利莫夫!曾被俄防长亲自授勋

乌克兰消灭“俄罗斯英雄”莫斯利莫夫!曾被俄防长亲自授勋

项鹏飞
2026-02-03 17:26:49
赖清德一觉醒来天塌了,解放军不浪费一枪一弹,已将台岛围成铁桶

赖清德一觉醒来天塌了,解放军不浪费一枪一弹,已将台岛围成铁桶

林子说事
2026-02-04 16:40:06
彻底闹大了!湖北一精神病院变身“缅北园区”?真相触目惊心!

彻底闹大了!湖北一精神病院变身“缅北园区”?真相触目惊心!

好笑娱乐君每一天
2026-02-06 00:20:00
有多少水和多少泥。张兰中午发视频一语双关,暗示了S妈的结局!

有多少水和多少泥。张兰中午发视频一语双关,暗示了S妈的结局!

噶噶香的晚餐
2026-02-05 09:14:00
第三国下场后,长和发布公告,中方反制就绪,巴拿马将付出代价

第三国下场后,长和发布公告,中方反制就绪,巴拿马将付出代价

似水流年忘我
2026-02-05 21:47:30
普京免去伊万诺夫职务

普京免去伊万诺夫职务

占豪
2026-02-06 01:21:52
尴尬!大布去除贝克汉姆文身,断绝关系节奏更大!昔年妈宝男彻底不装了...

尴尬!大布去除贝克汉姆文身,断绝关系节奏更大!昔年妈宝男彻底不装了...

英国那些事儿
2026-02-05 23:23:06
2026-02-06 02:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14484文章数 66585关注度
往期回顾 全部

科技要闻

美团买下叮咚买菜,防御还是进击?

头条要闻

爱泼斯坦被指系俄罗斯间谍 克里姆林宫回应

头条要闻

爱泼斯坦被指系俄罗斯间谍 克里姆林宫回应

体育要闻

奇才:我学生……独行侠:成交!

娱乐要闻

微博之夜卷入座位风波!杨幂超话沦陷

财经要闻

中美"只会有好消息" 经济冷暖看房价

汽车要闻

李想为全新L9预热 all in AI造更好的车

态度原创

健康
旅游
数码
教育
军事航空

耳石症分类型,症状大不同

旅游要闻

一卡绑定游客一生“情缘”!“甘孜客服”刘洪:马年对“马背上的民族”意义非凡

数码要闻

航嘉 高能 S140 Pro氮化镓安全快充深度评测

教育要闻

徐汇中学校长:取消中高考是早晚的事,网友:普通的孩子怎么办

军事要闻

54岁荷兰王后以预备役军人身份参军 王室解释原因

无障碍浏览 进入关怀版