网易首页 > 网易号 > 正文 申请入驻

小红书智创AIGC团队提出布局控制生成新算法InstanceAssemble

0
分享至

当下的文本生成图像扩散模型取得了长足进展,为图像生成引入布局控制(Layout-to-Image, L2I)成为可能。

然而,现有布局到图像生成方法在复杂场景下表现仍不理想:一方面,如何精确对齐给定布局并同时保持高画质是巨大挑战;另一方面,在扩散生成的逐步去噪过程中确保每个目标的位置与语义属性不偏离也极为困难。此外,布局控制往往需要支持多模态条件(如文本、参考图等信息),这进一步增加了技术复杂度。

现有方案各有不足:无训练方法虽然无需改动基础模型,但在复杂布局下效果显著下降,且对超参数敏感、推理速度慢;有训练方法通过额外模块注入布局信息,但往往引入海量参数,训练代价高昂。评估方面,传统指标也存在偏差,难以准确衡量布局对齐程度。

这些挑战和不足表明,实现稳健且高效的布局可控图像生成亟需新的算法创新。

为此,小红书智能创作 AIGC 团队提出了 InstanceAssemble 框架,从架构和评测上全面应对上述难题,实现了在复杂布局条件下的精确图像生成。

  • 论文链接:https://arxiv.org/abs/2509.16691
  • 项目主页:https://github.com/FireRedTeam/InstanceAssemble

方法

InstanceAssemble 方法在架构上引入了级联结构,将全局文本提示与实例级布局条件分阶段处理。

具体而言,模型先利用原有 DiT 获取全局图像背景和整体语境,再通过新设计的实例组装注意力模块(Assemble-Attn)逐个整合各布局实例信息,实现局部精细控制。这样的级联架构确保了全局质量与局部对齐两方面的兼顾,避免了同时处理所有实例可能产生的冲突。在实例组装注意力中,每个目标实例的注意力计算仅在其对应图像区域内进行,避免不同实例间互相干扰。

这种独立注意力机制使模型能够有效处理重叠或小物体等复杂布局情形,同时通过权重融合各实例特征,保持画面整体协调。

此外,InstanceAssemble 使用LoRA 模块进行轻量级模型适配。通过在基础扩散模型中注入少量 LoRA 参数(仅增加基础模型的 3% 的参数量左右),实现了对现有 DiT-based 文本生成图像模型的灵活扩展。LoRA 的加入使模型在保留原有生成能力的同时,能够高效地学习布局控制,不需要大规模重训整个模型,并具备良好的兼容性(例如可方便地加载不同风格的 LoRA 权重)。

最后,该方法还支持多模态的布局输入:每个实例既可由文本描述指定,也能利用额外的图像信息(如参考图片、深度图、边缘图等)来丰富内容表示。

效果与对比

为了全面评估模型在复杂布局下的表现,作者构建了全新的基准数据集 DenseLayout,包含 5000 张图像和约 90000 个实例(平均每图 18 个目标),专门用于测试在高密度布局场景下的生成效果。同时提出了LGS (Layout Grounding Score) 作为评测新指标,将空间精度和语义一致性相结合,更准确地衡量生成图像对布局指令的满足程度。其中空间精度通过检测目标位置与给定边界框的 IoU 计算得到,语义一致性则利用视觉问答模型判断颜色、材质、形状等属性匹配度。

在上述严苛评测下,InstanceAssemble 展现了卓越的性能。实验结果表明,该方法在 DenseLayout 基准上的布局对齐指标 (mIoU) 显著优于现有方法,综合的 LGS 分数处于当前最优水平,同时全局图像质量保持良好。特别是在稠密布局场景下(远超训练时≤10 个实例的密度),InstanceAssemble 依然能够精确地将每个目标生成在指定位置,并正确呈现其语义属性,验证了模型的强泛化能力。

而对比方法在相同条件下往往出现漏生成、位置紊乱或风格不一致的问题,定性结果同样佐证了这一点。

此外,得益于 LoRA 轻量架构,InstanceAssemble 相较其他有训练方法在参数开销和推理耗时上更具优势,在效率与效果之间取得了良好平衡。

应用

InstanceAssemble 的设计在兼顾性能的同时,非常注重兼容扩展性。由于采用 LoRA 作为插件式适配,研究者和从业者可以方便地为模型引入不同风格迁移能力。例如,将经过特定画风微调的 LoRA 模块(如油画风格、3d 风格等)加载到 InstanceAssemble 中,模型即可在保持布局精准对齐的前提下,生成带有对应风格的图像。

这种对多种风格 LoRA 的高兼容性使得模型能够跨越不同域,进行跨风格、跨领域的布局图像创作。

综上所述,InstanceAssemble 通过其独特的架构和模块设计,实现了精细布局控制与高质量生成的有机结合,不仅在学术基准上取得领先表现,也展现出广阔的应用潜力。未来,随着更多样的 LoRA 模块和多模态信息融入,InstanceAssemble 可进一步拓展至智能排版、虚拟内容创作、数据增强等诸多领域,推动布局图像生成的发展和落地应用。

最后,小红书智能创作团队正在火热招人中!小红书智能创作团队以 AI 及多媒体技术为核心,主要负责小红书发布侧的产品研发,并向公司内部各业务线(社区守护、社交、直播、电商、商业化广告)提供业界领先的内容创作、内容理解、互动体验等技术能力及解决方案。团队技术方向涵盖多模态 AIGC 、计算机视觉、语言语音、编辑渲染、算法工程等。

本篇工作着手于图像可控生成,主要应用在小红书文字发布等功能的图像素材生产中。

团队最近两年累积发表了 30 余篇相关领域顶会 or 顶刊论文,在技术上有 InstantID、Storymaker、FireRedTTS、FireRedASR 等知名技术开源代表作,在业务上也做出了语音评论、文字功能等爆款功能。

长期欢迎优秀校招、社招、实习生的加入,Let‘s work together!有意向的同学请联系 sunshuang1@xiaohongshu.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Lisa在内娱已无账号,甚至看她疯马秀表演的人都凉了,她已没得洗

Lisa在内娱已无账号,甚至看她疯马秀表演的人都凉了,她已没得洗

芊手若
2026-07-04 08:34:50
比亚迪CEO警告:新款电机一旦投放市场,汽车行业恐迎全面洗牌

比亚迪CEO警告:新款电机一旦投放市场,汽车行业恐迎全面洗牌

梦史
2026-07-03 23:42:26
《盗火线2》敲定双男主!迪卡普里奥搭档贝尔年内开机

《盗火线2》敲定双男主!迪卡普里奥搭档贝尔年内开机

热搜摘要官
2026-07-04 01:01:34
终于还是走了!焦泊乔交易敲定,北京花七位数拿下当红国手内线,这笔买卖谁亏谁赚?

终于还是走了!焦泊乔交易敲定,北京花七位数拿下当红国手内线,这笔买卖谁亏谁赚?

慢歌轻步谣
2026-07-04 10:15:24
恭喜!47岁李晨官宣喜讯,赠豪车,公开晒结婚照,网友:新婚快乐

恭喜!47岁李晨官宣喜讯,赠豪车,公开晒结婚照,网友:新婚快乐

素衣读史
2026-07-05 05:05:15
三连胜全是假象!死里逃生的这一刻,阿根廷的世界杯才算真正开始

三连胜全是假象!死里逃生的这一刻,阿根廷的世界杯才算真正开始

桑启红原
2026-07-05 07:26:02
为什么日本变得如此嚣张?因为一旦中日爆发冲突,日本就赚到了

为什么日本变得如此嚣张?因为一旦中日爆发冲突,日本就赚到了

照亮你的前行之路
2026-07-04 21:31:40
斯图里奇:如果美国人看了佛得角还是无法爱上足球,那真没辙了

斯图里奇:如果美国人看了佛得角还是无法爱上足球,那真没辙了

云隐南山
2026-07-04 17:14:05
孩子不会感激你拼命赚钱给他最好的物质条件,不会记得你带他见过多大的世面,唯独两样东西会像烙印一样跟着他走完这辈子

孩子不会感激你拼命赚钱给他最好的物质条件,不会记得你带他见过多大的世面,唯独两样东西会像烙印一样跟着他走完这辈子

心理观察局
2026-07-05 06:28:21
触碰中方红线!乌克兰大肆输出无人机技术,玩火必将付出代价

触碰中方红线!乌克兰大肆输出无人机技术,玩火必将付出代价

果妈聊娱乐
2026-07-04 21:57:01
中超最新积分榜:第2到第5仅差3分,国安第6,天津津门虎摆脱垫底

中超最新积分榜:第2到第5仅差3分,国安第6,天津津门虎摆脱垫底

中超伪球迷
2026-07-04 22:03:45
斯卡洛尼:进第三球时希望比赛就此结束,很遗憾让小蜘蛛替补

斯卡洛尼:进第三球时希望比赛就此结束,很遗憾让小蜘蛛替补

宝哥精彩赛事
2026-07-04 17:39:54
重磅! 境外投资最严新规正式实施, 华人入籍澳洲或拿PR, 国内资产可全部合法转移! 一生一次, 必须满足这条件

重磅! 境外投资最严新规正式实施, 华人入籍澳洲或拿PR, 国内资产可全部合法转移! 一生一次, 必须满足这条件

澳微Daily
2026-07-04 15:17:02
4日凌晨大满贯:女单4强赛诞生,陈幸同零封对手,孙颖莎压力大

4日凌晨大满贯:女单4强赛诞生,陈幸同零封对手,孙颖莎压力大

锐评利物浦
2026-07-04 09:47:18
一周举报20个用空调的邻居,欧洲“环保卫士”开始全民监控!

一周举报20个用空调的邻居,欧洲“环保卫士”开始全民监控!

新欧洲
2026-07-03 21:18:21
1995年看露天电影时,邻家嫂子偷偷摸了一下我的手,示意我跟她走

1995年看露天电影时,邻家嫂子偷偷摸了一下我的手,示意我跟她走

千秋文化
2026-07-02 19:32:08
57年臧克家改动《沁园春·雪》中一字,毛主席沉思片刻:按你的改

57年臧克家改动《沁园春·雪》中一字,毛主席沉思片刻:按你的改

芊芊子吟
2026-07-05 05:55:08
WTT大满贯战报:被打一波7-0,国乒仍击败了世界第2,夺国乒第2金

WTT大满贯战报:被打一波7-0,国乒仍击败了世界第2,夺国乒第2金

求球不落谛
2026-07-05 07:20:36
“60岁后按月领取50万”,男子缴30年保费仅领一个月便遭拒

“60岁后按月领取50万”,男子缴30年保费仅领一个月便遭拒

观察者网
2026-07-04 23:09:08
中俄印三角瓦解?中国另起炉灶,新大三角战略将改写全球格局?

中俄印三角瓦解?中国另起炉灶,新大三角战略将改写全球格局?

何氽简史
2026-06-17 18:46:55
2026-07-05 09:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13429文章数 142687关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

浙江商人用23年从身无分文穷小子 变佛得角总理座上宾

头条要闻

浙江商人用23年从身无分文穷小子 变佛得角总理座上宾

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

白鹿打戏抠图惹非议 连累丞磊遭扒皮

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

教育
数码
旅游
本地
公开课

教育要闻

河南高考历史类420分,想学动物医学和中医针灸按摩,这样报志愿

数码要闻

历史首次!联想美国在售笔记本用上长江存储SSD

旅游要闻

轻旅居成文旅新时尚,上海参事:一日外滩打卡,能否变“一周栖居”?

本地新闻

国内足球之旅?这座小城给你高分答案

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版