网易首页 > 网易号 > 正文 申请入驻

锁定角色,「多主体」也可控!个性化文生图,给你PS般交互体验

0
分享至

新智元报道

编辑:LRST

【新智元导读】LayerComposer革新了个性化图像生成,让用户像在Photoshop里一样自由操控元素位置、大小,解决传统方法交互性与多主体扩展难题,实现更自然、高效的创作,推动个性化生成迈向主动交互新阶段。

大型扩散模型(如 Stable Diffusion)让我们能够从文字生成高保真的图像。但当用户希望「生成我和我的朋友们在不同场景中的照片」时,现有的个性化生成方法(如 DreamBooth、IP-Adapter)仍面临两个根本问题:

  1. 缺乏交互性无法自由控制人物的空间位置、大小与关系。

  2. 难以扩展到多主体每多一个人,内存和算力就线性增长。

LayerComposer的目标,就是要打破这两大限制,让用户可以直观地控制在哪里放置什么样的元素,进行可控且高效的个性化生成。

项目地址:https://snap-research.github.io/layercomposer/

论文地址:https://arxiv.org/abs/2510.20820

「一张由雪人和三位女孩组成的合照」—— 你可以像在Photoshop里一样,放置、缩放、锁定角色,然后让模型完成剩下的工作。

LayerComposer的三大设计

分层画布(Layered Canvas)

每个人物、物体或背景都放在独立的RGBA层中(包含透明通道的图片),这样可以:

  • 避免人物遮挡导致的信息丢失;

  • 通过透明裁剪(Transparent Latent Pruning)显著降低计算量;

  • 支持任意数量的主体组合。

类似于在Photoshop里,每一层就是一个独立的角色,随意移动、缩放或删除。

锁定机制(Locking Mechanism)

每一层都可以选择「锁定(Lock)」或「解锁(Unlock)」:

  • 锁定层 → 模型必须高保真地保留该层,仅允许细微的光照调整;

  • 解锁层 → 模型可以根据文字描述自由生成姿态、表情或交互。

你可以锁定背景,让人物随提示变化,也可以锁定一个角色姿势,生成其他人围绕他互动。

这种「可选保真度」让 LayerComposer 比以往方法更接近人类的创作流程。

模型–数据共设计(Model–Data Co-Design)

LayerComposer的锁定机制无需修改网络结构。

研究人员通过「位置嵌入」(positional embedding)与「数据采样策略」共同实现:

  • 锁定层共享相同的空间编码;

  • 解锁层使用独立的编码,以避免重叠混淆。

这种轻量化设计,可以在现有扩散模型(如 FLUX Kontext)上直接适配。

实验结果

多主体、高保真、强可控

四人场景(4P)

在四人同框的任务中,LayerComposer的生成质量显著优于 FLUX Kontext、Qwen-Image-Edit、Gemini 2.5 Flash Image等模型,能在存在遮挡的情况下保持人物结构完整,并忠实地还原每个人物。

双人交互(2P)

在需要两人互动的场景(如「一起吃饭」、「握手」)中,LayerComposer能生成自然的姿态与空间关系,不再出现「复制粘贴」或「少人」的问题,用户偏好达到83.3%,远超OmniGen2等最新模型。

单人个性化(1P)

即使只生成单人肖像,LayerComposer仍展示出优越的表现:

在保持身份一致的同时,能灵活生成不同表情与动作(如笑、闭眼、吃饭等),避免「贴脸」效果。

消融实验

锁定与分层的作用

锁定机制(Locking Mechanism)

为了展示锁定机制的效果,研究人员逐步对每一层输入进行锁定。

被锁定的层会保留该人物的姿态——模型只会在此基础上进行「外延绘制」(outpainting)和轻微的细节光照调整。

需要强调的是,这与「掩膜推理(masked inference)」不同:在掩膜推理中,被遮挡的区域完全不会被更新。

另外,在实验设置中,未锁定的层会根据已锁定的内容和整体场景上下文灵活调整,从而实现自然的协调与融合。

分层画布(Layered Canvas)

如果不使用分层画布,模型就只能在训练中以单张拼贴图像(collage)作为条件输入,如图中 「Inputs」 一列所示。

可以看到,在「w/o layered canvas」(无分层画布)的结果中,由于拼贴重叠造成的遮挡,会导致信息缺失。

例如,左边女子圣诞帽上的球被遮挡后在生成结果中完全消失。

相比之下,提出的分层画布能够显式地处理遮挡问题,从而避免此类伪影(artifacts)和细节丢失。

通过在Layered Cavas中调整每一个subject在各自layer的位置,LayerComposer支持直观的空间布局调控。

总结

LayerComposer让多主体个性化生成从「被动输入」迈向「主动创作」。

用户不再只是输入文本,而是真正参与到构图过程中。

从DreamBooth到LayerComposer,个性化生成,终于有了交互的灵魂。

未来展望

尽管LayerComposer带来了交互式个性化的新范式,但仍存在一些挑战。

在需要「复杂物理推理」(如「坐在输入图片椅子上」)的场景中可能失败。

未来,研究人员计划让LayerComposer支持更强的理解能力和更多模态,以促进人机协同创作

  • 结合大语言与视觉模型(VLMs)的理解能力,实现语义级别的自动布局与构图建议;

  • 支持视频级别的分层个性化,让交互式创作从静态图像走向动态场景;

  • 探索生成与编辑的统一界面,让用户在同一画布上无缝地修改、添加与再生成内容。

这种以「分层画布」为核心的交互式个性化范式,将成为下一代生成式创作工具的重要方向。

参考资料:

https://arxiv.org/abs/2510.20820

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比机票还贵的机建燃油,到底是谁发明的?

比机票还贵的机建燃油,到底是谁发明的?

差评XPIN
2026-06-26 01:55:24
杨紫首封视后、《太平年》成赢家,这届白玉兰奖不打安全牌了?

杨紫首封视后、《太平年》成赢家,这届白玉兰奖不打安全牌了?

娱乐独角兽
2026-06-26 23:52:46
母亲和情夫一起10年,父亲默不作声纵容,却在他50岁生日那天反击

母亲和情夫一起10年,父亲默不作声纵容,却在他50岁生日那天反击

白云故事
2025-04-24 10:35:08
晚饭七分饱被推翻了?医生:过了65岁,吃饭尽量要做到这5点

晚饭七分饱被推翻了?医生:过了65岁,吃饭尽量要做到这5点

健康科普365
2026-06-14 18:10:08
晚清巡抚邓尔恒,在赴任途中被害,为何当年朝廷对此却束手无策?

晚清巡抚邓尔恒,在赴任途中被害,为何当年朝廷对此却束手无策?

云居历史
2026-06-27 16:47:37
白玉兰奖上最耀眼的4位明星,个个拿奖,实至名归,皆被观众喜爱

白玉兰奖上最耀眼的4位明星,个个拿奖,实至名归,皆被观众喜爱

星宿影视鸭
2026-06-27 17:03:17
世界杯最离谱场面:进球后痛哭,以为出局了,其实晋级了

世界杯最离谱场面:进球后痛哭,以为出局了,其实晋级了

甜度百分百21
2026-06-27 01:29:07
新娘索要8万8下车费,婆婆笑着转账,婚宴致辞时婆婆:我说一件事

新娘索要8万8下车费,婆婆笑着转账,婚宴致辞时婆婆:我说一件事

千秋文化
2026-06-18 20:16:23
国际金价、银价,上涨!

国际金价、银价,上涨!

大象新闻
2026-06-27 16:34:08
向佐自嘲:我是三个二代,富二代、星二代。易立竞问他:还有一个呢?他说:不能说,然后指了指黑色皮鞋

向佐自嘲:我是三个二代,富二代、星二代。易立竞问他:还有一个呢?他说:不能说,然后指了指黑色皮鞋

美芽
2026-06-27 12:49:41
在江苏,多少分能上江警?

在江苏,多少分能上江警?

南京择校
2026-06-27 12:00:16
透支寿命的13个饮食坏习惯!你占了几个?

透支寿命的13个饮食坏习惯!你占了几个?

猫大夫医学科普
2026-06-26 06:47:27
3场仅积2分,乌拉圭确定无缘8个成绩最好的小组第3出局

3场仅积2分,乌拉圭确定无缘8个成绩最好的小组第3出局

懂球帝
2026-06-27 10:05:41
鲍尔试训森林狼时表现不理想,因称退役后想当美国总统

鲍尔试训森林狼时表现不理想,因称退役后想当美国总统

林子说事
2026-06-27 03:42:48
老人微信77万条未读,家属:根本删不完!律师解读

老人微信77万条未读,家属:根本删不完!律师解读

21世纪经济报道
2026-06-27 16:08:21
在德国待了16年,先后有过5个女人,发现德国女人有一个共同特点

在德国待了16年,先后有过5个女人,发现德国女人有一个共同特点

千秋文化
2026-06-25 20:07:45
汪精卫建立的“汪伪政府”到底多大?当时国际上有哪些国家承认?

汪精卫建立的“汪伪政府”到底多大?当时国际上有哪些国家承认?

人生录
2026-06-25 18:14:51
炸了!德国队输球后内讧,纳格尔斯曼怒骂三大核心:胡说八道!

炸了!德国队输球后内讧,纳格尔斯曼怒骂三大核心:胡说八道!

奶盖熊本熊
2026-06-27 05:14:38
当年买了泰坦尼克号票的8位顶级富豪,为何开船前,却都没上船?

当年买了泰坦尼克号票的8位顶级富豪,为何开船前,却都没上船?

云霄纪史观
2026-06-21 23:44:07
佛得角 0-0沙特首次参加世界杯,以小组第二的成绩闯入淘汰赛

佛得角 0-0沙特首次参加世界杯,以小组第二的成绩闯入淘汰赛

懂球帝
2026-06-27 10:05:41
2026-06-27 18:07:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15547文章数 66938关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

美媒对比亮了:世界各国都在争抢石油 中国仍接近满仓

头条要闻

美媒对比亮了:世界各国都在争抢石油 中国仍接近满仓

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

首搭华为乾崑智驾ADS5 启境GT7上市售价20.99万-32.99万元

态度原创

本地
健康
手机
游戏
公开课

本地新闻

世界杯球迷节:比球赛更好玩的派对

“无糖汤圆”是否隐藏着健康陷阱?

手机要闻

业内无敌手!荣耀直板机要上12000mAh巨量电池

《禁闭求生2》主创羡慕《博德之门3》的EA效果

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版