网易首页 > 网易号 > 正文 申请入驻

高保真、多控制集成于「统一画布」,组合式图像生成新范式!

0
分享至


新智元报道

编辑:LRST

【新智元导读】Canvas-to-Image 是一种新型图像生成框架,将多种控制方式(如身份、姿态、空间布局)整合到一个统一画布中,用户可通过直观操作生成高保真、多控制的图像。它简化了创作流程,让用户在单一界面完成复杂创作,为AI创作工具提供了新范式。

大型扩散模型虽然能生成高质量图像,但在处理复杂的组合场景时仍存在挑战。现有方法往往有如下缺点:

  1. 控制单一且分散身份控制、姿态控制、空间布局需要分别处理,难以协同。

  2. 交互性差用户只能通过文本描述,无法直观地控制生成过程。

最新研究Canvas-to-Image在交互式可控生成方面提供了一种新的范式:用户可以在统一画布上直接叠加多种视觉控制提示,包括放置人物参考图以指定身份外观、绘制骨架来约束姿态结构,以及通过边界框指示物体或元素的大致空间位置。

模型在推理时会将这些异构线索共同解析,在遵循文本描述的同时,实现复合控制条件下的协调生成


项目地址:https://snap-research.github.io/canvas-to-image/

论文地址:https://arxiv.org/abs/2511.21691

用户能够在画布上任意位置摆放参考人物图像,在其旁边放置特定宠物,并通过边界框指定帽子、棕榈树等元素的大体位置。

随后,模型会综合文本指令(例如「女孩在海边轻拍她的狗」)与画布中的多模态提示,生成符合语义逻辑与视觉构图的照片级图像。


这种统一画布带来的灵活性使编辑过程更加直观:将小狗替换为猫咪手办、更换棕榈树为遮阳伞、调整人物姿态等修改,只需对画布进行对应的局部替换或几何调整,无需重新构建多控制流程。

Canvas-to-Image能够在不破坏整体结构一致性的前提下,响应这些局部修改,展现出高效而自然的多控制可编辑性。

Canvas-to-Image的目标,就是要将这些异构的控制信号整合到一个统一的画布界面中,让用户直观地创作可控的个性化内容。

Canvas-to-Image的工作示例

核心技术

Canvas-to-Image的设计理念


多任务画布(Multi-Task Canvas)

Canvas-to-Image 的核心是一个统一的 RGB 画布,能够将多种异构控制信号整合到单一表示中,Canvas-to-Image训练过程中的控制信号有:

  • 身份参考:直接在画布上放置人物的参考图像;

  • 姿态骨架:绘制人体骨架来控制姿态;

  • 边界框:用框定义物体和人物的位置。

所有这些信息都被编码在同一个画布图像中,模型利用VLM- Diffusion架构(基于Qwen-Image-Edit) 可以直接解读并进行视觉-空间推理。

单控制训练,多控制推理

  • 训练阶段为简化训练,Canvas-to-Image在训练过程中,每个样本随机采用一种控制模态(空间、姿态或边界框)这意味着,模型在训练过程中从未见过多种控制的组合;

  • 推理阶段用户可以自由组合多种控制方式,实现复杂的多控制生成。

在训练时教会模型单独理解「身份」、「姿态」和「位置」,但推理时它却能自然地将这三者融合在一起。

这种「涌现能力」让模型在从未见过的组合控制下,也能生成高质量的结果。 这是 Canvas-to-Image 设计的精妙之处,在保证推理阶段的灵活性的同时,极大地简化了训练的复杂度。

实验结果

多控制、高保真、强组合

多控制组合(Multi-Control Composition)

Canvas-to-Image能够同时处理身份、姿态和布局框,而基线方法往往会失败。


在复杂的多控制场景中,Canvas-to-Image能:

  • 准确执行姿态和位置约束;

  • 保持人物身份特征稳定;

  • 在多种约束共同存在时生成结构清晰、语义一致的图像。


身份+物体组合

Canvas-to-Image支持将特定人物与物体在各种场景中组合。与基线方法相比,Canvas-to-Image更好地保持了人物和物体的一致性。


背景人物组合


在输入背景图的前提下,Canvas-to-Image能够依据参考图粘贴或边界框标注,将新的主体自然植入场景。 借助统一画布的表达方式,模型能够生成几何关系合理、光照匹配、语义一致的合成画面,显著提升人物或物体的场景融合质量。

消融研究

研究人员系统地测试了当逐步添加控制时模型的表现:


  • 仅身份控制:模型能生成人物,但不遵循姿态控制,也不理解位置框;

  • +姿态控制:模型学会同时控制身份和姿态,在位置框的表现上也变得更鲁棒,即使目前模型还没有在位置框上训练。这体现了多任务之间的协同性质。

  • +空间布局:模型能完全控制身份、姿态和位置。

关键发现:虽然训练时使用单任务画布,但模型自然学会了在推理时组合多种控制——这种涌现能力验证了设计理念。

总结

Canvas-to-Image将组合式生成从「分散控制」推向「统一画布」。

用户不再需要在多个控制模块间切换,而是在单一界面中完成所有创作,以「统一画布」为核心的多模态控制范式,将成为下一代AI创作工具的重要基础。

参考资料:

https://snap-research.github.io/canvas-to-image/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
勇士真梭哈了?4首轮3互换!为了库里全不要了!

勇士真梭哈了?4首轮3互换!为了库里全不要了!

篮球盛世
2026-01-31 15:01:10
澳媒:中国总被描述为全球第二大经济体,这并非事实

澳媒:中国总被描述为全球第二大经济体,这并非事实

南宗历史
2025-12-13 23:41:38
纪实:女子强迫情夫老公三人同床,逼丈夫看两人苟合,结局酿惨案

纪实:女子强迫情夫老公三人同床,逼丈夫看两人苟合,结局酿惨案

谈史论天地
2026-01-23 10:04:14
1923年,戴笠在表弟家睡地铺,飞黄腾达后的处置方式让人大跌眼镜

1923年,戴笠在表弟家睡地铺,飞黄腾达后的处置方式让人大跌眼镜

磊子讲史
2026-01-23 15:21:12
钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

户外钓鱼哥阿旱
2026-02-01 01:34:55
绝不姑息!!乔治服用违禁品,被禁赛25场!!该来的还是来了,库里受伤!!

绝不姑息!!乔治服用违禁品,被禁赛25场!!该来的还是来了,库里受伤!!

生活新鲜市
2026-02-01 11:16:03
郭凤莲感叹:要是按照陈永贵书记的设想继续发展,大寨会走向何处

郭凤莲感叹:要是按照陈永贵书记的设想继续发展,大寨会走向何处

悄悄史话
2026-01-26 18:00:42
英超:曼联vs富勒姆 赛事前瞻

英超:曼联vs富勒姆 赛事前瞻

白国华
2026-02-01 12:18:47
突击检查全国武器库!一定要严防被掉包,甲午战争悲剧绝不能重演

突击检查全国武器库!一定要严防被掉包,甲午战争悲剧绝不能重演

爱吃醋的猫咪
2026-01-27 20:31:00
军权刚到手,委代总统就收命令,立即驱逐中方外交官,是真是假?

军权刚到手,委代总统就收命令,立即驱逐中方外交官,是真是假?

霁寒飘雪
2026-02-01 11:33:02
大哥还是大哥!各大品牌因为奔驰140岁生日,团结在了一起

大哥还是大哥!各大品牌因为奔驰140岁生日,团结在了一起

AutoBusiness
2026-01-30 16:06:31
导弹还没等点火,几万公里外的屏幕上,红点就亮了“目标已锁定”

导弹还没等点火,几万公里外的屏幕上,红点就亮了“目标已锁定”

南权先生
2026-01-28 15:54:10
联盟重磅官宣!乔治被禁赛25场:球员本人已紧急发布道歉声明

联盟重磅官宣!乔治被禁赛25场:球员本人已紧急发布道歉声明

移动挡拆
2026-02-01 02:01:54
CCTV5播德约科维奇VS阿尔卡拉斯,开球时间确定,谁能夺澳网冠军

CCTV5播德约科维奇VS阿尔卡拉斯,开球时间确定,谁能夺澳网冠军

体育大学僧
2026-01-31 11:19:10
牢A这波输出真是细思极恐!章莹颖案都过去6年了,凶手一点不透露

牢A这波输出真是细思极恐!章莹颖案都过去6年了,凶手一点不透露

静若梨花
2026-01-27 15:33:14
加拿大总理卡尼也没想到,英国首相访华,自己竟因一举动口碑暴涨

加拿大总理卡尼也没想到,英国首相访华,自己竟因一举动口碑暴涨

何嗀爱捕渔
2026-01-31 07:30:19
145国建新群,中国有望成为总部,联合国秘书长发声,催美国还钱

145国建新群,中国有望成为总部,联合国秘书长发声,催美国还钱

牛锅巴小钒
2026-02-01 10:41:04
陈冠希一家洛杉矶参加婚礼,留小胡子像赵本山,女儿更像秦舒培!

陈冠希一家洛杉矶参加婚礼,留小胡子像赵本山,女儿更像秦舒培!

明星私服穿搭daily
2026-01-19 07:30:49
Lady Gaga东京演唱会上突然暂停表演抨击美移民局:想到那些受害者,我的心就隐隐作痛

Lady Gaga东京演唱会上突然暂停表演抨击美移民局:想到那些受害者,我的心就隐隐作痛

环球网资讯
2026-01-31 15:03:09
回顾:2005年梁海玲器官被切后惨死豪宅,有人透露:她知道的太多

回顾:2005年梁海玲器官被切后惨死豪宅,有人透露:她知道的太多

历来都很现实
2024-09-24 23:58:16
2026-02-01 12:39:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14452文章数 66555关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

金价大跳水后 男子斥资20多万元抄底买入200克

头条要闻

金价大跳水后 男子斥资20多万元抄底买入200克

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

新款宾利欧陆GT S/GTC S官图发布 V8混动加持

态度原创

数码
游戏
旅游
家居
军事航空

数码要闻

博西家电重构新年俗,让团圆不再被家务“捆绑”

《金庸群侠传》首爆贺岁PV(含战斗演示)

旅游要闻

韩国民众赴华旅游热度持续升温

家居要闻

蓝调空舍 自由与个性

军事要闻

伊朗民众:伊朗不会屈服于美国霸权

无障碍浏览 进入关怀版