网易首页 > 网易号 > 正文 申请入驻

VisualCloze 开源上线!统一图像生成的通用范式

0
分享至

始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel社区上线,价格实惠,灵活方便,支持在线微调训练模型,及和,并。

近年来,扩散模型在图像生成领域掀起了技术革新浪潮,其优异的生成质量和可控性推动了图像编辑、风格迁移、图像修复等众多视觉任务的快速发展。

然而,尽管生成模型能力不断增强,当前主流图像生成方法仍普遍采用“一个任务对应一个模型”的设计范式。随着任务需求的增加,该范式在实际应用中具有明显的局限性。

这种任务特定模型的设计,意味着每新增一种任务需求都可能需要重新构建训练数据、设计架构、训练模型,成本高昂,维护复杂,扩展性差。其次,当前部分模型尝试通过语言指令定义任务目标,但由于视觉任务的复杂性以及模态间的语义鸿沟,语言指导往往存在理解歧义,难以精准传达任务目标,从而影响生成效果与模型的泛化能力。

并且由于视觉任务天然具有高度异质性,各任务之间数据分布割裂、关联较弱,使得现有模型在训练过程中难以有效学习通用知识,进一步限制了其泛化能力。

为应对上述挑战,研究团队提出全新一代图像生成框架-VisualCloze。它通过视觉上下文学习(Visual In-Context Learning)使模型理解任务意图,并完成精准生成。VisualCloze具有高度扩展性和强泛化性,支持多种视觉生成任务,甚至可以泛化到许多训练时完全没有见过的任务。现已上线始智AI-wisemodel开源社区,欢迎大家前去体验。

模型地址

https://wisemodel.cn/organization/VisualCloze

01.

核心亮点:解锁视觉生成新范式

得益于视觉上下文学习(Visual In-Context Learning)机制,VisualCloze 展现出强大的多任务学习能力与泛化能力,在统一模型框架下实现多任务处理与推理。

广泛的任务支持

无需切换模型,VisualCloze 即可灵活支持图像修复、编辑、风格迁移、条件生成等多种主流视觉任务,覆盖日常应用的主要场景。

新任务泛化能力

通过少量示例图的视觉示范,VisuaCloze能够理解任务意图,快速适配训练中未见过的新任务,显著提升适应性与灵活性。

任务统一处理

除了独立支持特定单一任务外,VisualCloze 还能通过视觉上下文学习将多个任务融合为一步完成,实现任务链的统一推理,提升多任务组合链路的处理效率

反向生成能力

在无需额外训练的前提下,模型还可执行逆向任务,即从目标图像中反推出条件输入,如恢复其风格、布局、语义信息。

02.

核心技术点:统一模型,灵活泛化

VisualCloze实现了一模型通多任务,其核心技术点如下:

视觉上下文学习:摆脱语言束缚

不同于以往依赖文字描述的任务提示方式,VisualCloze 使用视觉上下文学习的方式理解任务需求。仅需提供若干输入输出图像对作为任务示例,模型即可理解用户意图并生成目标图像。这种方式天然适合视觉任务,极大减少了任务歧义。

统一生成范式:兼容现有强基座模型

为了让模型通过视觉上下文学习看图识意,我们将包括上下文任务示例图像在内的全部图像以及条件图像全部以网格布局拼接为一张图像。作为输入,让模型从这张拼接图像中观察示例示例,从而填充出缺失的目标区域。

同时,这一设计让VisualCloze的目标与图像补全任务高度一致,因此我们可以直接在SOTA图像补全模型如FLUX.1-Fill-dev的基础上构建VisualCloze,而无需对模型结构做任何修改,充分继承基础模型的强大生成能力。

此外,不同图像常常具有不一致的尺寸或宽高比,这给拼接带来了极大挑战。直接裁剪或拉伸不仅影响图像质量,还可能破坏图像的空间语义,进而影响任务理解。

为解决这一问题,VisualCloze借助了FLUX.1-Fill-dev中引入的三维旋转位置编码(3D-RoPE)机制,通过在时序维度拼接任务示例和条件图像,而非强行拼成整齐的网格图像,从而自然地对不同尺寸的图像进行对齐与融合。

Graph200k图结构数据集:密集任务关联

在自然语言处理领域,众多任务之间存在大量交集,例如翻译、问答和文本摘要等往往可以共享语义表示,从而实现有效的跨任务迁移学习。然而,在视觉生成领域,不同任务之间差异巨大,天然呈现出高度异质性与任务割裂,这不利于模型学习可迁移的通用知识。

为此,我们提出了全新的图结构多任务数据集 Graph200K。该数据集构建于 Subjects200K 基础之上,为每张图像提供了五大元任务的多重标注,包括:条件生成,图像修复,图像编辑,IP保留,以及风格迁移。

这些元任务之间可灵活组合,支持构建出多种具有复杂条件依赖的复合任务,极大提升了任务分布的紧密度与语义可转移性。

例如,如下图所示,我们可以将主体提取 + 布局控制 + 风格迁移组合为一个复合任务,生成同时保留目标主体、遵循特定布局、并呈现指定风格的个性化艺术图像。这种设计使得模型在训练过程中能够感知并学习任务之间的内在关联,有效提升泛化能力与多任务协同能力。

03.

wisemodel在线体验

W isemodel社区支持 用户通过镜像体验模型在线服务 ,进入社区应用模块,点击 VisualCloze—部署在线体验即可。

编辑:成蕴年

----- END -----

wisemodel相关:

系统升级:

大赛报名:

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态。

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看更多

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2月豪华大型轿车终端销量:宝马7系领跑 奥迪A8L月销300辆

2月豪华大型轿车终端销量:宝马7系领跑 奥迪A8L月销300辆

华庭讲美食
2026-03-23 04:42:23
意外!他是邵佳一接手国足后第一个提拔的后腰黑马,能力获得认可

意外!他是邵佳一接手国足后第一个提拔的后腰黑马,能力获得认可

振刚说足球
2026-03-22 15:44:56
年代剧《冬去春来》首播爆了!收视口碑双丰收,郑晓龙高满堂真牛

年代剧《冬去春来》首播爆了!收视口碑双丰收,郑晓龙高满堂真牛

阿讯说天下
2026-03-22 23:47:36
神坛彻底崩塌!李莉被中情局盯上的谎言,该彻底戳穿了

神坛彻底崩塌!李莉被中情局盯上的谎言,该彻底戳穿了

老马拉车莫少装
2026-03-01 17:23:52
深圳又一公园火了,不输西湖,地铁直达能从早待到晚

深圳又一公园火了,不输西湖,地铁直达能从早待到晚

苗苗情感说
2026-03-22 16:36:38
深度拆解:美国为什么始终不敢军事打击中国?

深度拆解:美国为什么始终不敢军事打击中国?

纪史行者
2026-03-15 10:27:54
祝贺!《夜王》港澳票房破亿!郑秀文愿穿护士服答谢粉丝

祝贺!《夜王》港澳票房破亿!郑秀文愿穿护士服答谢粉丝

TVB剧评社
2026-03-22 22:51:43
玄学提醒:如果经常开车就在车里备些硬币,关键时候可以避煞

玄学提醒:如果经常开车就在车里备些硬币,关键时候可以避煞

沙雕小琳琳
2026-03-22 19:24:53
英国专家称特朗普目光短浅,无法遏制中国发展,不是中国的对手

英国专家称特朗普目光短浅,无法遏制中国发展,不是中国的对手

小兰聊历史
2026-03-23 05:13:32
李祥波主动致歉并无任何地域歧视,鲁吐布拉回应言语边界展格局!

李祥波主动致歉并无任何地域歧视,鲁吐布拉回应言语边界展格局!

篮球资讯达人
2026-03-22 20:00:16
一种玄学提醒:经常睡觉的房间,尽量别放这三样东西,并非迷信

一种玄学提醒:经常睡觉的房间,尽量别放这三样东西,并非迷信

洞读君
2026-03-16 10:36:55
借50万给保姆彻底失联,7年后我刚退休,一条转账通知令我发抖

借50万给保姆彻底失联,7年后我刚退休,一条转账通知令我发抖

奶茶麦子
2026-03-22 12:41:13
章子怡主动拥抱却被“悬空手”婉拒!这分寸感才是真高级

章子怡主动拥抱却被“悬空手”婉拒!这分寸感才是真高级

TVB的四小花
2026-03-22 20:12:18
伊朗越打越自信,自曝导弹库存,对美国的恐惧已经“不复存在”

伊朗越打越自信,自曝导弹库存,对美国的恐惧已经“不复存在”

梦史
2026-03-23 04:36:14
真主党精锐指挥官被斩首

真主党精锐指挥官被斩首

桂系007
2026-03-22 23:47:51
怀孕女被问"孩子谁的",一句话让全场沉默:我只想给孩子找个家!

怀孕女被问"孩子谁的",一句话让全场沉默:我只想给孩子找个家!

少点意思
2026-03-22 16:44:39
中国移动正式通知:全国统一执行: 4月30日起

中国移动正式通知:全国统一执行: 4月30日起

Thurman在昆明
2026-03-23 01:54:18
内塔当不了总理了!以色列爆发混乱,万人走上街头,多地被围

内塔当不了总理了!以色列爆发混乱,万人走上街头,多地被围

共工之锚
2026-03-22 12:36:18
全红婵回北京原因揭晓!并非回归国家队 133天没训练 官方尚未回应

全红婵回北京原因揭晓!并非回归国家队 133天没训练 官方尚未回应

TVB的四小花
2026-03-23 04:50:22
美媒:中国军舰在仙宾礁用火控雷达照射了菲律宾最新型护卫舰

美媒:中国军舰在仙宾礁用火控雷达照射了菲律宾最新型护卫舰

爱吃醋的猫咪
2026-03-21 22:11:00
2026-03-23 06:03:00
wisemodel开源社区 incentive-icons
wisemodel开源社区
始智AI wisemodel.cn开源社区,打造中国版“huggingface”
466文章数 14关注度
往期回顾 全部

科技要闻

嫌台积电太慢 马斯克要把芯片产能飙升50倍

头条要闻

媒体:特朗普48小时通牒砸向伊朗 不排除美国铤而走险

头条要闻

媒体:特朗普48小时通牒砸向伊朗 不排除美国铤而走险

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

47岁“国际章”身材走样?让嘲笑她的人闭嘴

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

本地
手机
房产
时尚
公开课

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

手机要闻

华为蝉联榜首,苹果紧追不舍,OPPO、vivo、小米、荣耀差距不大!

房产要闻

全城狂送1000杯咖啡!网易房产【早C计划】,即刻启动!

她凭这件旗袍在赛场圈粉无数

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版