网易首页 > 网易号 > 正文 申请入驻

理解、生成、编辑一次搞定:Skywork UniPic 2.0的统一多模态解法|甲子光年

0
分享至



让创作不再中断。

作者|田思奇

编辑|栗子

周四下午,电商团队临时接到任务:促销海报临时加量,文案再改两版,主视觉再出三套。设计师匆忙地在三种工具间来回折返:先识图找素材,再生图出草稿,最后到P图软件修改局部。每一次导入导出,都在消耗时间和风格统一度。

许多依赖视觉内容的行业,都可能面临类似的阻碍:创意没有通过技术放大,反而被切碎在流程里。即便生成式AI已经上了线,团队仍在做搬运工作,像是把零件交给不同软件排队加工。

目前行业需要的,是一次接入就能贯通理解、生成、编辑的统一架构,减少沟通成本与返工风险,把人从工具切换里解放出来。

在开源社区,目前已有FLUX-Kontext、BAGEL等探索,证明了方向可行。但它们体量大、推理慢,对硬件要求高,相对更适合实验室,而非日常生产。

对广告、电商、媒体、教育、游戏等行业来说,如果能以较低的技术门槛运行统一且高效的多模态图像框架,不仅能加快设计,还能改进跨部门协作、素材复用和品牌管理。

作为中国头部AI企业,昆仑万维在8月11日至8月15日举行的Skywork AI技术发布周中,展示了其多模态系统的模型能力。8月13日,昆仑万维正式发布Skywork UniPic 2.0,将理解、生成、编辑整合在一个端到端架构中,让创意从构想到成品,不再被中断。

1.从识图到出图,不分家

过去,设计师和创作者往往要在多款软件之间切换,才能完成图像的理解、生成和编辑。UniPic 2.0则把这些步骤整合在一次连续操作中,让创作过程更顺畅。

经「甲子光年」实测,UniPic 2.0可以精确识别图片的地点、季节和天气,为特定场景生成简洁的背景介绍和文案建议,这对旅游平台、内容电商或社交媒体营销来说十分高效。


它还能感知画面的氛围和情绪,为图片素材的情绪化筛选提供了参考。这样在广告创意选图时,不必靠个人主观判断,搜索就能更精准。


在创作上,UniPic 2.0可以根据文字生成细节丰富的图像,既包括现实题材的欧洲风格街道、雕刻精美的红木椅子,也可以生成复古技术风格绘制的飞机草图。


在要求UniPic 2.0生成“小鸟站在电线杆上望向村庄远处”的画面后,还能直接通过模型内的图片编辑功能,将其转换为吉卜力动画风格或像素游戏风格,同时保留原有细节。


它也能为整张图片添加特定滤镜,如时尚杂志、复古颗粒或冷调科技风,在保持构图不变的情况下切换风格。


在局部修改上,UniPic 2.0的精度同样可观。例如可以先生成一张“猫咪戴着飞行员墨镜坐在热气球里、背景是漂浮的棉花糖”的插画,再将猫替换成兔子:


如果想去掉照片中的部分素材,也可以向UniPic 2.0提出,去掉图片中遮挡食物的勺子:


UniPic 2.0将整个过程收束到同一系统中,一些原本需要数小时的工作,现在几分钟就能完成。对依赖大量视觉素材的行业来说,这意味着制作成本的下降与产出节奏的加快,更为创意留出了呼吸的空间。

2.统一架构的底层逻辑

正如前文所说,在多模态模型迅速演进的这两年,业界已经看到一体化架构的潜力。GPT-4o让图像理解、生成与编辑的结合成为热点,开源领域的FLUX-Kontext和BAGEL在融合能力和生成质量上表现突出,但超大规模参数模型在消费级硬件上运行依旧困难。

UniPic 2.0采用更贴近实际使用的路线:在架构与训练方法上压缩到2B参数,同时保留细致的生成效果与编辑能力,让一体化模型更易在日常设备中运行。


它的技术基础由三部分组成。第一部分是生图编辑模块,基于2B参数的SD3.5-Medium架构改造而来。原本只能处理文本输入的模型,被赋予了同时接受文本与参考图像的能力。

训练过程中,文本经过编码器生成指令表示,参考图像经过VAE编码为潜变量,并映射为上下文token,两者与目标图像的噪声token拼接成一个序列,再用位置编码区分不同片段。模型在结构保持不变的情况下,获得了文生图(T2I)和文本驱动图像编辑(I2I)双能力。

值得一提的是,其训练数据全部来自社区开源,包含600万高质量生图样本与500万编辑样本,两类任务按批次交替训练,分辨率覆盖1:1、4:3、3:2、16:9等常见比例,避免了模型在单一尺度上产生偏置,提升了对不同构图的泛化能力。

第二部分是统一模型能力。在预训练好的生图编辑模型基础上,引入Qwen2.5-VL-7B和连接器进行特征对齐。训练分为两个阶段:先冻结主体权重,仅在亿级图像生成数据上预训练连接器,使多模态模型与生成模块的特征空间匹配;再将连接器与预训练好的生图编辑模型共同解冻,使用高质量生图和编辑数据进行SFT联合训练,使理解、生成、编辑三类任务在一个模型中顺畅协作。

第三部分是生图编辑的后训练阶段,也是UniPic 2.0在性能提升上的关键一步。团队设计了基于Flow-GRPO的渐进式双任务强化策略,将优化过程分成两个阶段:先针对图像编辑任务强化,让模型在保留原图结构的前提下精准执行修改,并保持视觉自然;再针对文生图任务优化复杂指令的理解与生成准确度。这样的顺序避免了多任务之间的性能牵制,反而在协同中实现了正向增益。

为了让强化学习有可靠的反馈机制,昆仑万维团队构建了行业首个专门面向图像编辑的奖励模型——Skywork-EditReward。它以Qwen2.5-VL-7B为骨架,能同时接收原图、编辑结果与指令作为输入,并输出细致到像素级的质量评分。

这一奖励模型的训练过程同样依赖开源技术:先由UniPic2-SD3.5M-Kontext生成33.3万条编辑样本,再通过GPT-4.1打分,确保评分标准与人类审美高度一致。文生图部分则结合GenEval等指标评估组合性理解与语义准确性,让生成过程更加贴合复杂描述。

从评测结果来看,UniPic 2.0在小参数规模下展现了越级表现。仅2B参数的UniPic2-SD3.5M-Kontext在生图效果上超过12B参数的Flux.dev,在编辑效果上也领先12B的Flux-Kontext,并且优于19B的UniWorld-V1和14B的BAGEL等统一模型。

当模型扩展为统一架构的UniPic2-Metaquery后,生图与编辑能力进一步提升,在多项指标上刷新了开源模型的记录。


除了性能,UniPic 2.0的设计还带来几个重要优势:生成模块轻量高效,指标优于更大规模的同类模型;强化学习显著提高了复杂指令的理解和生成一致性;一体化架构可灵活拓展,只需微调轻量连接器即可适配新任务;模型和代码完全开源,方便开发者快速上手并构建自己的多模态应用。

这条路径与实践经验相吻合:真正创造价值的工具,必须进入高频、刚需的日常工作流。昆仑万维CEO方汉近日在2025世界人工智能大会(WAIC)上也给出同样判断:只有能被高频使用、嵌入日常流程的应用,才能形成稳定的商业价值与黏性。统一架构的意义正在这里落地。

对于需要高频处理视觉内容的团队,这种统一且轻量的模型,既能在日常硬件上运行,也能减少跨工具操作带来的时间消耗,并保持不同输出环节的风格一致。在多模态技术快速发展的当下,这种平衡性能与部署门槛的方案,正在成为越来越多创作者与企业关注的方向。

3.从工具走向体系

据「甲子光年」观察,在AI图像生成的演进中,行业评判标准正在发生变化。

最初,人们关注的是一张图是否好看、是否逼真;现在,更重要的是模型是否稳定,能否支持多个任务,并在复杂流程中与其他系统协同工作。这种趋势推动统一架构、任务融合的模型逐渐成为底层能力,而不仅仅是独立的工具。

在近日举行的Skywork AI技术发布周中,昆仑万维已在8月11日和12日分别发布视频生成模型SkyReels-A3和自研世界模型Matrix-Game2.0。结合最新发布的UniPic 2.0和即将要发布的AI模型,昆仑万维将连续五天发布覆盖多模态AI核心场景的前沿模型,力图构建一个完整技术体系。

在昆仑万维的开源模型和产品矩阵中,图像模型UniPic 2.0能够理解、生成与编辑,是视觉素材的基础单元;SkyReels则承担视频生成任务,支持从镜头分镜到自动合成的全流程;Mureka则将AI音乐生成与其他内容模态联动;Skywork天工超级智能体则连接不同信息源,协助内容整合与组织。这些模型和产品能力相辅相成,有望可以协作和打通,使得一个模块的改进能带动整体表现提升。

方汉曾在WAIC现场形容,Skywork能“将普通人8小时的研究工作,缩短到8分钟”,并且每一份报告、每一页PPT,都建立在可被追溯的真实数据之上。

作为一家94%收入来自海外的企业,昆仑万维也总结出中国企业面对全球竞争的核心优势。首先是成本控制能力:工程团队在推理优化上投入巨大,能通过消费级显卡等方式大幅降低部署成本。数据显示,中国在AI对话等高频场景中,其百万Token推理成本低至5-7分人民币,仅为美国同类产品的七分之一左右。

其次是产品迭代速度。昆仑万维的多款产品能保持高速的更新节奏,不仅来自工程师的执行力,更体现出其研发流程的闭环机制,能迅速响应真实场景中的问题与需求。

最后是资源整合与跨界适配的能力。中国的产业链和上下游生态十分完善,从算法优化、数据处理到不同垂直场景的适配,都能在较短时间内完成。技术也得以顺畅地进入不同业务形态,形成稳定的商业落地。

这些因素叠加,使得统一架构不仅是一种工程选择,更成为实际工作流中的骨架。对于内容生产行业而言,这种系统让制作流程的组织方式发生质变。

过去团队需要在多个工具间切换、手动调节风格与格式,如今可以在一个平台内完成各类输出。从主图到电商详情页,从短视频片段到配乐、字幕与社交传播图,创作流程被打通。设计、编辑、营销、投放等环节之间的协作也变得更紧凑,减少了搬运工式的重复劳动。

更重要的是,这种协同结构改变的不是某个环节的速度,而是整条生产节奏的组织方式。创作者的精力可以回到内容构思与质量把控,企业的交付从多轮改稿变成一次成型,版本管理与多渠道发布都能在同一流程内闭环。

方汉也在演讲中指出,推动AGI的持续创新,并让AIGC扎实落地到各类行业场景,才可能真正改写全球AI产业的格局。

当AI模型从舞台上的演示项目转为生产链中的稳定部件,统一架构的意义便不再抽象。对于广大行业来说,昆仑万维UniPic 2.0不仅是一个高性能的生成模型,更是能嵌入高频任务、与其他模态协同的核心单元。它能让每个创意都能顺畅地从脑海进入现实,也开辟了让技术真正融入生产节奏的时代。

*项目地址:

项目主页:

https://unipic-v2.github.io/

技术报告:

https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf

GitHub地址:

https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2

HuggingFace Gradio:

https://huggingface.co/spaces/Skywork/UniPic2-Metaquery

HuggingFace Model:

https://huggingface.co/Skywork/UniPic2-SD3.5M-Kontext-2B ; https://huggingface.co/Skywork/UniPic2-Metaquery-9B

(封面及文中配图来源:昆仑万维)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
金牌榜:广东37金升第一,山东跌至第3,江苏26金排第4,上海23金

金牌榜:广东37金升第一,山东跌至第3,江苏26金排第4,上海23金

体育就你秀
2025-11-18 09:06:46
冯盈盈首次挑战内衣广告感不自在,深邃事业线震撼网民:出手咁重?

冯盈盈首次挑战内衣广告感不自在,深邃事业线震撼网民:出手咁重?

冒泡泡的鱼儿
2025-11-18 12:59:55
央视怒批,国务院点名封杀!这几位蒙骗老百姓的大网红,彻底凉凉

央视怒批,国务院点名封杀!这几位蒙骗老百姓的大网红,彻底凉凉

大鱼简科
2025-09-02 19:34:00
日本东京突发持刀伤人事件!40多岁女子被刺致重伤,紧急送医,嫌犯行凶后逃逸

日本东京突发持刀伤人事件!40多岁女子被刺致重伤,紧急送医,嫌犯行凶后逃逸

每日经济新闻
2025-11-17 21:19:40
巴基斯坦规划部长突然宣布了:没有把中国—巴基斯坦经济走廊用好

巴基斯坦规划部长突然宣布了:没有把中国—巴基斯坦经济走廊用好

百态人间
2025-11-17 16:38:25
快手一姐登上央视,开播狂卖55亿,赚大发了

快手一姐登上央视,开播狂卖55亿,赚大发了

电商派Pro
2025-11-18 10:32:33
男篮全运又一大冷门!争冠大热惨遭东道主掀翻:广东逆袭杀进决赛

男篮全运又一大冷门!争冠大热惨遭东道主掀翻:广东逆袭杀进决赛

篮球快餐车
2025-11-18 08:12:52
马筱梅解释为什么箖箖保姆是男生,sam是大s亲选,汪小菲不忍辞退

马筱梅解释为什么箖箖保姆是男生,sam是大s亲选,汪小菲不忍辞退

花心电影
2025-11-18 09:13:45
王小波戳破真相:你的所有痛苦,本质上都是对自身无能的愤怒

王小波戳破真相:你的所有痛苦,本质上都是对自身无能的愤怒

杏花烟雨江南的碧园
2025-11-18 11:00:03
古代权臣的巅峰:娶皇后为妻,纳40位公主为妾,皇子认其作父

古代权臣的巅峰:娶皇后为妻,纳40位公主为妾,皇子认其作父

丞丞故事汇
2025-11-17 14:03:48
狗主人踹门被反杀后续:穷人活该?事后不敢回家 案外人集体照曝光

狗主人踹门被反杀后续:穷人活该?事后不敢回家 案外人集体照曝光

爱下厨的阿酾
2025-11-15 00:54:33
出现这3种症状,提示血栓要脱落,可能随时出危险,赶紧就医!

出现这3种症状,提示血栓要脱落,可能随时出危险,赶紧就医!

健身狂人
2025-11-18 11:49:12
印度嘲笑东大技术不行,神舟飞船返回被烧黑,印度返回舱白净如新

印度嘲笑东大技术不行,神舟飞船返回被烧黑,印度返回舱白净如新

阿龙聊军事
2025-11-18 11:30:04
医保开药要变天!这3条红线一碰,报销直接泡汤,要注意⚠️

医保开药要变天!这3条红线一碰,报销直接泡汤,要注意⚠️

娱乐洞察点点
2025-11-18 09:14:32
香港知名电影人痛斥《新闻女王2》!称浪费佘诗曼黄宗泽好演员!

香港知名电影人痛斥《新闻女王2》!称浪费佘诗曼黄宗泽好演员!

我爱追港剧
2025-11-18 12:36:02
G20峰会遇冷,“上三常”元首同时缺席,全球格局将如何演变?

G20峰会遇冷,“上三常”元首同时缺席,全球格局将如何演变?

优趣纪史记
2025-11-17 10:10:00
重庆女子用5年“套路”闺蜜哥哥,领证后笑到失控:闺蜜表情亮了

重庆女子用5年“套路”闺蜜哥哥,领证后笑到失控:闺蜜表情亮了

风起见你
2025-11-17 12:02:47
单反时代谢幕!双十一销冠仅卖100台,万元镜头白菜价

单反时代谢幕!双十一销冠仅卖100台,万元镜头白菜价

商悟社
2025-11-15 23:03:04
冷空气来了!广东今明天阴雨连连 广州等地最高温仅有16°C左右

冷空气来了!广东今明天阴雨连连 广州等地最高温仅有16°C左右

北青网-北京青年报
2025-11-18 11:51:21
樊振东卫冕全运冠军又能如何?相比王楚钦,至少存在三点差距

樊振东卫冕全运冠军又能如何?相比王楚钦,至少存在三点差距

姜大叔侃球
2025-11-18 12:06:27
2025-11-18 14:19:00
甲子光年
甲子光年
中国科技产业化前沿智库
3248文章数 9253关注度
往期回顾 全部

科技要闻

马斯克破防了!贝索斯62亿美金入局"实体AI"

头条要闻

小伙和31岁女网友发生关系 婚礼上发现女方父母是演员

头条要闻

小伙和31岁女网友发生关系 婚礼上发现女方父母是演员

体育要闻

直到退役那天,“海湾梅西”也没去欧洲踢球

娱乐要闻

曝喻恩泰离婚2年前转移走300箱茅台?

财经要闻

青云租陷兑付危机 集资与放贷的双面生意

汽车要闻

更加豪华 更加全地形 极石ADAMAS

态度原创

教育
本地
艺术
家居
数码

教育要闻

超市打折背后的秘密:方程求进价很轻松!

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

艺术要闻

优雅浪漫的绘画,美到让人想直接住进去!

家居要闻

彰显奢华 意式经典风格

数码要闻

小心被坑!二手贩子口中的“良心机皇”,其实是“黑心产品”

无障碍浏览 进入关怀版