网易首页 > 网易号 > 正文 申请入驻

Skywork UniPic开源!从零预训练打造生图、理解和编辑一体化模型

0
分享至

7月30日,昆仑万维正式推出并开源采用自回归路线的「多模态统一预训练模型Skywork UniPic」,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力。该模型基于大规模高质量数据进行端到端预训练,具备良好的通用性与可迁移性。

秉持开放协作、共享创新的理念,昆仑万维面向社区全面开放 Skywork UniPic 的核心资源:

01

Skywork UniPic:统一自回归模型实现图片生成、编辑与理解一体化

GPT-4o的迅速走红,标注着人工智能领域多模态统一预训练模型的成熟。Skywork UniPic 延续了 GPT-4o 的自回归范式,在单一模型中深度融合图像理解、文本生成图像(T2I)与图像编辑三大核心任务,构建了真正统一的多模态模型架构。

传统多模态统一模型多依赖 VQ 或 VAE 编码器来压缩视觉内容,虽然具备一定效果,但也存在局限性,它们更侧重保留图像的视觉细节而非语义信息,这会在一定程度上削弱模型的图像理解能力。

为此,Skywork UniPic 团队借鉴 Harmon 架构设计,并在表征方式上做出关键调整:采用 MAR 编码器作为图像生成路径的视觉表征基础,同时引入 SigLIP2 作为图像理解路径的主干。

该结构设计的核心洞察在于:能否构建一个轻量级统一模型,在保持实际部署可行性的同时,在理解、生成与编辑任务上均达到顶尖性能?



Skywork-UniPic 模型核心能力包含:

图文理解:基于 token 预测完成文本的自回归建模

图像生成:采用掩码自回归方式,逐步生成图像 patch

图像编辑:引入参考图与编辑指令作为条件,生成编辑后的图像

此外,Skywork-UniPic 完成端到端优化流程,能够实现生成、理解、编辑三大能力的协同训练和相互促进,突破传统方法中能力权衡的技术瓶颈。

这一架构设计不仅保持了自回归模型的简洁高效,更通过共享编码器实现了跨任务的深度协同,为多模态统一模型的实用化部署奠定了坚实基础。

用户只需要输入提示词,Skywork-UniPic 既可以像 VLM 一样理解图像、像 T2I 模型一样生成图片,还可以像美图工具一样,一键实现风格转绘/吉卜力化的编辑功能。

02

模型优势:1.5B 轻量级规模性能逼近同类大参数统一模型,诠释了“小而美”的技术美学

团队在追求模型能力极限的同时,也坚持效率重要性的设计理念。Skywork UniPic 以 1.5B 的紧凑参数规模,真正诠释了“小而美”的技术美学:

多重技术亮点

指令遵循能力媲美大型模型:在 GenEval 指令遵循评估中取得 0.86 的优异成绩,超越了绝大多数同类统一模型,在无 CoT 的情况下取得了 SOTA 分数,逼近较大模型 BAGEL(7B+7B*)带 CoT 的 0.88 分;

复杂指令生图能力领先:在 DPG-Bench 复杂指令生图基准上达到 85.5 分的行业 SOTA 水平;

图像编辑能力统一模型第一梯队:GEditBench-EN 获得 5.83 分,ImgEdit-Bench 达到3.49分,展现出精准的编辑执行能力;

参数效率优势显著:相比同类大参数统一模型(如 BAGEL 的 14B 总参数、UniWorld-V1 的 19B 总参数),Skywork UniPic 以 1.5B 的轻量级规模实现了接近甚至超越大参数模型的性能表现;

部署友好,真正可落地:模型在 RTX 4090 消费级显卡上均可流畅运行,为广大开发者和研究者提供了真正可落,地的统一模型解决方案,大幅降低了技术应用门槛。



03

Skywork-UniPic是怎样炼成的?

数据构建:亿级高质量语料库支撑统一模型预训练

首先,Skywork UniPic 的卓越性能,并非源自数据堆叠的蛮力,而是得益于一套高度精炼、系统优化的数据构建体系

团队突破了“更大即更强”的传统认知边界,通过约亿级规模的精选预训练语料数百万级任务精调(SFT)样本,成功构建出一套面向理解、生成与编辑三大核心任务的高效能多模态训练语料库

这一构建体系产生的语料库不仅显著压缩了训练资源成本,更在模型泛化能力与任务迁移表现上展现出惊人的性价比,充分验证了小规模、精筛选、高质量数据对统一多模态模型训练的可行性与潜力。

奖励模型构建:数据质量驱动的智能评估体系

其次,为了确保 Skywork UniPic 在图像生成和编辑任务上的卓越表现,我们设计了专用于图像生成的Reward Model(Skywork-ImgReward)和专用于图片编辑的Reward Model (Skywork-EditReward)。

其中,Skywork-ImgReward是基于强化学习训练的Reward Model,相比于其他T2I Reward Model,Skywork-ImgReward在多个文生图场景下的偏好选择表现都更接近人类偏好。它不仅被用来作为文生图数据质量的筛选,也可以在后续被用于图像生成能力强化学习训练中的奖励信号,以及作为生成图像的质量评估指标。

同时面对图像编辑这一核心挑战,我们创新性地构建了具有针对性的Skywork-EditReward,其被用作数据质量评估时可以自动剔除超过30%的低质量编辑样本,在 GEditBench-EN 和 ImgEdit-Bench 基准测试中表现明显改善。后续同样也可以被用作图像编辑强化学习训练中的奖励信号,以及作为图像编辑的质量评估指标。

训练体系优化与策略提升

MAR训练优化体系:为提升模型表现,我们采用了两项关键优化策略:首先,在数据层面引入覆盖更广视觉场景和类别的亿级专有图像数据,显著拓展了模型的学习空间。其次,训练过程中采用渐进式分辨率提升策略,先在256×256分辨率下建立稳定的底层特征抽取能力,再逐步迁移至512×512,以增强模型的语义理解和细粒度建模能力。

HARMON训练优化体系:为进一步提升模型性能并兼顾训练效率,我们设计了多阶段分层分辨率训练机制。在第一阶段,模型在512×512分辨率下进行微调,聚焦基础特征提取的稳定性与收敛性。随后逐步提升输入分辨率至1024×1024,促使模型更好地捕捉纹理、边缘等高精度细节信息。

同时,我们采用分阶段参数解冻策略,逐步释放模型能力。在初始阶段,仅训练Projector模块以实现视觉与语言特征的对齐,冻结主干网络和LLM参数;接着在保持LLM编码器冻结的前提下优化视觉主干;最后进入全量解冻阶段,进行端到端联合优化,实现多模态协同增强。

渐进式多任务训练策略:为解决理解、生成和编辑三类任务难以兼得的问题,我们提出渐进式多任务训练机制。

训练初期,模型先专注于单一任务(如文本生成图像),待其收敛后再引入理解与编辑任务,按照由易到难的顺序逐步增加任务复杂度,避免多任务早期相互干扰。在精细化阶段,我们通过奖励模型筛选构建高质量训练数据,采用动态阈值与多样性采样策略,确保样本既具高置信度又具语义多样性。

整体来看,以上策略在训练过程中实现了结构合理的能力释放和任务适应,显著提升了模型在理解、生成和编辑等任务上的统一表现,达成真正意义上的“一专多能”。

过去半年,昆仑万维已经开源了多个SOTA大模型,涵盖奖励模型、推理、软件工程、多模态、空间智能等领域。今天,Skywork-UniPic 正式加入「Skywork」开源大家庭,让AI真正成为每个人触手可及的创意伙伴。

昆仑万维开源系列

更多 Skywork 系列开源模型,可在网站查看。



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
还有后续:呆呆火到台湾,国台办回应,人民日报再点名,立大功了

还有后续:呆呆火到台湾,国台办回应,人民日报再点名,立大功了

鋭娱之乐
2026-01-16 11:10:56
从高处跌落的硅胶脸夫人:被拘4个月瘦到80斤,头发花白眼神惊恐

从高处跌落的硅胶脸夫人:被拘4个月瘦到80斤,头发花白眼神惊恐

照见古今
2025-12-12 18:19:05
邻居拿错车厘子吃掉后续:直接失联,警方介入赔款,真相耐人寻味

邻居拿错车厘子吃掉后续:直接失联,警方介入赔款,真相耐人寻味

丁丁鲤史纪
2026-01-15 18:01:12
3-1逆转夺三连胜!中国女乒20岁新星崛起:孙颖莎师妹又进化

3-1逆转夺三连胜!中国女乒20岁新星崛起:孙颖莎师妹又进化

李喜林篮球绝杀
2026-01-16 11:32:53
陈志2.0柬埔寨电诈皇乐园区老板黄继茂被捕,曾被封勋爵。

陈志2.0柬埔寨电诈皇乐园区老板黄继茂被捕,曾被封勋爵。

环球趣闻分享
2026-01-16 13:30:08
你无意中发现过别人哪些秘密?网友:这不是我一个单身狗能看的

你无意中发现过别人哪些秘密?网友:这不是我一个单身狗能看的

带你感受人间冷暖
2025-12-18 00:10:08
布朗复出27+7绿军19分逆转双杀热火 西蒙斯39+7三分赛季新高

布朗复出27+7绿军19分逆转双杀热火 西蒙斯39+7三分赛季新高

醉卧浮生
2026-01-16 11:04:30
英伟达悄然修改论文错误 数据中心铜需求重估

英伟达悄然修改论文错误 数据中心铜需求重估

财联社
2026-01-16 10:20:21
从承诺归还抢走的土地,到提出出海权,俄国时隔100年又服软了?

从承诺归还抢走的土地,到提出出海权,俄国时隔100年又服软了?

近史博览
2025-12-20 10:50:02
伊朗援兵终于赶到,中方挂断电话,局面变成2对1,导弹对准以色列

伊朗援兵终于赶到,中方挂断电话,局面变成2对1,导弹对准以色列

潮鹿逐梦
2026-01-16 16:50:46
4万亿电网投资已在路上,哪些企业有望受益?

4万亿电网投资已在路上,哪些企业有望受益?

界面新闻
2026-01-15 17:23:29
你是如何实现阶层跨越的?网友: 撞了省领导的车

你是如何实现阶层跨越的?网友: 撞了省领导的车

另子维爱读史
2026-01-08 22:00:25
1955年,一名身体强壮的日本女人赤裸上身背着黑色编织袋站在海边

1955年,一名身体强壮的日本女人赤裸上身背着黑色编织袋站在海边

忠于法纪
2026-01-07 17:46:09
俄军终于找到乌克兰命门!集中火力猛攻三座城!乌军出现20万逃兵

俄军终于找到乌克兰命门!集中火力猛攻三座城!乌军出现20万逃兵

回京历史梦
2026-01-16 16:50:26
台退役上校呼吁:只要大陆答应2个条件,台湾随时可以和平统一!

台退役上校呼吁:只要大陆答应2个条件,台湾随时可以和平统一!

科普100克克
2026-01-09 10:38:43
俄男子把1岁儿子3次浸入冰水中,当天气温零下30℃,网民批评该行为是对孩子的残酷实验

俄男子把1岁儿子3次浸入冰水中,当天气温零下30℃,网民批评该行为是对孩子的残酷实验

观威海
2026-01-15 10:38:04
16GB+1TB!新机官宣:1月20日,新品正式发布!

16GB+1TB!新机官宣:1月20日,新品正式发布!

科技堡垒
2026-01-15 11:48:25
一个软件打磨了28年,被安装超过100亿次,居然赚不到钱?

一个软件打磨了28年,被安装超过100亿次,居然赚不到钱?

码农翻身
2026-01-14 09:00:11
颠覆认知!哈佛 12 万人研究实锤:每天 1-2 个鸡蛋不升胆固醇,反而护血管

颠覆认知!哈佛 12 万人研究实锤:每天 1-2 个鸡蛋不升胆固醇,反而护血管

CHTV百姓健康
2026-01-14 18:00:03
瑶瑶弟弟回应二审结果:“金毛”父亲请来优秀律师,还想让他活命

瑶瑶弟弟回应二审结果:“金毛”父亲请来优秀律师,还想让他活命

汉史趣闻
2026-01-15 10:21:19
2026-01-16 17:47:00
野马财经 incentive-icons
野马财经
关注金融创新
7057文章数 136013关注度
往期回顾 全部

科技要闻

传小米传音Ovi四家手机厂下调全年出货预期

头条要闻

70后张迎春跨省履新新疆 曾是湖南湘潭史上首位女市长

头条要闻

70后张迎春跨省履新新疆 曾是湖南湘潭史上首位女市长

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

关店102家贾国龙喊被污蔑 罗永浩回应

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

旅游
艺术
手机
亲子
公开课

旅游要闻

藏在骑楼里的时光密码:中国南方老街的百年风华与当代新生!

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

手机要闻

小米、OPPO、vivo、传音四家手机厂商下调全年出货预期

亲子要闻

从“单一用药”到“阶梯选择”:儿童近视防控迈入新阶段,专家强调“防”为先

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版