网易首页 > 网易号 > 正文 申请入驻

Skywork UniPic开源!从零预训练打造生图、理解和编辑一体化模型

0
分享至

7月30日,昆仑万维正式推出并开源采用自回归路线的「多模态统一预训练模型Skywork UniPic」,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力。该模型基于大规模高质量数据进行端到端预训练,具备良好的通用性与可迁移性。

秉持开放协作、共享创新的理念,昆仑万维面向社区全面开放 Skywork UniPic 的核心资源:

01

Skywork UniPic:统一自回归模型实现图片生成、编辑与理解一体化

GPT-4o的迅速走红,标注着人工智能领域多模态统一预训练模型的成熟。Skywork UniPic 延续了 GPT-4o 的自回归范式,在单一模型中深度融合图像理解、文本生成图像(T2I)与图像编辑三大核心任务,构建了真正统一的多模态模型架构。

传统多模态统一模型多依赖 VQ 或 VAE 编码器来压缩视觉内容,虽然具备一定效果,但也存在局限性,它们更侧重保留图像的视觉细节而非语义信息,这会在一定程度上削弱模型的图像理解能力。

为此,Skywork UniPic 团队借鉴 Harmon 架构设计,并在表征方式上做出关键调整:采用 MAR 编码器作为图像生成路径的视觉表征基础,同时引入 SigLIP2 作为图像理解路径的主干。

该结构设计的核心洞察在于:能否构建一个轻量级统一模型,在保持实际部署可行性的同时,在理解、生成与编辑任务上均达到顶尖性能?

Skywork-UniPic 模型核心能力包含:

图文理解:基于 token 预测完成文本的自回归建模

图像生成:采用掩码自回归方式,逐步生成图像 patch

图像编辑:引入参考图与编辑指令作为条件,生成编辑后的图像

此外,Skywork-UniPic 完成端到端优化流程,能够实现生成、理解、编辑三大能力的协同训练和相互促进,突破传统方法中能力权衡的技术瓶颈。

这一架构设计不仅保持了自回归模型的简洁高效,更通过共享编码器实现了跨任务的深度协同,为多模态统一模型的实用化部署奠定了坚实基础。

用户只需要输入提示词,Skywork-UniPic 既可以像 VLM 一样理解图像、像 T2I 模型一样生成图片,还可以像美图工具一样,一键实现风格转绘/吉卜力化的编辑功能。

02

模型优势:1.5B 轻量级规模性能逼近同类大参数统一模型,诠释了“小而美”的技术美学

团队在追求模型能力极限的同时,也坚持效率重要性的设计理念。Skywork UniPic 以 1.5B 的紧凑参数规模,真正诠释了“小而美”的技术美学:

多重技术亮点

指令遵循能力媲美大型模型:在 GenEval 指令遵循评估中取得 0.86 的优异成绩,超越了绝大多数同类统一模型,在无 CoT 的情况下取得了 SOTA 分数,逼近较大模型 BAGEL(7B+7B*)带 CoT 的 0.88 分;

复杂指令生图能力领先:在 DPG-Bench 复杂指令生图基准上达到 85.5 分的行业 SOTA 水平;

图像编辑能力统一模型第一梯队:GEditBench-EN 获得 5.83 分,ImgEdit-Bench 达到3.49分,展现出精准的编辑执行能力;

参数效率优势显著:相比同类大参数统一模型(如 BAGEL 的 14B 总参数、UniWorld-V1 的 19B 总参数),Skywork UniPic 以 1.5B 的轻量级规模实现了接近甚至超越大参数模型的性能表现;

部署友好,真正可落地:模型在 RTX 4090 消费级显卡上均可流畅运行,为广大开发者和研究者提供了真正可落,地的统一模型解决方案,大幅降低了技术应用门槛。

03

Skywork-UniPic是怎样炼成的?

数据构建:亿级高质量语料库支撑统一模型预训练

首先,Skywork UniPic 的卓越性能,并非源自数据堆叠的蛮力,而是得益于一套高度精炼、系统优化的数据构建体系

团队突破了“更大即更强”的传统认知边界,通过约亿级规模的精选预训练语料数百万级任务精调(SFT)样本,成功构建出一套面向理解、生成与编辑三大核心任务的高效能多模态训练语料库

这一构建体系产生的语料库不仅显著压缩了训练资源成本,更在模型泛化能力与任务迁移表现上展现出惊人的性价比,充分验证了小规模、精筛选、高质量数据对统一多模态模型训练的可行性与潜力。

奖励模型构建:数据质量驱动的智能评估体系

其次,为了确保 Skywork UniPic 在图像生成和编辑任务上的卓越表现,我们设计了专用于图像生成的Reward Model(Skywork-ImgReward)和专用于图片编辑的Reward Model (Skywork-EditReward)。

其中,Skywork-ImgReward是基于强化学习训练的Reward Model,相比于其他T2I Reward Model,Skywork-ImgReward在多个文生图场景下的偏好选择表现都更接近人类偏好。它不仅被用来作为文生图数据质量的筛选,也可以在后续被用于图像生成能力强化学习训练中的奖励信号,以及作为生成图像的质量评估指标。

同时面对图像编辑这一核心挑战,我们创新性地构建了具有针对性的Skywork-EditReward,其被用作数据质量评估时可以自动剔除超过30%的低质量编辑样本,在 GEditBench-EN 和 ImgEdit-Bench 基准测试中表现明显改善。后续同样也可以被用作图像编辑强化学习训练中的奖励信号,以及作为图像编辑的质量评估指标。

训练体系优化与策略提升

MAR训练优化体系:为提升模型表现,我们采用了两项关键优化策略:首先,在数据层面引入覆盖更广视觉场景和类别的亿级专有图像数据,显著拓展了模型的学习空间。其次,训练过程中采用渐进式分辨率提升策略,先在256×256分辨率下建立稳定的底层特征抽取能力,再逐步迁移至512×512,以增强模型的语义理解和细粒度建模能力。

HARMON训练优化体系:为进一步提升模型性能并兼顾训练效率,我们设计了多阶段分层分辨率训练机制。在第一阶段,模型在512×512分辨率下进行微调,聚焦基础特征提取的稳定性与收敛性。随后逐步提升输入分辨率至1024×1024,促使模型更好地捕捉纹理、边缘等高精度细节信息。

同时,我们采用分阶段参数解冻策略,逐步释放模型能力。在初始阶段,仅训练Projector模块以实现视觉与语言特征的对齐,冻结主干网络和LLM参数;接着在保持LLM编码器冻结的前提下优化视觉主干;最后进入全量解冻阶段,进行端到端联合优化,实现多模态协同增强。

渐进式多任务训练策略:为解决理解、生成和编辑三类任务难以兼得的问题,我们提出渐进式多任务训练机制。

训练初期,模型先专注于单一任务(如文本生成图像),待其收敛后再引入理解与编辑任务,按照由易到难的顺序逐步增加任务复杂度,避免多任务早期相互干扰。在精细化阶段,我们通过奖励模型筛选构建高质量训练数据,采用动态阈值与多样性采样策略,确保样本既具高置信度又具语义多样性。

整体来看,以上策略在训练过程中实现了结构合理的能力释放和任务适应,显著提升了模型在理解、生成和编辑等任务上的统一表现,达成真正意义上的“一专多能”。

过去半年,昆仑万维已经开源了多个SOTA大模型,涵盖奖励模型、推理、软件工程、多模态、空间智能等领域。今天,Skywork-UniPic 正式加入「Skywork」开源大家庭,让AI真正成为每个人触手可及的创意伙伴。

昆仑万维开源系列

更多 Skywork 系列开源模型,可在网站查看。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
悲剧还是发生了!山东泰安4名未成年女孩,养生馆内惨遭大火灼伤

悲剧还是发生了!山东泰安4名未成年女孩,养生馆内惨遭大火灼伤

普陀动物世界
2026-05-12 12:50:25
桑葚,立夏后的“养生果王”!对眼睛和头发都好,正当季别错过

桑葚,立夏后的“养生果王”!对眼睛和头发都好,正当季别错过

江江食研社
2026-05-12 22:35:09
45岁阿娇降级去演短剧了!剧照美到窒息,网友:可惜了!

45岁阿娇降级去演短剧了!剧照美到窒息,网友:可惜了!

黎兜兜
2026-05-13 21:19:52
茶叶是血糖的“加速器”?医生忠告:不想血糖升高,少喝4种茶

茶叶是血糖的“加速器”?医生忠告:不想血糖升高,少喝4种茶

橘子约定
2026-05-12 20:44:04
浪姐史上翻车最快的人出现了,网友:人不红果然是有原因的!

浪姐史上翻车最快的人出现了,网友:人不红果然是有原因的!

两只米老鼠
2026-04-14 03:27:12
人有没有肠息肉,看吃饭就知道?肠内长息肉,吃饭或有这几个表现

人有没有肠息肉,看吃饭就知道?肠内长息肉,吃饭或有这几个表现

健康之光
2026-05-09 18:20:07
“骨盆前倾成这样,还不去医院?”家长晒一年级女儿体态,被群嘲

“骨盆前倾成这样,还不去医院?”家长晒一年级女儿体态,被群嘲

妍妍教育日记
2026-04-24 11:15:25
为什么比亚迪越来越像“工业怪兽”,而吉利越来越像“中国大众”

为什么比亚迪越来越像“工业怪兽”,而吉利越来越像“中国大众”

别让往昔的悲伤和对未来的恐惧
2026-05-13 16:03:22
孙铭阳正式宣布退出国家队:我随时都在,有召必回!

孙铭阳正式宣布退出国家队:我随时都在,有召必回!

现代快报
2026-05-13 15:38:07
6000亿杭州联合银行,空降48岁女行长

6000亿杭州联合银行,空降48岁女行长

财经众议院
2026-05-13 17:16:18
实控人拟变更!603779,“一”字涨停,封单超百万手

实控人拟变更!603779,“一”字涨停,封单超百万手

数据宝
2026-05-13 11:01:19
轰30分3助4断!中国男篮18岁1米83混血控卫闪耀:下赛季征战NCAA

轰30分3助4断!中国男篮18岁1米83混血控卫闪耀:下赛季征战NCAA

李喜林篮球绝杀
2026-05-13 20:14:35
被撞碎的人生:23岁研究生被16岁少年无证驾车撞致颅脑损伤,亲属称其如今心智如幼童

被撞碎的人生:23岁研究生被16岁少年无证驾车撞致颅脑损伤,亲属称其如今心智如幼童

红星新闻
2026-05-13 19:02:21
1.4万亿巨头,直线涨停

1.4万亿巨头,直线涨停

21世纪经济报道
2026-05-13 13:39:39
长得漂亮却坏事做尽,三次入狱,被摘除4处器官的她,如今怎样

长得漂亮却坏事做尽,三次入狱,被摘除4处器官的她,如今怎样

瑛派儿老黄
2026-05-13 18:57:17
沙特被曝3月曾对伊朗发动多次“报复性”空袭

沙特被曝3月曾对伊朗发动多次“报复性”空袭

界面新闻
2026-05-13 12:07:05
两次嫁给梁靖崑,退圈安心照顾两个儿子,如今丈夫成为大学教授

两次嫁给梁靖崑,退圈安心照顾两个儿子,如今丈夫成为大学教授

往史过眼云烟
2026-05-12 22:04:20
公安紧急提醒!换身份证别只拿证,漏掉这步,办事全受阻

公安紧急提醒!换身份证别只拿证,漏掉这步,办事全受阻

老特有话说
2026-05-13 17:57:05
CNN报道:向朝鲜运送核反应堆的俄方货船可能是被西方国家击沉的

CNN报道:向朝鲜运送核反应堆的俄方货船可能是被西方国家击沉的

戗词夺理
2026-05-13 18:07:23
刘晓庆19套房百亿翡翠全捐!养大外甥分文不给,真相来了

刘晓庆19套房百亿翡翠全捐!养大外甥分文不给,真相来了

一盅情怀
2026-05-13 13:58:32
2026-05-14 00:55:00
野马财经 incentive-icons
野马财经
关注金融创新
7380文章数 136157关注度
往期回顾 全部

科技要闻

阿里年营收首破万亿,AI终于不再是画大饼

头条要闻

特朗普抵京走红毯舞起熟悉手势 乘"陆军一号"前往酒店

头条要闻

特朗普抵京走红毯舞起熟悉手势 乘"陆军一号"前往酒店

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

房产
亲子
健康
家居
军事航空

房产要闻

卷疯了!最低杀到7字头!手握30万,海口楼市横着走!

亲子要闻

去最需要的地方!安慧霞远赴高原幼教帮扶:夜晚吸氧白天授课

干细胞能让人“返老还童”吗

家居要闻

内在自叙,无域有方

军事要闻

沙特被指3月曾对伊朗发动多次“报复性”空袭

无障碍浏览 进入关怀版