网易首页 > 网易号 > 正文 申请入驻

开源全能图像模型媲美GPT-4o!解决扩散模型误差累计问题

0
分享至

ModelScope团队 投稿
量子位 | 公众号 QbitAI

OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。

开源的MLLMs和扩散模型已经过大规模预训练,其从零开始训练统一任务,不如取长补短,将MLLMs的语言建模能力,与扩散模型的像素级图像建模能力,进行有机的结合。

基于这个思路,ModelScope团队提出可同时完成图像理解、生成和编辑的统一模型Nexus-Gen,在图像质量和编辑能力上达GPT-4o同等水平,并将成果全方位开源,望引发开发者讨论,促进All-to-All模型领域发展。

模型先进行图像生成,然后进行图像理解的可视化案例:

Nexus-Gen技术细节

总体框架

Nexus-Gen采用了与GPT-4o类似的 token → [transformer] → [diffusion] → pixels 技术路线,融合了SOTA MLLMs的强大文本预测能力和Diffusion模型的强大图像渲染能力,其总体架构如图所示。

作为一个All-to-All模型,Nexus-Gen的输入和输出都支持图像和文本模态,自回归Transformer输出的文本Token进行分类后解码成对应的输出文本。而输出的视觉Token的embeddings则会作为条件输入给Vision Decoder中解码为输出图像。

之前的All-to-All模型大多直接使用自回归Transformer直接对图像的像素空间进行建模,然后用VAE等模型解码为图像,导致图像质量较差。

为了保证图像质量,Nexus-Gen选择在高维特征空间对图像进行建模,并选择SOTA的扩散模型作为视觉解码器。

相比于处理单一任务的模型,All-to-All模型的潜力在于图像理解、生成、编辑等任务可以相互促进、互相组合

为了完成这一目标,将模型的输入和输出特征空间限定在同一个连续高维特征空间,统一使用Vision Encoder编码图像得到高维特征。对于理解任务,这些特征直接输入模型中作为先验。对于生成任务,这些特征则作为真值指导模型的训练。

预填充自回归策略

在训练阶段,自回归模型直接使用真值作为输入序列,然后将输入序列左移一位后计算损失函数。在推理阶段,则采用Token-by-Token的自回归:即每预测一个Token,就将其送回输入,预测后续的Token。

团队发现,将这种自回归范式,直接运用在连续特征空间的图像Embedding预测上,会带来比较严重的误差累计问题。

如下图所示,从第一个黄色的图像Token开始,预测的Embedding就存在误差。将带误差的Embedding送回输入中,会导致后续的Embedding预测误差不断增大,最终导致整个图像Token序列预测失败。

误差累计本质上是由训练和推理行为不一致导致的。为了解决这个问题,魔搭团队提出了预填充自回归的策略,如下图所示。在训练时使用可学习特殊Token填充对应的图像Embedding位置,这样就可以让模型学习直接预测任意位置的图像Token的能力。

在推理阶段,只要预测到图像的起始Token BOI,就直接预填充N个特殊Token到输入序列中。通过这种方式,能够保证训练和推理阶段行为的一致性,从而消除误差累计。

任务构建与训练细节

在Nexus-Gen工作之前,没有看到过在统一的理解、生成和编辑任务上做训练的先例。所以魔搭团队首先从工程上,探索使用类messages格式来定义所有任务的数据格式。如下图所示。

之后,团队从开源社区收集了约25M训练数据并转化为以上统一的格式,其中,图像理解数据6M,图像生成数据12M,图像编辑数据7M。

部分数据使用Qwen-VL-max API进行了重新标注。其中,图像编辑数据包含了团队在ModelScope社区最新开源的,图像编辑数据集系列ImagePulse。

这一系列数据集中,针对GPT-4o不同的图像编辑能力,包含了添加、去除、改变、风格迁移等原子能力而生成的,大约1M高质量样本。

此外后续团队也会将其他在训练过程中使用到的全部数据,都进行开源。

由于Nexus-Gen将图像特征统一在Vision Encoder的高维空间中,因此自回归模型部分和扩散模型部分可以分开训练。

自回归模型使用魔搭开源的SWIFT框架训练,扩散模型则使用了魔搭的DiffSynth-Studio框架训练。下表详细描述了训练过程的细节。

自回归模型采用了三阶段训练策略,前两个阶段逐步将图像生成和图像编辑能力嵌入语言模型中,最后一个阶段则采用少量高质量数据来提升模型生图质量。

扩散模型的训练目标是将输入条件由原本文本输入调整为图像Embedding输入,采用单阶段训练策略。

Nexus-Gen 功能展示

Nexus同时具备图像理解、生成和编辑能力,以下是每个能力的可视化案例。

图像理解

图像生成

图像编辑

未来展望

在模型融合训练、图像Token数量提升、ScaleUp数据集和模型大小等等方面,Nexus-Gen依然存在着大量的优化潜力,目前ModelScope团队在这些不同方向,还在进行更深入的探索。

Nexus-Gen的诞生,验证了从SOTA的MLLMs和扩散模型出发,来对齐以GPT-4o为代表的闭源SOTA的可能性。其效果与GPT-4o具备许多共同点,比如图像编辑会导致原图部分变化、可以文本润色进行多样化图像生成等;团队也发现了许多OpenAI团队没有揭露的现象,比如图像编辑能力极大受益于图像生成,统一模型使多prompt编辑、故事性编辑成为可能等等。

ModelScope社区会持续将探索过程的模型权重、训练数据以及工程框架全部开源,欢迎社区对Nexus-Gen和All-to-All统一模型的技术未来进行广泛交流。

论文链接:https://arxiv.org/pdf/2504.21356
代码链接:https://github.com/modelscope/Nexus-Gen
模型链接:https://www.modelscope.cn/models/DiffSynth-Studio/Nexus-Gen
数据集(ImagePulse)链接:https://www.modelscope.cn/collections/ImagePulse----tulvmaidong-7c3b8283a43e40

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不用主动申请高龄补贴!全国新规7月上线,70岁老人自动发放

不用主动申请高龄补贴!全国新规7月上线,70岁老人自动发放

陈博世财经
2026-06-28 14:04:07
越南电车亏损39亿美元:宁要越南烂车,不要中国电车,美国图啥

越南电车亏损39亿美元:宁要越南烂车,不要中国电车,美国图啥

王新喜
2026-06-27 06:48:38
山姆代购潮背后:GPT-5.6只能看不能用,苹果芯片跳过M6

山姆代购潮背后:GPT-5.6只能看不能用,苹果芯片跳过M6

全栈遛狗员
2026-06-28 02:10:21
一条普通打底裤,撕裂了性别与时代的尊严战场?

一条普通打底裤,撕裂了性别与时代的尊严战场?

怪味历史连连看
2026-06-28 20:53:41
2026美加墨世界杯1/16决赛赛程时间表及对阵图一览!高清完整版

2026美加墨世界杯1/16决赛赛程时间表及对阵图一览!高清完整版

生活新鲜市
2026-06-28 19:59:40
布里奇斯3换3交易达成!黄蜂换射手补空缺评B+ 太阳得不偿失评D+

布里奇斯3换3交易达成!黄蜂换射手补空缺评B+ 太阳得不偿失评D+

陌识
2026-06-29 04:53:20
将中国游客拒之门外,高市不听岸田劝告,中方对日本政府改了称呼

将中国游客拒之门外,高市不听岸田劝告,中方对日本政府改了称呼

观星赏月
2026-06-29 03:39:15
“敢讹我就捅死你”,女司机把人撞成重伤,持刀冲进医院猛捅伤者

“敢讹我就捅死你”,女司机把人撞成重伤,持刀冲进医院猛捅伤者

易玄
2026-06-27 22:47:19
全网嘲讽!远嫁印度的丹丹复出带货翻车!直播间刷屏:赶紧回印度

全网嘲讽!远嫁印度的丹丹复出带货翻车!直播间刷屏:赶紧回印度

魔都姐姐杂谈
2026-06-28 05:00:03
毛主席为何频繁更换贴身警卫员?越是忠心之人,越会被主动调离

毛主席为何频繁更换贴身警卫员?越是忠心之人,越会被主动调离

奇怪的鲨鱼们
2026-06-25 17:33:35
疯狂梭哈!开拓者为杰伦布朗准备史诗报价,3大核心+4首轮全送

疯狂梭哈!开拓者为杰伦布朗准备史诗报价,3大核心+4首轮全送

布斯基
2026-06-28 21:32:35
拒签、持枪押送、禁止过夜,但伊朗男足撑到了今天

拒签、持枪押送、禁止过夜,但伊朗男足撑到了今天

体育产业生态圈
2026-06-27 20:08:28
信手拈来!39岁梅西轰20米任意球:3场6球不可阻挡 个人世界杯19球

信手拈来!39岁梅西轰20米任意球:3场6球不可阻挡 个人世界杯19球

风过乡
2026-06-28 11:53:47
“走个面”再升级,韩红回应浑身发抖,同行艺人内涵暗讽晚节不保

“走个面”再升级,韩红回应浑身发抖,同行艺人内涵暗讽晚节不保

阿坹武器装备科普
2026-06-26 18:08:35
父亲年前从国企退休,我以为退休金也就三四千块钱

父亲年前从国企退休,我以为退休金也就三四千块钱

五元讲堂
2026-02-25 14:26:11
吴月娘:我这浪肉,被男人摸一下真好

吴月娘:我这浪肉,被男人摸一下真好

老达子
2026-06-26 06:50:03
乔治王子近照公开,英国网民惊呆:这孩子怎么变成这样了...

乔治王子近照公开,英国网民惊呆:这孩子怎么变成这样了...

悦居英国
2026-06-29 02:30:33
挖坑啊!某高校招生专业把机械自动化、人工智能和古生物学放一起

挖坑啊!某高校招生专业把机械自动化、人工智能和古生物学放一起

火山詩话
2026-06-28 08:47:41
发现一个有趣的现象:不管信不信,男人过了50,基本都有以下特征

发现一个有趣的现象:不管信不信,男人过了50,基本都有以下特征

小书虫妈妈
2026-06-25 12:36:46
“每周末是我的噩梦! ”男子控诉妻子要求令人崩溃,吵过多次无果!网友:换个小房子吧

“每周末是我的噩梦! ”男子控诉妻子要求令人崩溃,吵过多次无果!网友:换个小房子吧

新民晚报
2026-06-28 19:41:42
2026-06-29 06:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12857文章数 176506关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

加拿大1-0南非首进16强 欧斯塔基奥92分钟贴地斩绝杀

头条要闻

加拿大1-0南非首进16强 欧斯塔基奥92分钟贴地斩绝杀

体育要闻

两周飞5万公里!因凡蒂诺遭环保人士猛批

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

省钱,我只服梁文锋

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

游戏
房产
旅游
艺术
公开课

从企鹅岛到火星基地,《失控进化》带着4000万人一起刷屏

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

旅游要闻

不止网红水上森林!捞渔河的十年变迁,看懂滇池最动人的生态逆袭

艺术要闻

林徽因先生一生珍稀之影像。

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版