网易首页 > 网易号 > 正文 申请入驻

ILLUME+:华为诺亚探索新GPT-4o架构,理解生成一体模型

0
分享至


近年来,基于大语言模型(LLM)的多模态任务处理能力取得了显著进展,特别是在将视觉信息融入语言模型方面。像 QwenVL 和 InternVL 这样的模型已经展示了在视觉理解方面的卓越表现,而以扩散模型为代表的文本到图像生成技术也不断突破,推动了统一多模态大语言模型(MLLM)的发展。这些技术的进步使得视觉理解和生成能力的无缝集成成为可能,进一步推进了视觉和语义深度融合下的人工通用智能(AGI)的探索。

新一代 GPT-4o 作为理解生成一体的模型,其强大的能力已经令人瞩目。它不仅在语义理解和图像生成方面展现出极高的准确性和流畅性,还特别擅长上下文感知生成(context-aware generation)和图像编辑(image editing)任务。无论是在进行高精度的图像生成,还是在复杂的图像编辑任务中,GPT-4o 都能动态理解和生成符合上下文需求的内容,极大地增强了模型的实用性和灵活性。这使得 GPT-4o 能够在多模态任务中更加高效地完成多种复杂场景下的理解与生成工作。

最近,华为诺亚盘古研究团队联合香港大学推出了ILLUME+,这款模型是 ILLUME 的升级版本,采用了双重视觉联合词表(DualViTok)和扩散解码器的创新设计,显著提升了语义理解和高保真图像生成能力。与当前现有的统一模型不同,ILLUME + 能够在图像理解、生成和编辑三大能力上达到优异的表现,解决了传统模型在图像纹理保持和语义对齐方面的难题。

  • 链接:https://arxiv.org/abs/2504.01934
  • 项目地址:https://illume-unified-mllm.github.io/

ILLUME + 在处理多模态任务时,展现出强大的上下文感知能力和语义深层交互能力,能够更准确地理解和生成视觉与语言的关系。它的创新架构通过双视觉联合词表(DualViTok)将语义信息与图像细节同时保留,为图像编辑和生成任务提供了更加精细的控制能力。此外,扩散解码器的引入,不仅提升了生成图像的质量,还使得超分辨率图像生成变得更加高效,避免了传统自回归模型在高分辨率生成时的计算瓶颈。

而这正是目前行业所需要的一种能够同时满足理解、生成和编辑需求的统一架构。与新一代 GPT-4o 架构相比,ILLUME + 采用了类似的其官网中暗示的 Token→ [Transformer]→ [Diffusion]→ pixel 的结构,在语义理解和上下文感知生成能力上达到新的高度。我们认为,ILLUME + 所展示的架构,正是未来统一大语言模型发展的方向。

随着我们对该架构的深入研究,ILLUME + 的 3B 模型在多模态理解、生成与编辑的基准测试中均展现出了卓越的性能(比肩 7B)。ILLUME + 的优势不仅体现在单一任务的出色表现,更在于它能够灵活适应多样的应用场景,推动着多模态大语言模型向着更加智能化、可扩展的方向迈进。

ILLUME+ 关键技术点与模型架构

1. 双重视觉联合词表(DualViTok)

ILLUME + 的核心创新之一是双重视觉联合词表(DualViTok),该词表通过两条分支设计,分别处理图像的语义信息和细节纹理。具体来说,语义分支利用预训练的文本对齐视觉编码器(如 QwenViT)提取高层次的语义特征,这些特征被量化为离散标记,并通过轻量级解码器进行重建。同时,像素分支则通过 MoVQGAN 类似的架构进行像素级的细节重建,保证图像细节的高保真度。

2. 扩散解码器(Diffusion Decoder)

为进一步提升生成图像的质量,ILLUME + 引入了扩散解码器。该解码器使用扩散模型进行图像生成,显著提高了图像的细节和鲁棒性。扩散解码器还能够进行高效的超分辨率生成,缓解了传统自回归生成方法在高分辨率生成时的 token 数目急剧增长带来的推理速度瓶颈。通过这种设计,ILLUME + 能够生成高分辨率图像(最高可达 1024×1024),同时有效提高了图像的细节和质量。

3. 连续输入、离散输出的 MLLM 架构

ILLUME + 采用了统一的多模态大语言模型(MLLM),该模型能够同时生成文本和图像,并通过共同的预测头来进行联合建模。ILLUME + 采用连续输入、离散输出的机制。在输入端,直接使用视觉连接器连接离散化层前的视觉特征到 LLM 中。输出端仍然保留统一输出头,以自回归的形式预测文本 token 与视觉 token。这种机制确保了图像输入时不会因量化过程丢失细粒度信息,保证了模型在视觉理解任务中展现了更好的稳定性和细致的语义处理能力。在生成图像时,ILLUME + 采用生成语义 token 后再生成纹理 token 的方式(Coarse-to-fine Unified Image Representation),由于图像语义表征更容易和文本对齐,这种先语义再纹理的序列化方式,加速了文本和图像细节纹理信息的对齐,从而提升生成图像的高保真度和语义一致性。

4. 支持任意分辨率的渐进式训练策略

ILLUME + 采用渐进式的训练策略,从而使得词表、MLLM 和 Diffusion decoder 三个模块均支持动态分辨率的训练与推理。训练流程包括五个阶段,逐步增强模型能力,确保稳定性和最终性能。下图展示了我们的五个训练阶段的打开参数和每个阶段的数据分布情况。

Dual Vision Tokenizer Training:训练双重视觉标记化器,通过重建语义和像素信息,逐步增加输入分辨率,先训练固定 256 分辨率,再训练固定 512,最后训练 512×512 以内的任意分辨率,确保模型在不同分辨率下的稳定训练。该阶段采用了 63M 训练数据,包括自然图像,美学图像,人物肖像,文档图表类和学科类图片数据。

Diffusion Decoder Training(扩散解码器优化):进一步优化图像生成质量,通过扩散模型提升生成细节,并进行图像超分辨率输出,解决自回归方法的生成高分辨率速度瓶颈。训练时,我们冻结视觉词表中的编码器和词表的权重,打开 Diffusion 的参数进行训练。为支持高分辨率,训练分为两个子阶段,即先训练像素数量在 512×512 左右的分辨率,再训练像素数量在 1024×1024 左右的分辨率。该阶段采用了 10M 与训练视觉词表相同分布的数据。

MLLM Stage 1: Visual Embedding Initialization:初始化 MLLM 中新增的视觉词表与视觉连接器,优化图像重建和描述任务,固定分辨率为 256×256,以获得良好的视觉表示。

MLLM Stage 2: Unified Image-Text Alignment:通过多模态数据训练,打开视觉适配器和语言模型,增强图像与文本的语义对齐,先训练分辨率 256×256,再提升至 512×512。

MLLM Stage 3: Supervised Fine-tuning:使用复杂的多任务数据进行微调,支持任意分辨率图像输入,以及高达 11 种不同长宽比的图像生成,最高像素达到 1024×1024。

ILLUME+(3B) 实验结果

实验设置

在实验中,ILLUME + 使用 Qwen2.5(3B)作为基础大语言模型(LLM)。其 encoder 采用了预训练的 QwenVIT 语义编码器和基于 MoVQGAN 的像素编码器架构。流程上打通了昇腾训练与推理。训练过程中,使用了 256 Ascend NPUs。其中,视觉词表和 Diffusion 训练 3+3 天;3B 的 MLLM 模型,经过三个阶段的训练,总训练时间约为 13 天。

多分辨率文生图可视化

多功能图像编辑可视化

(注:这其中的很多任务比如 ghibli style 和 ID 保持的编辑并未特意制作过数据,但是竟然都能泛化出来,很神奇)

图像理解可视化

与 SOTA 模型的比较

多模态理解:在多模态理解任务中,ILLUME + 在常用的基准测试(如 POPE、MMBench、SEED 等)上表现优秀,尤其在文档相关任务中展现了优异的性能。尽管是 3B 模型,ILLUME + 在这些任务上与现有的 7B 模型如 Janus-Pro-7B 和 ILLUME-7B 相当,特别是在文档理解任务中,得益于双重编码器设计,模型在保留强大理解能力方面取得了显著优势。

多模态图像生成:在多模态图像生成方面,ILLUME + 在 MJHQ-30K、GenAI-bench 和 GenEval 基准测试中取得了显著成绩。在 MJHQ-30K 的 FID 分数为 6.00,达到了最先进的生成质量和多样性,在复杂文本描述生成方面获得了很好的准确度。

多模态图像编辑:在图像编辑任务中,ILLUME + 在 Emu Edit 基准测试中优于专门的图像编辑模型,特别是在 CLIP-T 评分上,表明其强大的理解能力增强了对编辑指令的解释能力,实现了更加精确的修改。DualViTok 设计有效提高了与原始图像的一致性,特别是在纹理信息处理上。

Tokenizer 的图像重建:在 ImageNet 50k 验证集上,DualViTok 在不同分辨率下的重建效果超越了多种现有的视觉标记化器,尤其在 256×256 分辨率下,展现了最优的性能。特别是在 384×384 分辨率下,DualViTok 相较于 VILA-U 有了显著的提升,突出了其在处理不同输入分辨率时的灵活性和高效性。

更多的 Ablation Study 可参看具体论文

结语

ILLUME + 通过创新的 DualViTok 保留图像中的语义和细节纹理,并结合扩散解码器提升图像生成质量,实现了任意分辨率。凭借统一的粗到细图像表示和动态视觉分辨率的渐进训练过程,ILLUME + 仅用 3B 参数便能处理灵活分辨率的视觉输入和输出,并在多模态理解、生成和编辑任务中表现出色,在 context-aware 生成和泛化上表现出了令人意外的水平。

作者表示将会尝试更大的模型,并且尝试更多原生图像 - 文本交织预训练的效果,让 ILLUME + 能够真正在视觉任务上完成大一统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西甲争议判罚!贝林厄姆踩人逃点,巴尔特拉暴怒,维尼修斯险造点

西甲争议判罚!贝林厄姆踩人逃点,巴尔特拉暴怒,维尼修斯险造点

奥拜尔
2026-01-05 00:14:54
新华社消息|委最高法院公布代理总统决定 未宣布马杜罗“绝对缺席”

新华社消息|委最高法院公布代理总统决定 未宣布马杜罗“绝对缺席”

新华社
2026-01-04 15:23:44
一夜之间,中国传来2个爆炸性突破,美国从88%降到9%,中国猛追

一夜之间,中国传来2个爆炸性突破,美国从88%降到9%,中国猛追

法老不说教
2025-11-19 22:46:19
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

梦录的西方史话
2025-12-31 13:44:44
社科院专家:借钱也要生娃!生不起孩子,可暂时求助亲戚朋友

社科院专家:借钱也要生娃!生不起孩子,可暂时求助亲戚朋友

深度报
2025-09-27 22:10:15
嫁黎明4年败光7亿家产,离婚后再嫁美国富豪,如今胖成大妈不敢认

嫁黎明4年败光7亿家产,离婚后再嫁美国富豪,如今胖成大妈不敢认

白面书誏
2026-01-03 21:31:21
童锦程已注销名下多家企业

童锦程已注销名下多家企业

雷达财经
2026-01-04 16:33:15
俄罗斯报仇了,硬刚国际刑事法院,通缉我总统?回击追捕你们法官

俄罗斯报仇了,硬刚国际刑事法院,通缉我总统?回击追捕你们法官

探源历史
2025-12-17 05:16:28
委内瑞拉总统被抓,国内专家预言水平堪比德云社,央视太难了

委内瑞拉总统被抓,国内专家预言水平堪比德云社,央视太难了

姜大叔侃球
2026-01-04 17:57:48
突然大跌!马斯克,突传大消息!

突然大跌!马斯克,突传大消息!

证券时报e公司
2026-01-03 15:03:16
1952年,88岁齐白石将25岁新凤霞拉进屋:柜子里都是钱,你随便拿

1952年,88岁齐白石将25岁新凤霞拉进屋:柜子里都是钱,你随便拿

兴趣知识
2025-12-31 18:24:12
要交购置税了,但是产能过剩严重,燃油车倒逼,今年车价或更便宜

要交购置税了,但是产能过剩严重,燃油车倒逼,今年车价或更便宜

柏铭锐谈
2026-01-02 12:25:34
苹果 MacBook 新品曝光,终于换了新设计

苹果 MacBook 新品曝光,终于换了新设计

全是技能
2026-01-04 10:54:46
特朗普政府要求美国石油公司投资委内瑞拉

特朗普政府要求美国石油公司投资委内瑞拉

新华社
2026-01-04 20:13:02
帮我们认清这个世界真相的,还得是懂王

帮我们认清这个世界真相的,还得是懂王

超级学爸蛋总
2026-01-04 21:00:15
海南封关成照妖镜,东南亚国家现行了,新加坡直言:不准自给自足

海南封关成照妖镜,东南亚国家现行了,新加坡直言:不准自给自足

通文知史
2026-01-04 13:45:03
双星名人84岁创始人汪海声明断绝父子关系:控诉汪军一家三次有组织抢公章,声讨其公然背叛品牌、背叛老爹

双星名人84岁创始人汪海声明断绝父子关系:控诉汪军一家三次有组织抢公章,声讨其公然背叛品牌、背叛老爹

极目新闻
2026-01-04 19:16:30
苹果20款新品提前曝光,把网友都看呆了!

苹果20款新品提前曝光,把网友都看呆了!

科技堡垒
2026-01-04 11:42:42
欲哭无泪!新年上班第一天,收到公司分流通知,人到中年何去何从

欲哭无泪!新年上班第一天,收到公司分流通知,人到中年何去何从

火山詩话
2026-01-04 20:53:35
服软!失业一年费南多自降身价只要25万美元年薪,还有中超队要吗

服软!失业一年费南多自降身价只要25万美元年薪,还有中超队要吗

零度眼看球
2026-01-04 09:04:11
2026-01-05 02:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12052文章数 142528关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

房产
教育
健康
手机
军事航空

房产要闻

单盘最高狂卖64亿!海南楼市2025年最全榜单发布!

教育要闻

备考27新传研究生需要知道的50件事。

这些新疗法,让化疗不再那么痛苦

手机要闻

一加Turbo6参数公布,挑战Turbo档最强游戏体验

军事要闻

美军突袭抓获马杜罗 三个细节值得关注

无障碍浏览 进入关怀版