网易首页 > 网易号 > 正文 申请入驻

Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解

0
分享至



上海人工智能实验室推出了一款革新的多模态生成理解一体化的扩散语言模型 ——Lumina-DiMOO。基于离散扩散建模(Discrete Diffusion Modeling),Lumina-DiMOO 打破了多模态任务之间的壁垒,在同一离散扩散框架下,完成从 文本→图像、图像→图像、图像→文本的全栈能力闭环。





  • 论文标题:Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
  • 论文链接:arxiv.org/pdf/2510.06308
  • GitHub 地址:Alpha-VLLM/Lumina-DiMOO
  • 关键词:多模态生成与理解统一、扩散语言模型

过去:自回归生成的瓶颈

从 Chameleon 到 Lumina-mGPT,再到 Janus-Pro—— 主流 “多模态统一模型”,几乎都基于 自回归(AR)架构。这些模型的架构存在显著缺陷:

  1. 生成太慢:逐 token 生成,导致图像生成通常需要几分钟;
  2. 生成质量受限:图像细节的表现力较弱,尤其是在高分辨率生成时,精细度无法保证;
  3. 任务间无法无缝衔接:多模态的生成和理解任务往往分开处理,导致模型的通用性和效率受到制约。



然而,Lumina-DiMOO 采用了纯离散扩散框架,彻底解决了上述问题。在这个全新的架构中,我们通过并行化的双向注意力机制和灵活的采样策略,实现了跨多任务的高效融合,不仅加速了生成过程,还提升了生成质量。

现在:扩散语言模型的崛起

Lumina-DiMOO,作为一款全新推出的多模态扩散语言模型,凭借其创新的离散扩散架构,不仅在图像生成和文本生成之间架起了无缝桥梁,还在理解和生成任务中实现了跨模态的一体化。与传统自回归(AR)模型相比,Lumina-DiMOO 大幅提升了生成速度和精度,成为多模态领域的技术突破。

1. 离散扩散架构:核心创新与优势

Lumina-DiMOO 使用了最新的离散扩散架构(Discrete Diffusion Model),通过并行生成和双向注意力机制,使得图像生成和理解任务不再互相独立,而是能够在同一个框架中高效运作。这一创新架构打破了传统的生成 - 理解边界,在一个框架中同时实现文本生成图像、图像编辑、风格迁移、图像理解等任务。

2. 高效生成:并行预测与加速

与大多数传统的自回归模型不同,Lumina-DiMOO 通过并行生成的方式大大加快了推理过程。通过一次性处理多个 token 的生成任务,Lumina-DiMOO 能够在每个时间步骤并行预测,并在图像生成任务中从完全 mask 的 token 开始,逐步解码生成图像或文本。这种方式不仅加速了生成过程,还有效提升了生成质量,确保了任务间的高效协同。



3. 双向注意力机制:深入理解与生成

双向注意力机制(Bidirectional Attention)是 Lumina-DiMOO 另一个关键的技术特点。该机制让模型不仅能够理解文本的上下文关系,还能捕捉图像之间的结构和细节。这种跨模态的注意力机制确保了文本和图像任务的高度一致性,同时提升了模型在理解和生成过程中处理多模态信息的能力。

4. 联合优化:全局性能提升

Lumina-DiMOO 还采用了全局优化策略,在训练过程中通过联合损失函数优化整体性能。通过这种方法,Lumina-DiMOO 不仅优化了文本生成图像、图像编辑、理解等任务的表现,还确保了模型的高效统一和多任务能力,使其能够在多个任务之间无缝切换。

加速采样:Max-Logit 缓存技术的革新应用

在 Lumina-DiMOO 的推理过程中,Max-Logit 缓存技术显著提升了生成效率和速度。该技术通过缓存那些 “稳定” 或 “不容易变化” 的 token,避免了不必要的重复计算,从而加速了推理过程。具体而言,在生成每个 token 时,模型评估其概率分布,并将高置信度的 token 进行缓存,只有当 token 变化较大时才重新计算。通过并行推理和高效的缓存机制,Max-Logit 技术不仅加快了推理速度,还保证了生成质量,尤其在高分辨率生成任务中,能够保留图像的细节与准确性。此外,该技术的引入大幅降低了计算成本,使得 Lumina-DiMOO 在保持高质量生成的同时,具备了更高的推理效率和更低的计算开销。

模型的 “自我演化”:Self-GRPO



更令人惊喜的是,团队提出了一个全新的自我强化框架 ——Self-GRPO。它把 “图像生成” 和 “多模态理解” 整合进一条强化学习轨迹,让模型在生成中学会理解,在理解中反哺生成。训练过程中,模型会自评答案正确率、计算奖励、再反向优化,从而完成 “生成 - 推理 - 校正” 的闭环。这意味着 Lumina-DiMOO 已不仅是一个多模态模型,更像一个具备 自主反思能力的智能体雏形。

成绩单:全面 SOTA

Lumina-DiMOO 在多项权威评测中夺魁:

  • UniGenBench(由腾讯混元维护):开源模型第一名
  • GenEval:综合得分 0.88,超越 GPT-4o、BAGEL、Janus-Pro 等顶尖模型
  • DPG、OneIG-EN、TIIF:在语义一致性、布局理解、属性绑定、推理等维度全面领先。

未来展望

Lumina-DiMOO 让我们再次接近 “原生多模态智能” 的理想。

它能读、能写、能画、能思考 —— 真正实现从感知到创造的统一闭环。

正如团队所言:

“我们希望模型不只是理解世界,更能创造世界。”

—— 来自 Alpha-VLLM 团队的又一次大胆尝试。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不算分!U23国足VS泰国,开球时间确定,李昊和拜合拉木影响出线

不算分!U23国足VS泰国,开球时间确定,李昊和拜合拉木影响出线

体育大学僧
2026-01-13 10:08:59
李讷晚年回忆,曾问父亲和谁关系最好,毛主席干脆利落地说出4人

李讷晚年回忆,曾问父亲和谁关系最好,毛主席干脆利落地说出4人

兴趣知识
2025-12-04 20:47:30
加密货币草案拟将XRP、Solana和狗狗币归于比特币同等法律地位

加密货币草案拟将XRP、Solana和狗狗币归于比特币同等法律地位

奔跑财经
2026-01-14 11:20:57
苍天好轮回!徐帆回应离婚5个月后,冯小刚终于迎来"反噬"

苍天好轮回!徐帆回应离婚5个月后,冯小刚终于迎来"反噬"

诺诺谈史
2026-01-12 19:25:53
江苏一批省管领导干部明确新职务

江苏一批省管领导干部明确新职务

无线徐州
2026-01-13 20:36:01
3大信号已发出,美军要突袭伊朗,战斗随时打响,不走就来不及了

3大信号已发出,美军要突袭伊朗,战斗随时打响,不走就来不及了

小陈讲史
2026-01-13 11:20:04
A股:权威定调,人民日报放大招,一个重要信号,周三迎关键变化

A股:权威定调,人民日报放大招,一个重要信号,周三迎关键变化

云鹏叙事
2026-01-14 00:00:06
赛季至今,36岁哈登得了927分,37岁的杜兰特得了多少分呢?

赛季至今,36岁哈登得了927分,37岁的杜兰特得了多少分呢?

越岭寻踪
2026-01-14 06:32:33
原中央党校副校长总结“中国官场三大定律”

原中央党校副校长总结“中国官场三大定律”

霹雳炮
2026-01-12 21:18:44
落草凤凰不如鸡?40岁女神“下海”拍短剧,老公于三年前被判无期

落草凤凰不如鸡?40岁女神“下海”拍短剧,老公于三年前被判无期

鹿楠
2025-12-31 21:25:03
我国004型航母将是世界上最大的核动力航母

我国004型航母将是世界上最大的核动力航母

起喜电影
2026-01-14 08:15:59
韩国U23输球名宿震怒:若再遇到中国队我会很焦虑,而不是高兴

韩国U23输球名宿震怒:若再遇到中国队我会很焦虑,而不是高兴

行舟问茶
2026-01-14 10:07:51
轻取公牛!杜兰特28+10,史密斯救命8分,火箭该让雨姐首发了

轻取公牛!杜兰特28+10,史密斯救命8分,火箭该让雨姐首发了

巴叔GO聊体育
2026-01-14 11:54:15
岛内突然爆料,民进党官员已经去过大陆,未来或接受九二共识?

岛内突然爆料,民进党官员已经去过大陆,未来或接受九二共识?

DS北风
2026-01-13 17:42:13
形势危急:据称,伊朗抗议活动的死亡人数急剧上升到500多人

形势危急:据称,伊朗抗议活动的死亡人数急剧上升到500多人

一种观点
2026-01-12 08:13:06
经济崩了,盟友全跑了,和中国决裂的欧洲小国,现在想找中国填坑

经济崩了,盟友全跑了,和中国决裂的欧洲小国,现在想找中国填坑

温读史
2026-01-14 11:45:06
曾因“脏脏包”爆红,如今一年关店132家!初代网红品牌店退出多地市场

曾因“脏脏包”爆红,如今一年关店132家!初代网红品牌店退出多地市场

都市快报橙柿互动
2026-01-13 23:17:54
朱雨玲夺冠24小时内现丑闻,孙颖莎王曼昱被波及

朱雨玲夺冠24小时内现丑闻,孙颖莎王曼昱被波及

琨玉秋霜
2026-01-14 01:05:00
直线拉升!刚刚,美联储,降息大消息

直线拉升!刚刚,美联储,降息大消息

中国基金报
2026-01-13 23:13:56
曼联的痛!24岁格林伍德戴帽+2妙传+赛季第19球+领跑法甲射手榜

曼联的痛!24岁格林伍德戴帽+2妙传+赛季第19球+领跑法甲射手榜

侧身凌空斩
2026-01-14 09:08:58
2026-01-14 12:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12112文章数 142536关注度
往期回顾 全部

科技要闻

美国批准英伟达H200卖给中国,但有条件

头条要闻

委方:美国袭击爆炸威力巨大 无法对残骸进行DNA鉴定

头条要闻

委方:美国袭击爆炸威力巨大 无法对残骸进行DNA鉴定

体育要闻

牛津学霸买下儿时主队,让它成为英超黑马

娱乐要闻

何晴去世30天,许亚军终于发声

财经要闻

"死了么"App爆火:流量来了 困境未解

汽车要闻

曝Model Y或降到20万以内!

态度原创

教育
房产
手机
数码
亲子

教育要闻

跟大鹏老师学将军饮马,通熟易懂!

房产要闻

热销17亿后!天正·三亚湾壹号,被爆违建!

手机要闻

王自如和罗永浩观点一致:纷纷称赞荣耀Magic8 Pro Air

数码要闻

华硕ProArt 创13 2026开启预约 支持360°旋转多形态

亲子要闻

儿童液体钙哪个牌子好?2026十款热门儿童液体钙品牌推荐

无障碍浏览 进入关怀版