网易首页 > 网易号 > 正文 申请入驻

Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解

0
分享至



上海人工智能实验室推出了一款革新的多模态生成理解一体化的扩散语言模型 ——Lumina-DiMOO。基于离散扩散建模(Discrete Diffusion Modeling),Lumina-DiMOO 打破了多模态任务之间的壁垒,在同一离散扩散框架下,完成从 文本→图像、图像→图像、图像→文本的全栈能力闭环。





  • 论文标题:Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding
  • 论文链接:arxiv.org/pdf/2510.06308
  • GitHub 地址:Alpha-VLLM/Lumina-DiMOO
  • 关键词:多模态生成与理解统一、扩散语言模型

过去:自回归生成的瓶颈

从 Chameleon 到 Lumina-mGPT,再到 Janus-Pro—— 主流 “多模态统一模型”,几乎都基于 自回归(AR)架构。这些模型的架构存在显著缺陷:

  1. 生成太慢:逐 token 生成,导致图像生成通常需要几分钟;
  2. 生成质量受限:图像细节的表现力较弱,尤其是在高分辨率生成时,精细度无法保证;
  3. 任务间无法无缝衔接:多模态的生成和理解任务往往分开处理,导致模型的通用性和效率受到制约。



然而,Lumina-DiMOO 采用了纯离散扩散框架,彻底解决了上述问题。在这个全新的架构中,我们通过并行化的双向注意力机制和灵活的采样策略,实现了跨多任务的高效融合,不仅加速了生成过程,还提升了生成质量。

现在:扩散语言模型的崛起

Lumina-DiMOO,作为一款全新推出的多模态扩散语言模型,凭借其创新的离散扩散架构,不仅在图像生成和文本生成之间架起了无缝桥梁,还在理解和生成任务中实现了跨模态的一体化。与传统自回归(AR)模型相比,Lumina-DiMOO 大幅提升了生成速度和精度,成为多模态领域的技术突破。

1. 离散扩散架构:核心创新与优势

Lumina-DiMOO 使用了最新的离散扩散架构(Discrete Diffusion Model),通过并行生成和双向注意力机制,使得图像生成和理解任务不再互相独立,而是能够在同一个框架中高效运作。这一创新架构打破了传统的生成 - 理解边界,在一个框架中同时实现文本生成图像、图像编辑、风格迁移、图像理解等任务。

2. 高效生成:并行预测与加速

与大多数传统的自回归模型不同,Lumina-DiMOO 通过并行生成的方式大大加快了推理过程。通过一次性处理多个 token 的生成任务,Lumina-DiMOO 能够在每个时间步骤并行预测,并在图像生成任务中从完全 mask 的 token 开始,逐步解码生成图像或文本。这种方式不仅加速了生成过程,还有效提升了生成质量,确保了任务间的高效协同。



3. 双向注意力机制:深入理解与生成

双向注意力机制(Bidirectional Attention)是 Lumina-DiMOO 另一个关键的技术特点。该机制让模型不仅能够理解文本的上下文关系,还能捕捉图像之间的结构和细节。这种跨模态的注意力机制确保了文本和图像任务的高度一致性,同时提升了模型在理解和生成过程中处理多模态信息的能力。

4. 联合优化:全局性能提升

Lumina-DiMOO 还采用了全局优化策略,在训练过程中通过联合损失函数优化整体性能。通过这种方法,Lumina-DiMOO 不仅优化了文本生成图像、图像编辑、理解等任务的表现,还确保了模型的高效统一和多任务能力,使其能够在多个任务之间无缝切换。

加速采样:Max-Logit 缓存技术的革新应用

在 Lumina-DiMOO 的推理过程中,Max-Logit 缓存技术显著提升了生成效率和速度。该技术通过缓存那些 “稳定” 或 “不容易变化” 的 token,避免了不必要的重复计算,从而加速了推理过程。具体而言,在生成每个 token 时,模型评估其概率分布,并将高置信度的 token 进行缓存,只有当 token 变化较大时才重新计算。通过并行推理和高效的缓存机制,Max-Logit 技术不仅加快了推理速度,还保证了生成质量,尤其在高分辨率生成任务中,能够保留图像的细节与准确性。此外,该技术的引入大幅降低了计算成本,使得 Lumina-DiMOO 在保持高质量生成的同时,具备了更高的推理效率和更低的计算开销。

模型的 “自我演化”:Self-GRPO



更令人惊喜的是,团队提出了一个全新的自我强化框架 ——Self-GRPO。它把 “图像生成” 和 “多模态理解” 整合进一条强化学习轨迹,让模型在生成中学会理解,在理解中反哺生成。训练过程中,模型会自评答案正确率、计算奖励、再反向优化,从而完成 “生成 - 推理 - 校正” 的闭环。这意味着 Lumina-DiMOO 已不仅是一个多模态模型,更像一个具备 自主反思能力的智能体雏形。

成绩单:全面 SOTA

Lumina-DiMOO 在多项权威评测中夺魁:

  • UniGenBench(由腾讯混元维护):开源模型第一名
  • GenEval:综合得分 0.88,超越 GPT-4o、BAGEL、Janus-Pro 等顶尖模型
  • DPG、OneIG-EN、TIIF:在语义一致性、布局理解、属性绑定、推理等维度全面领先。

未来展望

Lumina-DiMOO 让我们再次接近 “原生多模态智能” 的理想。

它能读、能写、能画、能思考 —— 真正实现从感知到创造的统一闭环。

正如团队所言:

“我们希望模型不只是理解世界,更能创造世界。”

—— 来自 Alpha-VLLM 团队的又一次大胆尝试。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
血拼一夜!千名塔利班敢死队冲锋,巴铁枭龙大开杀戒,美械全被炸

血拼一夜!千名塔利班敢死队冲锋,巴铁枭龙大开杀戒,美械全被炸

霁寒飘雪
2026-02-28 11:46:05
一彩民中奖127亿元!

一彩民中奖127亿元!

美丽汉中mlhz
2026-02-27 22:06:43
新加坡大满贯赛:太遗憾!国乒女单1:3被淘汰,单局得2分无缘晋级

新加坡大满贯赛:太遗憾!国乒女单1:3被淘汰,单局得2分无缘晋级

国乒二三事
2026-02-28 07:37:17
中国50后还有多少人?多少人能活到80岁?权威数据告诉你

中国50后还有多少人?多少人能活到80岁?权威数据告诉你

深度报
2026-02-27 21:36:50
以色列宣布袭击伊朗,比特币快速下挫近4000美元 日内跌近6%

以色列宣布袭击伊朗,比特币快速下挫近4000美元 日内跌近6%

财闻
2026-02-28 14:39:06
“王一博聊天记录”热搜爆了,乐华娱乐紧急声明:严重失实!

“王一博聊天记录”热搜爆了,乐华娱乐紧急声明:严重失实!

上观新闻
2026-02-28 09:37:41
7年时间,股价从7元涨到227元,没走的股民乐开了花。

7年时间,股价从7元涨到227元,没走的股民乐开了花。

财经智多星
2026-02-27 20:45:19
孙志浩患癌晚期,贾静雯的女儿得50亿遗产,修杰楷“隔山”吃肥肉

孙志浩患癌晚期,贾静雯的女儿得50亿遗产,修杰楷“隔山”吃肥肉

我心纵横天地间
2026-02-27 22:01:41
中朝边境鸭绿江口现状:朝鲜领土正在不断增加,中方却在逐渐减少

中朝边境鸭绿江口现状:朝鲜领土正在不断增加,中方却在逐渐减少

普览
2026-02-26 21:29:19
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
伊朗的投降王牌:只要美国松绑,出卖中国利益绝不会有半点犹豫

伊朗的投降王牌:只要美国松绑,出卖中国利益绝不会有半点犹豫

老范谈史
2026-02-28 06:45:51
李奇微晚年在回忆录里写道:一场朝鲜战争,打出了三个超级大国

李奇微晚年在回忆录里写道:一场朝鲜战争,打出了三个超级大国

饭小妹说历史
2026-02-27 14:32:55
美专家预测:如果中国军队出现在乌克兰,三天就能结束战斗?

美专家预测:如果中国军队出现在乌克兰,三天就能结束战斗?

议纪史
2026-02-27 14:40:03
俄罗斯驻华大使馆微博,27日深夜发文称:中国网友误会我们了!

俄罗斯驻华大使馆微博,27日深夜发文称:中国网友误会我们了!

消失的电波
2026-02-28 08:43:31
四部门宣布:放高利贷正式入罪

四部门宣布:放高利贷正式入罪

新浪财经
2026-02-27 17:10:34
男篮世预赛又曝出一大冷门!3冠王惨遭掀翻:中国队苦主彻底陨落

男篮世预赛又曝出一大冷门!3冠王惨遭掀翻:中国队苦主彻底陨落

篮球快餐车
2026-02-28 11:36:43
重大信号!A股,集体公告!最牛净利大增超745%,“寒王”战报来袭

重大信号!A股,集体公告!最牛净利大增超745%,“寒王”战报来袭

券商中国
2026-02-28 13:42:06
福特号厕所为何炸了?真相在细节!

福特号厕所为何炸了?真相在细节!

环球策论
2026-02-26 21:28:15
捡红包事件陷入僵局!车主不承认,金额难确认,失主做法惹争议!

捡红包事件陷入僵局!车主不承认,金额难确认,失主做法惹争议!

离离言几许
2026-02-27 14:24:43
中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

瓦伦西亚月亮
2026-02-20 17:37:18
2026-02-28 16:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12382文章数 142573关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

最高领袖办公室附近遭袭 媒体:伊朗领导体系仍具韧性

头条要闻

最高领袖办公室附近遭袭 媒体:伊朗领导体系仍具韧性

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

疑似王一博被爆私密聊天记录

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

时尚
数码
亲子
本地
房产

被章若楠、秦岚带火的鞋子竟然是它?春天这样穿又美又气质!

数码要闻

海信RGB-Mini LED电视UX 2026款3月5日发布

亲子要闻

多地公布去年育儿补贴资金规模

本地新闻

津南好·四时总相宜

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

无障碍浏览 进入关怀版