网易首页 > 网易号 > 正文 申请入驻

上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式

0
分享至

上海人工智能实验室,上海创新研究院,上海交大,南京大学,悉尼大学,港中大,清华,共同推出了被誉为新一代多模态生成与理解统一模型的Lumina-DiMOO。



“An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding”,翻译过来就是“面向多模态生成与理解的全方位扩散大语言模型”。关键词:“全方位”。这背后藏着它的独门绝技——“全离散扩散架构”。

传统多模态架构

文本是离散的、有逻辑结构的符号序列;图像是连续的、由像素网格构成的空间信息。AI面临的难题,就是如何让文本和图像联系起来。这就是多模态AI技术的核心挑战:统一表示与对齐。

解决这个问题的思路,就像是给“AI外星人”都教一种“宇宙通用语”。模型需要把文本、图像、音频这些五花八门的数据,统统映射到一个共享的、高维的“语义空间”里。在这个空间里,不同的数据格式被剥离,只剩下最核心的“意义”。

开创这一思路的先驱之一,就是大名鼎鼎的CLIP模型。它的训练方式简单粗暴又极其有效,叫做“对比学习”。就像一个老师,拿出海量的“图片-文字”配对作业,告诉模型:“看,这张图和这段话是天生一对,你们要靠得近一点。”同时又指着另一对不匹配的图文说:“你们俩八竿子打不着,离远点!”经过亿万次这样的“拉近”和“推远”训练后,模型就学会了这种“宇宙通用语”。它能理解,“苹果”这个词,既可以指向一张红彤彤的水果图片,也可以指向一个印着被咬了一口苹果标志的手机图片。这种跨模态的理解和对齐能力,是后续所有多模态生成模型的基础。

解决了语言问题,接下来就是怎么盖楼,也就是模型的架构设计。目前,主流的多模态大模型架构,主要是在强大的Transformer基础上进行扩展和融合。你可以把Transformer想象成一个超级智能的“信息加工厂”,它最擅长处理序列数据,并能通过“注意力机制”抓住信息中最关键的部分。但问题来了,不同模态的数据,这些“原材料”,该在哪个环节送进加工厂呢?这就催生了三种主流的“融合策略”。

“早期融合”。这种方法简单直接,就像做大杂烩。它在数据处理的最开始阶段,就把图像特征、文本特征等粗暴地拼接在一起,或者直接相加,然后一股脑儿地喂给一个共享的Transformer编码器。优点是简单,计算量相对小。缺点也很明显,不同模态的数据特性差异巨大,这么早地“生拉硬拽”在一起,很可能会互相干扰,导致信息损失,效果往往不尽如人意。

“中期融合”,也叫“交叉融合”。它会让文本和图像等不同的原材料,先进各自的“专属厨房”(独立的编码器)进行初步加工,提取出各自的精华特征。然后,在加工厂的核心区域,通过一个叫做“交叉注意力机制”,让这些半成品互相“交流”。比如,图像特征可以“看一看”文本特征里哪些词是重点,文本特征也可以“瞅一瞅”图像里哪些区域最关键。这种方式能够实现更深层次的信息交互,效果通常比早期融合好得多,也是目前很多高性能模型采用的策略。

“晚期融合”。这种方法就像是各自做完一道拿手菜,最后再拼成一个套餐。不同模态的数据从头到尾都走自己的独立处理流水线,直到最后输出结果的阶段,才把各自的结论融合起来做最终决策。这种方法保留了各模态信息的独立性,但在需要深度交互的任务上,往往会因为“沟通”太少而力不从心。

Lumina-DiMOO的创新之处,就在于它没有在这三种传统路径上修修补补,而是用一种全新的、更底层的逻辑,对整个多模态生成与理解的过程进行了重构。

Lumina-DiMOO四大“核武器”

传统的多模态生成模型,比如一些早期的文本到图像模型,采用的是“自回归”(AR)范式。就像我们写文章一样,一个字一个字地往外蹦。模型生成图像时,也是一个像素块一个像素块地生成,后一个像素块的生成要依赖于前面所有已生成的像素块。这种方式逻辑清晰,但缺点是致命的:慢!而且是一维的、串行的过程,很容易出现误差累积,生成到后面就“跑偏了”。

后来,扩散模型异军突起,它反其道而行之。扩散模型生成图像的过程,更像一位雕塑家。它先从一整块随机噪声(可以想象成一块混沌的“大理石”)开始,然后通过一个逐步去噪的过程,一步一步地把有意义的结构和细节“雕刻”出来,直到最后呈现出一幅清晰的图像。这个过程是并行的,质量更高,但早期的扩散模型在处理不同模态,尤其是离散的文本时,总有点水土不服。

Lumina-DiMOO的开创性在于,它首次实现了“全离散扩散建模”(Fully Discrete Diffusion Modeling)。它不仅用扩散的方式处理图像,还巧妙地把文本等离散数据也纳入了这个统一的扩散框架中。它将所有模态的数据都看作是可以被逐步“去噪”和“生成”的对象。这种统一的视角,使得模型内部的结构异常简洁和优雅,避免了不同模态处理流程“打架”的问题。这样做的好处是显而易见的:不仅生成质量大幅提升,更重要的是,采样效率得到了前所未有的提升。



在Lumina-DiMOO的世界里,生成和理解不再是两件独立的事。它支持的任务范围之广,几乎涵盖了当前图像多模态领域所有的热门应用。从最基础的“文本到图像生成”,“图像到图像生成”,或者“擦掉照片里那个乱入的路人”,甚至主题驱动生成等等一系列任务,它都能心领神会。



“复古皮革封面书籍,封面烫金写着‘Knowledge is Power’”的案例,从皮革的质感、烫金的光泽,到复古字体的设计,细节处处彰显着模型的“匠心”。

这还没完,它的“高级图像理解”能力同样强悍。你扔给它一张复杂的图片,它不仅能告诉你图片里有什么,还能像一个艺术评论家一样,分析图片的构图、光影、氛围,甚至推断图片背后的故事。



“橙汁溅出形成‘Smile’字样”的图片,不仅考验了模型对液体物理动态的理解,还考验了它对文字形态和艺术创意的把握。

第三大创新,是“更高的采样效率”。前面我们提到,Lumina-DiMOO的架构本身就带来了速度优势。但它的研发团队显然是群“卷王”,他们觉得还不够快。于是,他们专门设计了一种叫做“基于最大Logit的缓存方法”(Max Logit-based Cache)的黑科技。

这个技术听起来复杂,但原理可以这么理解:在模型生成图像的每一步(去噪过程),都需要做出成千上万个小决策。这个缓存方法就像一个“超级备忘录”,能够智能地记下那些最有可能被用到的“高分决策”,在下一步需要时直接调用,省去了大量的重复计算。就这么一个看似微小却极其精妙的改进,直接将采样速度又提升了整整2倍。

在实际应用中,Lumina-DiMOO在生成图像时,通常只需要64步采样就能得到高质量结果,而在进行图像理解这类更复杂的任务时,也能通过灵活调整块长度和采样步数,在性能和效率之间找到完美的平衡点。

最后,是它“卓越的性能表现”。Lumina-DiMOO在多个业界公认的权威基准测试中,交出了一份近乎满分的答卷。它的8B(80亿)参数规模的模型,在GenEval、DPG、OneIG-EN、TIIF等多个榜单上,直接屠榜,超越了所有已知的开源统一多模态模型。特别是在一些被认为是多模态模型“试金石”的细分能力上,比如多物体生成(能否准确生成图片中包含的多个物体)、颜色控制(能否精准控制物体的颜色)、位置精度(能否把物体放在指定的位置)等方面,Lumina-DiMOO的领先优势尤为明显。



不服?看看数据多离谱

在GenEval这个综合性生成能力基准测试上,Lumina-DiMOO与一众顶级模型的正面硬刚。这里面既有“专用生成模型”,也有像GPT-4o、Janus-Pro这样的“统一多模态模型”,个个都是名声在外的狠角色。



参数规模,Lumina-DiMOO是8B,在性能上,Lumina-DiMOO却展现出了跨级别的统治力。

在“单物体”生成上,它拿到了满分1.0,这意味着对于简单的指令,它几乎能百分之百完美复现。在更考验构图能力的“双物体”生成上,它拿到了0.94分,与业界顶尖的SD3-Medium和BAGAL持平,甚至超过了GPT-4o(0.92)。这说明它对物体之间关系的理解非常到位。

Lumina-DiMOO在“计数”、“颜色”、“位置”、“属性”这几项上,都是遥遥领先。这几个指标恰恰是过去多模态模型最容易翻车的地方。比如你让它画“3只猫”,它可能画出2只或者4只;你让它画“一个红色的球在一个蓝色的盒子左边”,它很可能把颜色搞混,或者把位置放错。而Lumina-DiMOO在这些“细活儿”上表现出的领先水平,证明了其架构在精准理解和执行复杂指令方面的巨大优势。特别是“位置”和“属性”这两项,是衡量模型是否真正理解了空间关系和语义概念的关键。Janus-Pro在“位置”上拿到0.79的高分已经很惊人了,而Lumina-DiMOO的表现相当“恐怖”了。

看看Lumina-DiMOO在各种任务上的实际表现:



  • 风格转换:



  • 主题驱动:



  • 控制:



  • 重绘:



  • 扩展:



  • 理解:



  • 根据图片中显示的问题,请先进行推理,然后从选项中选择正确的答案。问题:根据图像,如果角度y与32度的角度形成一条直线,那么它的值是多少度? A. 148 B. 152 C. 180 D. 32

它能准确推理出正确答案 A。

Lumina-DiMOO的问世,意味着,全球的开发者和研究者都可以站在这个巨人的肩膀上,去探索更多可能,去创造更多价值。

从医疗影像的智能分析,到自动驾驶的精准感知,再到虚拟现实的沉浸式内容构建,Lumina-DiMOO所代表的技术突破,将渗透到未来社会的方方面面。

参考资料:

https://synbol.github.io/Lumina-DiMOO

https://github.com/Alpha-VLLM/Lumina-DiMOO

https://huggingface.co/Alpha-VLLM/Lumina-DiMOO

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苏州楼市超神了,苏州楼市待售二手房从180055套变成了182124套

苏州楼市超神了,苏州楼市待售二手房从180055套变成了182124套

有事问彭叔
2025-09-19 14:57:11
已确认:全部关闭!退出中国市场

已确认:全部关闭!退出中国市场

中吴网
2025-09-16 22:31:40
万没想到!西贝“预制菜”风波后,这6道菜火了,因为预制不了

万没想到!西贝“预制菜”风波后,这6道菜火了,因为预制不了

神牛
2025-09-19 12:55:21
金正恩访华后,朝鲜加速对中国开放,建成10年未用大桥将投入运营

金正恩访华后,朝鲜加速对中国开放,建成10年未用大桥将投入运营

沧海旅行家
2025-09-19 21:15:47
盘点上海团餐企业绿捷:日供60万份学生餐,8月中标20多所学校

盘点上海团餐企业绿捷:日供60万份学生餐,8月中标20多所学校

上游新闻
2025-09-18 18:12:10
单日票房仅20万,资方老板针对《731》:昧良心推荐一律拉黑

单日票房仅20万,资方老板针对《731》:昧良心推荐一律拉黑

光影新天地
2025-09-19 14:43:27
2025,女优行业新潮流下,谁能乘风破浪成一线宠儿

2025,女优行业新潮流下,谁能乘风破浪成一线宠儿

素然追光
2025-09-19 03:45:03
女企业竟嫁19岁体育生,一天5次性生活,8年后得知丈夫隐藏身份

女企业竟嫁19岁体育生,一天5次性生活,8年后得知丈夫隐藏身份

今天说故事
2025-09-12 18:14:21
这才是张学良将军的真实相貌,这可不是演员饰演的,而是货真价实

这才是张学良将军的真实相貌,这可不是演员饰演的,而是货真价实

以绝望挥剑
2025-05-24 21:01:41
国民党主席竞选,郝龙斌或提前胜出,傅崐萁不选,郑丽文重磅发声

国民党主席竞选,郝龙斌或提前胜出,傅崐萁不选,郑丽文重磅发声

寻途
2025-09-20 00:06:54
发朋友圈评局长免职被行拘4天,男子提起行政复议请求精神损害抚慰金1元

发朋友圈评局长免职被行拘4天,男子提起行政复议请求精神损害抚慰金1元

极目新闻
2025-09-19 18:24:12
非必要不做CT!《新英格兰医学杂志》:每10个儿童血癌就有1个与CT有关;每多做一次CT,都可能增加癌症风险

非必要不做CT!《新英格兰医学杂志》:每10个儿童血癌就有1个与CT有关;每多做一次CT,都可能增加癌症风险

医诺维
2025-09-19 11:55:55
陕北红军下辖4个军,为何没出一个元帅?4个军长分别是什么军衔

陕北红军下辖4个军,为何没出一个元帅?4个军长分别是什么军衔

红色先驱
2025-09-19 18:46:45
不装了,荷兰就光刻机对中国亮明态度,日本意识到“上当”了

不装了,荷兰就光刻机对中国亮明态度,日本意识到“上当”了

林子说事
2025-09-19 13:11:49
乌克兰虽远必诛,跨越6000公里炸了海参崴,对全球传递两个信号

乌克兰虽远必诛,跨越6000公里炸了海参崴,对全球传递两个信号

沧海旅行家
2025-09-18 14:42:27
俄要将战争进行到底,波兰无限期封锁与白俄罗斯接壤的边境

俄要将战争进行到底,波兰无限期封锁与白俄罗斯接壤的边境

山河路口
2025-09-18 23:38:21
分手!女博士发现男博士论文有纰漏,觉得其智力水平或将影响下一代

分手!女博士发现男博士论文有纰漏,觉得其智力水平或将影响下一代

超级数学建模
2025-09-18 22:56:38
上海学生午餐虾仁炒蛋紧急停供持续发酵,闵行区市监局介入,家长称“菜臭得吃到吐”

上海学生午餐虾仁炒蛋紧急停供持续发酵,闵行区市监局介入,家长称“菜臭得吃到吐”

极目新闻
2025-09-17 14:51:39
中超最新积分榜:提前保级球队+1,河南队上岸,6队争4个保级名额

中超最新积分榜:提前保级球队+1,河南队上岸,6队争4个保级名额

中超伪球迷
2025-09-19 22:05:48
性生活谁才是真正在受益者?

性生活谁才是真正在受益者?

诗意世界
2025-09-19 20:25:01
2025-09-20 07:51:00
AIGC开放社区
AIGC开放社区
AIGC开放社区是专注于AIGC(生成式人工智能)领域的开放性社区
529文章数 53关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

韩国前第一夫人穿拘留所病号服坐轮椅就医 戴电子脚镣

头条要闻

韩国前第一夫人穿拘留所病号服坐轮椅就医 戴电子脚镣

体育要闻

从轮椅到铜牌 他熬了7年:下个目标唱国歌!

娱乐要闻

全智贤被全面抵制!相关代言评论区沦陷

财经要闻

习近平同美国总统特朗普通电话

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

时尚
教育
房产
本地
军事航空

卡其裤+蓝衬衫,简单高级

教育要闻

211大学一研究生的立法修改建议被全国人大常委会立法采纳

房产要闻

全民撑广州,不止于赛场!与“有态度”者共筑城市骄傲

本地新闻

大学生军训哪家强,广西申请“出战”!

军事要闻

以军两个方向朝加沙城市中心推进

无障碍浏览 进入关怀版