网易首页 > 网易号 > 正文 申请入驻

舍弃自回归!国内团队纯扩散多模态大模型LLaDA-V,理解任务新SOTA

0
分享至

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型LLaDA。

此次,团队将 LLaDA 拓展至多模态领域,推出了LLaDA-V—— 集成了视觉指令微调的纯扩散多模态大语言模型(MLLM)。这项工作标志着对当前以自回归为主流的多模态方法的一次重要突破,展示了扩散模型在多模态理解领域的巨大潜力。

近年来,多模态大语言模型(MLLMs)在处理图像、音频、视频等多种输入模态方面取得了显著进展。然而,现有的大多数方法依赖自回归模型。虽然有研究尝试将扩散模型引入 MLLMs,但往往采用混合架构(自回归 + 扩散)或者受限于语言建模能力,导致性能不佳。

继 LLaDA 成功证明扩散模型在纯语言任务上能与自回归模型(如 LLaMA3-8B)竞争后,一个关键问题随之而来:扩散语言模型能否在多模态任务中也达到与自回归模型相当的性能?LLaDA-V 正是对这一问题的有力回答。

研究团队将 LLaDA 作为语言基座,通过引入视觉编码器(SigLIP 2)和 MLP 连接器,将视觉特征投影到语言嵌入空间,实现了有效的多模态对齐。LLaDA-V 在训练和采样阶段均采用离散扩散机制,摆脱了自回归范式。

  • 论文标题:LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning
  • 论文链接:https://arxiv.org/abs/2505.16933
  • 项目地址:https://ml-gsai.github.io/LLaDA-V-demo/
  • 代码仓库:https://github.com/ML-GSAI/LLaDA-V

团队预计近期开源训练推理代码以及 LLaDA-V 权重。

性能亮点

数据可扩展性强,多项基准表现优异

大规模的实验评估揭示了 LLaDA-V 的多个引人注目的特性:

1. 卓越的数据可扩展性与竞争力。团队将 LLaDA-V 与使用 LLaMA3-8B 作为语言基座、但其他部分完全相同的自回归基线 LLaMA3-V 进行了对比。

结果显示,LLaDA-V 展现出更强的数据可扩展性,特别是在多学科知识(如 MMMU)基准上。令人印象深刻的是,尽管 LLaDA-8B 在纯文本任务上略逊于 LLaMA3-8B,但 LLaDA-V 在 11 个 多模态任务中超越了 LLaMA3-V。这表明扩散架构在多模态任务上面具备一定的优势。

2. 纯扩散与混合架构中的 SOTA:与现有的混合自回归 - 扩散模型(如 MetaMorph, Show-o)和纯扩散模型相比,LLaDA-V 在多模态理解任务上达到了当前最佳(SOTA)性能。这证明了基于强大语言扩散模型的 MLLM 架构的有效性。

3. 缩小与顶尖自回归 MLLM 的差距:尽管 LLaDA 的语言能力明显弱于 Qwen2-7B,但 LLaDA-V 在某些基准(如 MMStar)上显著缩小了与强大的 Qwen2-VL 的性能差距,达到了相当的水平(60.1 vs. 60.7)。这进一步印证了扩散模型在多模态领域的潜力。

下图是 LLaDA-V 同用户进行交流的场景。

LLaDA-V 准确描述出了一幅宁静而富有层次感的瑞士阿尔卑斯山景:一条绿色小路蜿蜒延伸,一位行人沿路行走,远处是山谷中的白色教堂和被薄雾环绕的巍峨群山,蓝天白云为画面增添了宁静氛围,整体构图清晰,意境优美。

核心方法

LLaDA-V 的核心在于将视觉指令微调框架与 LLaDA 的掩码扩散机制相结合。下图展示了 LLaDA-V 的训练和推理过程:

架构:采用经典的「视觉编码器 + MLP 投影器 + 语言模型」架构。视觉编码器(SigLIP 2)提取图像特征,MLP 投影器将其映射到 LLaDA 的嵌入空间。LLaDA 语言塔则负责处理融合后的多模态输入并生成回复。特别地,LLaDA-V采用了双向注意力机制,允许模型在预测时全面理解对话上下文,这在消融实验中被证明略优于对话因果注意力机制。

训练目标:LLaDA-V 扩展了 LLaDA 的训练目标,以支持多轮多模态对话。其核心思想是在训练时保持图像特征和用户提示(Prompt),仅对模型的回复(Response)进行随机掩码,训练目标仅对被掩码部分计算交叉熵损失。

推理过程:LLaDA-V 的生成过程并非自回归式的逐词预测,而是通过扩散模型的反向去噪过程。从一个完全被掩码的回复开始,模型在多个步骤中迭代地预测被掩码的词元,逐步恢复出完整的回复。研究采用了 LLaDA 的低置信度重掩码策略,优先保留高置信度的预测,提升了生成质量。

总结与展望

LLaDA-V 成功地将视觉指令微调与掩码扩散模型相结合,证明了扩散模型不仅能在语言任务上与自回归模型一较高下,在多模态理解领域同样展现出强大的竞争力和独特的优势,尤其是在数据可扩展性方面。

这项工作不仅为 MLLM 的发展开辟了一条新的技术路径,也挑战了多模态智能必须依赖自回归模型的传统观念。随着语言扩散模型的不断发展,我们有理由相信,基于扩散的 MLLM 将在未来扮演更重要的角色,进一步推动多模态 AI 的边界。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大结局要来了?伊朗开出六大停战条件,特朗普回应4个字

大结局要来了?伊朗开出六大停战条件,特朗普回应4个字

混沌录
2026-03-25 16:22:08
美日达成一致,特朗普让日本在台海“打响第一枪”!中方反击到了

美日达成一致,特朗普让日本在台海“打响第一枪”!中方反击到了

寻迹追心
2026-03-26 09:15:11
黄金跳水跌破4430美元,白银失守70美元

黄金跳水跌破4430美元,白银失守70美元

21世纪经济报道
2026-03-26 14:15:54
现货黄金突破4540美元/盎司

现货黄金突破4540美元/盎司

证券时报
2026-03-26 09:22:05
你知道我在床上有多厉害吗?

你知道我在床上有多厉害吗?

果粉之家
2026-03-20 12:35:16
特斯拉车主被售后暖到,15 万元电池免费换,还送带 FSD 的 Model 3 代步!

特斯拉车主被售后暖到,15 万元电池免费换,还送带 FSD 的 Model 3 代步!

新浪财经
2026-03-25 01:53:52
王国本:江西省人大常委会原副主任

王国本:江西省人大常委会原副主任

王姐懒人家常菜
2026-03-26 13:38:47
国安名宿炮轰:中超边路断档!认可杨希实力,邓捷夫是“半吊子”

国安名宿炮轰:中超边路断档!认可杨希实力,邓捷夫是“半吊子”

体坛鉴春秋
2026-03-26 12:23:21
1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

1981年,彭真狱中见江青,江青出言不逊提出:我要见华国锋邓小平

微野谈写作
2026-01-27 06:00:03
王晶曝陈百强真正死因,64岁何超琼颜面尽失

王晶曝陈百强真正死因,64岁何超琼颜面尽失

君笙的拂兮
2026-03-22 03:44:36
以色列真敢丢核弹!美国顶流媒体警告:四种情况下以色列会动核武

以色列真敢丢核弹!美国顶流媒体警告:四种情况下以色列会动核武

星辰大海路上的种花家
2026-03-25 13:09:41
20亿美元还不够!中企宣布,对巴拿马索赔涨价,巴政府内部已乱套

20亿美元还不够!中企宣布,对巴拿马索赔涨价,巴政府内部已乱套

李健政观察
2026-03-26 11:11:27
以色列批准战争期间征召40万名预备役人员!美国陆军将新兵征召年龄上限从35岁提升至42岁,还给曾犯大麻持有罪的人开绿灯

以色列批准战争期间征召40万名预备役人员!美国陆军将新兵征召年龄上限从35岁提升至42岁,还给曾犯大麻持有罪的人开绿灯

大象新闻
2026-03-25 22:45:22
稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

田先生篮球
2026-03-26 14:23:29
中东睿评|表层冲突烈火焚烧,深层矛盾坚如寒冰:美以对伊朗战争的表与里

中东睿评|表层冲突烈火焚烧,深层矛盾坚如寒冰:美以对伊朗战争的表与里

澎湃新闻
2026-03-25 13:14:37
马刺大胜送灰熊出局,本赛季常规赛西部前十球队已全部出炉

马刺大胜送灰熊出局,本赛季常规赛西部前十球队已全部出炉

懂球帝
2026-03-26 12:27:11
同样是妹妹,王熙凤为何称呼薛宝钗为薛姑娘,称呼林黛玉为林丫头

同样是妹妹,王熙凤为何称呼薛宝钗为薛姑娘,称呼林黛玉为林丫头

铭记历史呀
2026-03-26 11:13:56
玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

洞读君
2026-03-04 14:30:12
昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

昨天杭州有医院门诊突然多了不少“跑友”,主动要求检查心脏功能!医生:长期跑步不等于心肺功能没问题

大风新闻
2026-03-26 08:55:08
等不来特朗普,普京抢先一步来华!美国终于认栽:拦不住中国了

等不来特朗普,普京抢先一步来华!美国终于认栽:拦不住中国了

小聪明说科普
2026-03-25 17:19:57
2026-03-26 14:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12604文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
房产
手机
教育
公开课

外媒锐评PS去年错得离谱!发行商排名21 被微软甩开

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

手机要闻

存储涨价苦了国产品牌、普通消费者,苹果却不受影响

教育要闻

高考地理中的花海经济

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版