网易首页 > 网易号 > 正文 申请入驻

上智院联合复旦等开源 BARD-VL:多模态Diffusion模型新SOTA

0
分享至

来源:市场资讯

(来源:机器之心)


本文第一作者陈保友为上海科学智能研究院(下称上智院)主任研究员,主要研究方向为多模态理解生成;上智院研究员夏翰宸、涂鹏为共同一作。复旦大学教授、上智院 AI 科学家、上海创智学院全时导师朱思语为通讯作者。

如果把多模态大模型下一阶段的竞争概括成一句话,那就是:不只要更强,还要更快。当前主流视觉语言模型(Vision-Language Model,VLM)大多建立在自回归(Autoregressive,AR)范式上,模型理解能力持续提升,但 token-by-token 的串行解码机制,也让推理延迟与部署成本问题日益凸显。尤其是在文档理解、多模态 Agent 等长输出场景中,速度瓶颈已经开始直接影响模型的实际可用性。

相比之下,扩散式(Diffusion)解码具备天然的并行性,能够通过并行细化多个 token 来提升解码效率,理论上更适合长序列并行生成。然而,问题也很明确:如何在将 SOTA 自回归 VLM 转换为 Diffusion VLM 的过程中,保持模型性能不退化,始终是学术界面临的一大关键难题。

近期,上海科学智能研究院联合上海创智学院、复旦大学等发表了一项名为 BARD(Bridging Autoregressive and Diffusion)的研究工作。该研究提出了一套创新的桥接框架,能够将预训练的自回归 VLM 平滑转换为同架构、具备高效解码能力的扩散 VLM。实验表明,基于 Qwen3-VL 转换得到的 BARD-VL,在保持甚至超越原模型性能的同时,实测解码吞吐量最高提升达 3 倍。


  • 论文链接:https://arxiv.org/pdf/2604.16514

  • 代码仓库:https://github.com/fudan-generative-vision/Bard-VL.git

  • Huggingface:https://huggingface.co/collections/fudan-generative-ai/bard-vl

现状与挑战:AR 的瓶颈与 Diffusion 的困境

自回归 VLM 在视觉问答、文档理解及多模态 Agent 等任务中表现卓越。然而,随着生成序列长度的增加,串行解码带来的计算负担和响应延迟,正逐渐成为其实际落地的主要瓶颈。

扩散多模态模型(dVLM)通过多轮并行细化更新整个 Block 的 tokens,被视为提升生成效率的一条潜力路线。但在实践中,研究者发现,若直接将成熟的 AR 模型转换为大块扩散模型,模型能力往往会出现显著退化。这种性能损失,主要源于两种范式在预测条件与监督目标上的不一致:AR 模型侧重于在干净的因果前缀下预测下一个 token,而扩散模型则需在扰动状态下进行同位置去噪。

这种「监督错位」导致直接进行 KL 蒸馏的效果往往不尽如人意。因而,当前多模态生成仍未摆脱「高性能」与「高效率」之间的张力:自回归模型在能力上更成熟,但受限于串行解码,长序列场景下推理成本较高;扩散模型具备更强的并行生成潜力,却常因监督错位导致性能退化。如何兼顾两者,已成为多模态模型进一步规模化落地的关键问题。

BARD 核心机制:搭建范式迁移的「桥梁」

BARD 并非尝试从零训练一个原生扩散模型,而是提出了一套系统化的桥接框架,旨在实现「能力保持」与「高效解码」之间的解耦优化。

2.1 渐进式监督块合并(Progressive Supervised Block Merging)


为了避免从串行解码直接跳到大规模并行解码所带来的「跃迁式失败」,BARD 引入了渐进式调度策略。具体来说,模型首先从预训练 AR 模型出发,构建一个小块扩散锚点模型。随后,模型遵循(4,8,16,32)的块大小序列,逐阶段扩大并行解码粒度。这种设计使模型在每一阶段只需学习如何合并相邻的预测块,从而显著降低了学习难度。

2.2 阶段式扩散蒸馏(Stage-wise dVLM Distillation)

针对监督错位问题,BARD 重新定义了蒸馏目标。与其使用原始 AR 模型作为教师模型,BARD 采用前一阶段生成的扩散锚点模型进行监督。由于学生和教师模型均运行在扩散机制下,其监督信号的匹配度更高。实验证明,在 Block 尺寸为 32 的设置下,扩散蒸馏对 MMMU、RealWorldQA、MMMU-Pro 等指标的提升远超传统的自回归蒸馏。

2.3 工程优化:迈向实用的长序列训练

除了架构转换,BARD 还在训练策略和显存效率上进行了深度优化。

  • 混合噪声调度器(Mixed-noise Scheduler):传统的掩码扩散模型擅长补全缺失信息,但缺乏纠错能力。BARD 在掩码噪声的基础上,引入了针对可见 Token 的均匀破坏,使模型在训练中同时习得「补全」与「修正」能力,显著增强了在复杂场景下的鲁棒性。

  • 内存友好的训练布局:多模态序列通常包含大量视觉 Token,导致训练显存压力巨大。BARD 采用 Packed Sequence Layout,将输入上下文、clean response 与 noisy response 封装在同一序列中,并通过定制化的注意力掩码机制确保信息流向的正确性,极大地优化了长序列任务的训练效率。

实验结果:性能与效率的双重飞跃

研究团队基于开源的 LLaVA-OneVision-1.5 与 FineVision 数据集,清洗并构建了 4.4M 高质量训练数据,并在 7 项核心 Benchmark 上进行了全面评测。

3.1 综合能力对比


具体看,4B 规模下,BARD-VL 相比 Qwen3-VL 4B 在 7 项 benchmark 中提升了 5 项,包括 MMMU val +5.1、MME +8、RealWorldQA +1.4、MMStar +6.7 和 AI2D +1.8,仅在 MMMU-Pro 和 ChartQA 上略低于源模型。到 8B 规模,BARD-VL 则在 7 项中提升了 6 项,包括 MMMU val +1.6、MMMU-Pro +1.6、MME +14、RealWorldQA +1.2、MMStar +5.1 和 ChartQA +0.6。如果横向看开源 diffusion VLM,BARD-VL 8B 在这套评测里全面超过 LLaDA-V 8B,4B 版本也在全部 7 项上超过 Dimple-VL。

3.2 推理效率分析

更关键的是,这些提升不是靠「拿速度换能力」得来的。下图的 OCRBench 曲线显示,BARD-VL 4B 在一段很宽的 decoding throughput 区间里,都能保持更高准确率。在一个票据结构化信息抽取示例里,BARD-VL 只用了 6 次 diffusion refinement 就得到结果,而原始 Qwen3-VL 则需要 35 步自回归解码。对于文档理解、表单抽取、票据处理这类天然长输出任务,这种并行解码优势非常接近真实部署价值的改进。



结论与展望

BARD 的核心贡献在于验证了:高性能自回归模型与高效扩散解码范式并非互斥。通过精心设计的桥接框架,我们可以系统地将 AR 模型的知识迁移至更高效的并行解码架构中。尽管目前的实验主要基于 Qwen 系列基座模型展开,但其展现出的可扩展性和鲁棒性,为未来开发更高效的多模态 Agent 和长上下文交互系统指出了方向。对于追求模型能力与推理效率平衡的研究者与开发者而言,BARD 提供了一条颇有参考价值的路径。

与此同时,这项工作的意义也体现在其与具体科学领域模型的结合上。例如,团队持续深耕的炎黄中华文明大模型,是一个面向早期中华文明研究的人文社科多模态基础模型,服务于历史、考古、古文字、语言学等研究场景,支撑知识问答、学术分析、时空重建与多模态 Agent 协同等关键任务。此次开源的 BARD-VL 所代表的多模态 Diffusion 底座能力,正是助力此类领域科学大模型兼顾性能与效率、走向真实科研与应用场景的重要基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
荷兰法院出手,中国芯片ST闻泰失控安世半导体,这场博弈还没完

荷兰法院出手,中国芯片ST闻泰失控安世半导体,这场博弈还没完

奇思妙想生活家
2026-05-09 00:55:30
医生调查发现:大量喝水的高血压患者,不用多久,身体或有3变化

医生调查发现:大量喝水的高血压患者,不用多久,身体或有3变化

鬼菜生活
2026-05-09 07:32:55
费城0-3主场变客场!大帝一脸沮丧 VJ感觉要哭了 马克西干瞪眼

费城0-3主场变客场!大帝一脸沮丧 VJ感觉要哭了 马克西干瞪眼

颜小白的篮球梦
2026-05-09 09:56:59
曝蘑菇头闰土退出陈翔六点半后续!知名导演透露细节,已洽谈合作

曝蘑菇头闰土退出陈翔六点半后续!知名导演透露细节,已洽谈合作

裕丰娱间说
2026-05-07 22:05:05
斯诺克官宣!新增2位名人堂,赵心童比肩丁俊晖,吴宜泽将入选?

斯诺克官宣!新增2位名人堂,赵心童比肩丁俊晖,吴宜泽将入选?

刘姚尧的文字城堡
2026-05-09 09:29:27
布拉德利・库珀雨天携女出街 父爱满满

布拉德利・库珀雨天携女出街 父爱满满

述家娱记
2026-05-09 10:48:03
别只吃鸡蛋!高蛋白食物新排名:豆腐第4,牛奶第3,第1名想不到

别只吃鸡蛋!高蛋白食物新排名:豆腐第4,牛奶第3,第1名想不到

全球军事记
2026-05-08 21:21:30
关牧村说亲情:我有两个同父异母的姐姐,还有一个同母异父的哥哥

关牧村说亲情:我有两个同父异母的姐姐,还有一个同母异父的哥哥

吕醿极限手工
2026-05-08 16:48:46
河北美女教练张红霞去世,仅32岁,切除俩器官,手机壁纸 当遗照

河北美女教练张红霞去世,仅32岁,切除俩器官,手机壁纸 当遗照

裕丰娱间说
2026-05-08 13:47:04
南京经济技术开发区管委会原巡视员倪德龙接受纪律审查和监察调查

南京经济技术开发区管委会原巡视员倪德龙接受纪律审查和监察调查

扬子晚报
2026-05-08 15:24:55
纽约的王!76人被布伦森宣判“死刑”,大头是季后赛级别的超巨

纽约的王!76人被布伦森宣判“死刑”,大头是季后赛级别的超巨

体育闲话说
2026-05-09 11:01:23
张曼玉在豪宅种芋头!她亲自挖芋头,露台种满鲜花,工具箱有六个

张曼玉在豪宅种芋头!她亲自挖芋头,露台种满鲜花,工具箱有六个

天马幸福的人生
2026-05-09 11:05:59
陈道明:人生走到最后,子女和老伴都不是最亲的,最亲的只有....

陈道明:人生走到最后,子女和老伴都不是最亲的,最亲的只有....

乔话
2026-04-19 22:13:11
14岁少女状告卡梅隆:《阿凡达》女主脸是我的

14岁少女状告卡梅隆:《阿凡达》女主脸是我的

硬核玩家2哈
2026-05-08 01:07:03
把瑜伽裤穿成日常的松弛感美女

把瑜伽裤穿成日常的松弛感美女

只要高兴就好
2026-04-13 14:30:30
连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

街上的行人很刺眼
2026-04-25 10:55:49
尺度拉满,Netflix把A片之王搬上了荧幕

尺度拉满,Netflix把A片之王搬上了荧幕

来看美剧
2026-05-06 16:54:02
英媒:布达佩斯酒店价格暴涨,部分酒店价格甚至达平日18倍以上

英媒:布达佩斯酒店价格暴涨,部分酒店价格甚至达平日18倍以上

懂球帝
2026-05-08 02:23:10
一枚纽扣,挖出潜伏在总参大院十年的国民党王牌特工

一枚纽扣,挖出潜伏在总参大院十年的国民党王牌特工

老范谈史
2026-05-08 02:36:29
98.6%!挪威基本没人买油车了!

98.6%!挪威基本没人买油车了!

王煜全
2026-05-06 15:16:01
2026-05-09 11:44:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3156339文章数 7259关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

年轻女子190元买榴莲仅退款被拘留 代收点离家3公里

头条要闻

年轻女子190元买榴莲仅退款被拘留 代收点离家3公里

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

张艺谋《印象刘三姐》全裸镜头引争议

财经要闻

Meta疯狂拥抱人工智能:员工苦不堪言

汽车要闻

全系智能泊车 铂智3X年款升级限时权益价9.48万起

态度原创

时尚
亲子
本地
房产
旅游

卢昱晓真的要被审判到这种程度吗?

亲子要闻

3岁娃头缠纱布守母,百万人点赞,我却倍感心寒

本地新闻

用苏绣的方式,打开江西婺源

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

旅游要闻

名画跑进咖啡杯!徐悲鸿纪念馆“上新”文创咖啡空间

无障碍浏览 进入关怀版