网易首页 > 网易号 > 正文 申请入驻

Llama模仿Diffusion多模态涨分30%!只需共享注意力分布

0
分享至

这次不是卷参数、卷算力,而是卷“跨界学习”——

让Stable Diffusion当老师,教多模态大模型(如Llama-3.2)如何“看图说话”!

性能直接飙升30%。

中国研究员联合DeepMind团队的最新研究《Lavender: Diffusion Instruction Tuning》,通过简单的“注意力对齐”,仅需1天训练、2.5%常规数据量,即可让Llama-3.2等模型在多模态问答任务中性能飙升30%,甚至能防“偏科”(分布外医学任务提升68%)。

且代码、模型、训练数据将全部开源!

下面具体来看。

模仿Stable Diffusion的交叉注意力机制

当前遇到的问题是:

传统多模态大模型(VLM)的“视觉课”总不及格?数据不够、过拟合、细节抓不准……像极了考前突击失败的学渣。

对此,团队提出了新的解决方案:

让Stable Diffusion这位“图像生成课代表”,直接共享它的“学霸笔记”——注意力分布

展开来说,其跨界教学可分为三步走:

Step1:拜师学艺。VLM(如Llama-3.2)向Stable Diffusion学习如何“看图”,通过轻量级对齐网络(Aligner)模仿其交叉注意力机制。

Step2:高效补课:仅用13万样本(常规数据量的2.5%)、8块GPU训练1天,不卷数据不烧卡。

Step3:防偏科秘籍。引入LoRA技术“轻装上阵”,保留原模型能力的同时,专攻薄弱环节。

然后来看下具体效果。

从论文晒出的成绩单来看,在16项视觉-语言任务中,Lavender调教后的Llama-3.2,性能大有提升——

在预算有限的小模型赛道上,超过SOTA(当前最优模型)50%。

在超大模型圈子里,Lavender调教的Llama-3.2-11B居然能和那些“巨无霸”SOTA打得有来有回。

要知道,这些对手的体量一般在它的10倍以上。

更令人惊讶的是,Lavender连医学数据都没“补习”,就直接让Llama-3.2-11B在WorldMedQA这个“超纲考试”中成绩暴涨68%。

具体分数见图表(柱状图已标出)

代码/模型/训练数据全开源

小结一下,新研究主要技术亮点如下:

1、注意力对齐:Stable Diffusion的“独家教案”

传统VLM的注意力机制像“散光患者”,而Stable Diffusion的注意力分布则是“高清显微镜”。Lavender通过MSE损失函数,让VLM学会Stable Diffusion的“聚焦技巧”,直接提升视觉理解精度。

2. 数据不够?知识蒸馏来凑

无需海量标注数据,直接从图像生成模型中蒸馏视觉知识,堪称“小样本学习神器”。正如论文团队调侃:“这大概就是AI界的‘名师一对一补习班’。”

3. 防过拟合Buff:LoRA+注意力约束

通过低秩适配(LoRA)锁定核心参数,避免模型“死记硬背”。实验显示,Lavender在分布外任务上的鲁棒性吊打传统SFT方法,具备“抗偏科体质”。

另外,从具体应用场景来看,Lavender的视觉理解能力直接拉满。

无论是表格标题还是图表里的小数据点,Lavender都能一眼锁定关键信息,不会“偏题”;且对于复杂图形、大小位置关系,Lavender也能避免视觉误导,轻松拿捏。

实验显示,从医学病灶定位到多语言问答,Lavender不仅看得准,还答得对,连西班牙语提问都难不倒它。

目前,团队不仅公开了论文,代码/模型/训练数据也全部开源了。

  • 训练数据:由Stable Diffusion标注的高质量对齐样本;
  • 预训练模型:基于Llama-3.2、MiniCPMv2.5等架构的Lavender适配版;
  • 调参指南:从小白到进阶的“注意力对齐”实操手册;

对于上述研究,团队负责人表示:

我们希望证明,高效、轻量的模型优化,比无脑堆参数更有未来。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
iPhone Ultra 9 月发布,售价很猛!

iPhone Ultra 9 月发布,售价很猛!

花果科技
2026-06-22 15:35:19
世界杯梗最多的男人来了!

世界杯梗最多的男人来了!

这里是美国
2026-06-23 17:12:28
买不动了:两个女装老牌的中年危机

买不动了:两个女装老牌的中年危机

码上闲叙
2026-06-22 02:12:19
电讯报:梅西神级发挥彻底终结梅罗之争

电讯报:梅西神级发挥彻底终结梅罗之争

懂球帝
2026-06-23 19:04:10
我决定为以前无数次调侃向佐道歉!

我决定为以前无数次调侃向佐道歉!

BenSir本色说
2026-06-23 01:11:55
地球真的生病了?塔克拉玛干沙漠迎来暴雨,中国最干的地方发洪水

地球真的生病了?塔克拉玛干沙漠迎来暴雨,中国最干的地方发洪水

坠入二次元的海洋
2026-06-23 17:08:04
廖三宁蜕变为郭导第一利刃!末节10分力挽狂澜 媒体人:统治一切

廖三宁蜕变为郭导第一利刃!末节10分力挽狂澜 媒体人:统治一切

颜小白的篮球梦
2026-06-23 21:39:19
2.5亿成本,《抓特务》预测票房仅1.39亿,冯小刚亏到怀疑人生

2.5亿成本,《抓特务》预测票房仅1.39亿,冯小刚亏到怀疑人生

电影票房预告片
2026-06-21 15:54:02
著名杂志:C罗为世界杯进行形象大改造,包括发型和妆容

著名杂志:C罗为世界杯进行形象大改造,包括发型和妆容

懂球帝
2026-06-23 18:20:45
中国800万公顷竹海,正在把中东油王“逼上绝路”

中国800万公顷竹海,正在把中东油王“逼上绝路”

毒sir财经
2026-06-23 15:53:26
WPS,被骂惨了

WPS,被骂惨了

中国新闻周刊
2026-06-23 19:34:05
建国后周恩来数次邀请张发奎回国,张发奎婉拒:我两头都不会去的

建国后周恩来数次邀请张发奎回国,张发奎婉拒:我两头都不会去的

浩渺青史
2026-06-23 13:36:47
穆里尼奥整活!世界第一中场主动来都不要,死磕世界杯 18 岁新星

穆里尼奥整活!世界第一中场主动来都不要,死磕世界杯 18 岁新星

奶盖熊本熊
2026-06-23 04:46:37
刘子歌近况:定居澳洲,当家庭主妇养鸡种菜,与国内泳坛没联系

刘子歌近况:定居澳洲,当家庭主妇养鸡种菜,与国内泳坛没联系

以茶带书
2026-06-23 17:32:32
登上热搜!向太说梁朝伟是假社恐

登上热搜!向太说梁朝伟是假社恐

暖心萌阿菇凉
2026-06-23 21:09:05
库利巴耶夫家族:百亿帝国黄昏,哈萨克斯坦的清算利剑悬了多久?

库利巴耶夫家族:百亿帝国黄昏,哈萨克斯坦的清算利剑悬了多久?

别人都叫我阿腈
2026-06-23 15:41:39
自作主张!塔利班把路修到中国边境,结果看到的是一排排铁丝网

自作主张!塔利班把路修到中国边境,结果看到的是一排排铁丝网

孤城落叶
2026-06-23 20:54:48
徐飞洪硬刚印度签证威胁,网友评论区瞬间炸锅

徐飞洪硬刚印度签证威胁,网友评论区瞬间炸锅

小虎新车推荐员
2026-06-23 15:21:23
他爸是一国总统,他却不替父亲的国家踢球

他爸是一国总统,他却不替父亲的国家踢球

首席商业评论
2026-06-22 17:43:53
台当局人员被扣押,赖清德全面溃败,多国已站队,两岸也统一战线

台当局人员被扣押,赖清德全面溃败,多国已站队,两岸也统一战线

深层奥秘
2026-06-22 18:41:54
2026-06-23 23:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12831文章数 176502关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

看到热搜新闻查了下自己 男子结婚8年发现3娃均非亲生

头条要闻

看到热搜新闻查了下自己 男子结婚8年发现3娃均非亲生

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

屋顶光伏度苦夏

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

手机
本地
艺术
房产
公开课

手机要闻

曝字节新一代豆包AI手机发布时间或延迟,主要原因与备案认证有关

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

艺术要闻

大连世界级地标!2026夏季达沃斯主会场——“钢铁贝壳”

房产要闻

洞察新局|预算不变 居住升级 2026广州置业成本观察

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版