网易首页 > 网易号 > 正文 申请入驻

架构解耦是统一多模态模型所必须的吗?全新AIA损失:No

0
分享至



近一年以来,统一理解与生成模型发展十分迅速,该任务的主要挑战在于视觉理解和生成任务本身在网络层间会产生冲突。早期的完全统一模型(如 Emu3)与单任务的方法差距巨大,Janus-Pro、BAGEL 通过一步一步解耦模型架构,极大地减小了与单任务模型的性能差距,后续方法甚至通过直接拼接现有理解和生成模型以达到极致的性能。

香港中文大学 MMLab 和美团的研究者相信,在不久的将来统一模型的性能一定能够达到单任务的水平,但同时也引起了他们的思考,目前通过拆解架构换取性能提升的方式真的是正确的吗,它是否背离统一模型的初衷,它能够提升性能的内在原因又是什么,这种方式真的是统一模型必须的吗?

「统一模型的初衷」以及「 架构解耦的缺点」

统一理解生成模型的初衷是为了通过透明化、合理化的图文交错思考过程,提高单任务的性能,例如让模型走迷宫时统一模型可以生成每一步对应的图像,可以在模型做数学题的时候给图像画上辅助线,或者是在生成一张图像的时候边画边思考有没有生成不合理的地方并且自动修正,这些都是 Uni-MMMU 等当前统一模型基准所关注,也是它本身被独立成一个领域的初衷。

再回到架构解耦的模型,例如 BAGEL 上,它本身如果要实现图文交错思考,需要经历隐空间解码到文字或者像素空间,然后再编码到隐空间的复杂过程,两个任务也几乎不在同一个模型空间中,具有计算开销大、信息丢失两大问题。虽然在当前情况下相比于其可观的性能,这个问题似乎并不显著,但是研究者认为随着研究的进行,这会是一个很大的问题。

AIA: 模型架构解耦不是统一模型必须的

为了探究清楚「架构解耦带来性能提升的内在原因」以及「探索不使用架构解耦的前提下提升模型性能的方式」,香港中文大学 MMLab 和美团联合推出了 AIA。



  • 论文标题:Architecture Decoupling Is Not All You Need For Unified Multimodal Model
  • 论文链接:https://arxiv.org/abs/2511.22663
  • 代码:https://github.com/zhengdian1/AIA
  • 网页:https://github.com/zhengdian1/AIA-project

研究者首先通过研究不同架构的统一模型在每一层网络中跨模态交互的强度,他们惊讶地发现不管如何进行模型架构解耦,理解和生成任务在同一层网络中始终呈现负相关的关系,同时进一步验证了这个现象与输入的模态、长度和类别都没有关系,这说明是模型自发在学习如何合理地分配两个任务在每一层中的占比,从而 「缓解冲突」,这又说明架构解耦本质上并没有解决任务之间冲突的问题。

研究者进一步在最后一列可视化了现在单任务 SOTA 的模型的多模态交互模式(HunyuanImage-3.0 虽然是统一模型,但更侧重于生成效果),结果发现随着模型解耦程度的增强,其对应的跨模态交互模式会趋向于单任务的表现,这也是能够实现性能提升的主要原因



基于这个发现,研究者设计了Attention Interaction Alignment (AIA) 损失,通过将单任务模型的跨模态交互模式作为学习目标,在训练的过程中显式地约束统一模型的交互模式。

AIA 效果如何?

研究者在 Emu3 和 Janus-Pro 这两种完全统一架构、轻微模型解耦架构上进行了实验,如下表所示,结果表明本文的方法能够在没有任何其他 trick 的情况下提升这些模型的性能,减小了与更高解耦程度模型的差距。



同时,研究者给出了使用 AIA 损失之后 Emu3 和 Janus-Pro 跨模态交互模式曲线变化,可以发现加入了 AIA 损失之后,两个模型的交互曲线都向单任务模型的表现靠近了,既证明了 AIA 损失的有效性,同时也说明了模型架构解耦不是唯一能够提高统一模型性能的方式。

当然,研究者也承认在目前情况下完全统一的方法和高解耦程度的模型之间存在很大的差距,但正如 Emu3.5 的出现,他们认为这个差距会越来越小。因此,研究者呼吁更多的人抛开表层的框架和数据配比,深入研究统一模型的任务冲突问题,寻找更优的解法。

AIA 好训吗?

由于 Emu3 只有预训练 (PT) 阶段是统一训练的,因此研究者在其 PT 权重上进行微调,而 Janus-Pro 给的是最终 SFT 微调后的权重,研究者在此基础上进行后训练。

研究者通过调整 AIA 损失与 next-token-prediction (NTP) 损失的比重来测试其微调的敏感度,结果发现训练 Emu3 的时候由于其预训练知识比较薄弱,AIA 损失在一个很大的范围内都能达到稳定收敛的效果。而在 Janus-Pro 中,由于其本身预训练知识很强,AIA 的加入非常容易影响模型训练,但在合适的比重情况下仍然能够达到不错的效果。

AIA 有什么优势?

AIA 损失的加入可以一定程度上减少现在常见的数据配比工程问题,本文的方法在生成与理解数据配比在 1:1 的情况下能够达到更好的效果,这说明在一定程度上两个任务的训练不再是冲突的,产生了协同优化的效果。

统一模型训练的正确道路是什么?

通过结合现在所有统一模型训练的问题以及本文的实验分析,可以发现不管怎样解耦模型,其始终会在统一训练的过程中动态分配不同任务在同一层的权重来缓解冲突,那这是否实际上代表了统一模型的正确行为



另一条统一路径是移除所有可以用来区分任务的线索(即采用统一分词器、消除任务相关特殊 token、使用交错数据数据输入),迫使模型只能从输入中学习真正的统一空间。虽然这种方法或许可以解决任务间的负相关问题,但也会显著增加训练难度。

未来展望

AIA 迈出了统一模型训练原理分析的第一步,研究者希望能够有更多志同道合的研究者加入这个领域的探索。统一模型现在的理论、架构都远远没有达到成熟,需要大家共同进行探索。同时研究者也希望大家能够更加关注统一模型真正的意义,不要一味地关注当前单任务基准上的性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
水贝知名金店兑付困难:投资者称超4万人线上排队提现,每天只能提500元

水贝知名金店兑付困难:投资者称超4万人线上排队提现,每天只能提500元

红星新闻
2026-01-28 17:19:31
拓媒:杨瀚森打出了本赛季最佳一战,他关系着开拓者未来上限

拓媒:杨瀚森打出了本赛季最佳一战,他关系着开拓者未来上限

懂球帝
2026-01-29 10:55:13
警报拉响!金银或暴跌 30%/50%,两次惨烈历史早已预示结局

警报拉响!金银或暴跌 30%/50%,两次惨烈历史早已预示结局

奇思妙想生活家
2026-01-29 07:01:02
这些人要发抖了!中纪委再次出动,剑指这些歪风和腐败问题!

这些人要发抖了!中纪委再次出动,剑指这些歪风和腐败问题!

细说职场
2026-01-29 14:47:17
DeepSeek革了Adobe们的命

DeepSeek革了Adobe们的命

观察者网
2026-01-28 17:41:11
牢A回国后,“大瓜”一个比一个劲爆,他火下去是好是坏?

牢A回国后,“大瓜”一个比一个劲爆,他火下去是好是坏?

文字里拾光
2026-01-26 19:36:46
美国吃华人绝户财富已经成为一个公开的密码了!

美国吃华人绝户财富已经成为一个公开的密码了!

达文西看世界
2026-01-24 15:32:33
丈夫炒股亏掉3644万,一家7口还债25年,还完发现卡里多了9455万

丈夫炒股亏掉3644万,一家7口还债25年,还完发现卡里多了9455万

程哥讲堂
2026-01-28 15:28:43
迟到20年!低价买走国有资产的百亿女首富,突然被带走

迟到20年!低价买走国有资产的百亿女首富,突然被带走

小鬼头体育
2026-01-29 12:37:48
被央视怒批、洋相百出、腹中空空,这几位“绝望的文盲”凭啥能火

被央视怒批、洋相百出、腹中空空,这几位“绝望的文盲”凭啥能火

娱说瑜悦
2025-12-13 12:24:22
联赛冠军出局!欧冠最耻辱主帅诞生,7次欧冠仅17胜,算不上名帅

联赛冠军出局!欧冠最耻辱主帅诞生,7次欧冠仅17胜,算不上名帅

祥谈体育
2026-01-29 13:39:03
Model Y L首次推出5年0息

Model Y L首次推出5年0息

特斯拉
2026-01-06 09:48:38
江苏29岁相亲女子吐槽:31岁男人开10万的车,还好意思出来相亲?

江苏29岁相亲女子吐槽:31岁男人开10万的车,还好意思出来相亲?

风起见你
2026-01-29 08:28:37
金饰克价两周暴涨近20%,一个金镯差价近万元

金饰克价两周暴涨近20%,一个金镯差价近万元

第一财经资讯
2026-01-29 15:21:25
《阿凡达3》大赚1.2亿,票房破100亿,卡梅隆导演创造历史

《阿凡达3》大赚1.2亿,票房破100亿,卡梅隆导演创造历史

影视高原说
2026-01-29 14:22:38
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
中共自然资源部党组关于李东凯同志任职的通知

中共自然资源部党组关于李东凯同志任职的通知

海洋知圈
2026-01-28 22:21:32
A股:史诗级大迁徙!4400亿大撤离后A股要变天?三大板块价值将重构

A股:史诗级大迁徙!4400亿大撤离后A股要变天?三大板块价值将重构

股市皆大事
2026-01-29 08:02:26
中印加勒万河谷肉搏战:680人八小时混战,双方到底伤亡多少人?

中印加勒万河谷肉搏战:680人八小时混战,双方到底伤亡多少人?

叹为观止易
2026-01-28 14:25:41
范晓萱做客鲁豫访谈,网友泪目,只因她谈吐与眉眼间竟与大s神似

范晓萱做客鲁豫访谈,网友泪目,只因她谈吐与眉眼间竟与大s神似

小娱乐悠悠
2026-01-27 10:23:52
2026-01-29 15:48:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12213文章数 142552关注度
往期回顾 全部

科技要闻

周亚辉的AI新赌局:国内太卷 出海另起炉灶

头条要闻

外媒:特朗普执政一年后 对华不友好国家正"转向"中国

头条要闻

外媒:特朗普执政一年后 对华不友好国家正"转向"中国

体育要闻

詹姆斯哭了!骑士视频致敬41岁超巨

娱乐要闻

张译不再隐瞒!公开回应退圈息影真相

财经要闻

金价狂飙,历史首次!

汽车要闻

车长超5米还带后轮转向 比亚迪海豹08/海狮08将亮相

态度原创

旅游
教育
数码
本地
军事航空

旅游要闻

华山景区:徒步登山线路暂时关闭

教育要闻

“国家课程落地吴江行动丛书”发布!聚焦课改前沿,共探育人新路!

数码要闻

这种电热水袋国家早已禁售:别再用了

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

军事要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

无障碍浏览 进入关怀版