网易首页 > 网易号 > 正文 申请入驻

架构解耦是统一多模态模型所必须的吗?全新AIA损失:No

0
分享至

来源:市场资讯

(来源:机器之心Pro)


近一年以来,统一理解与生成模型发展十分迅速,该任务的主要挑战在于视觉理解和生成任务本身在网络层间会产生冲突。早期的完全统一模型(如 Emu3)与单任务的方法差距巨大,Janus-Pro、BAGEL 通过一步一步解耦模型架构,极大地减小了与单任务模型的性能差距,后续方法甚至通过直接拼接现有理解和生成模型以达到极致的性能。

香港中文大学 MMLab 和美团的研究者相信,在不久的将来统一模型的性能一定能够达到单任务的水平,但同时也引起了他们的思考,目前通过拆解架构换取性能提升的方式真的是正确的吗,它是否背离统一模型的初衷,它能够提升性能的内在原因又是什么,这种方式真的是统一模型必须的吗?

「统一模型的初衷」以及「 架构解耦的缺点」

统一理解生成模型的初衷是为了通过透明化、合理化的图文交错思考过程,提高单任务的性能,例如让模型走迷宫时统一模型可以生成每一步对应的图像,可以在模型做数学题的时候给图像画上辅助线,或者是在生成一张图像的时候边画边思考有没有生成不合理的地方并且自动修正,这些都是 Uni-MMMU 等当前统一模型基准所关注,也是它本身被独立成一个领域的初衷。

再回到架构解耦的模型,例如 BAGEL 上,它本身如果要实现图文交错思考,需要经历隐空间解码到文字或者像素空间,然后再编码到隐空间的复杂过程,两个任务也几乎不在同一个模型空间中,具有计算开销大、信息丢失两大问题。虽然在当前情况下相比于其可观的性能,这个问题似乎并不显著,但是研究者认为随着研究的进行,这会是一个很大的问题。

AIA: 模型架构解耦不是统一模型必须的

为了探究清楚「架构解耦带来性能提升的内在原因」以及「探索不使用架构解耦的前提下提升模型性能的方式」,香港中文大学 MMLab 和美团联合推出了 AIA。


研究者首先通过研究不同架构的统一模型在每一层网络中跨模态交互的强度,他们惊讶地发现不管如何进行模型架构解耦,理解和生成任务在同一层网络中始终呈现负相关的关系,同时进一步验证了这个现象与输入的模态、长度和类别都没有关系,这说明是模型自发在学习如何合理地分配两个任务在每一层中的占比,从而 「缓解冲突」,这又说明架构解耦本质上并没有解决任务之间冲突的问题。

研究者进一步在最后一列可视化了现在单任务 SOTA 的模型的多模态交互模式(HunyuanImage-3.0 虽然是统一模型,但更侧重于生成效果),结果发现随着模型解耦程度的增强,其对应的跨模态交互模式会趋向于单任务的表现,这也是能够实现性能提升的主要原因。


基于这个发现,研究者设计了Attention Interaction Alignment (AIA) 损失,通过将单任务模型的跨模态交互模式作为学习目标,在训练的过程中显式地约束统一模型的交互模式。

AIA 效果如何?

研究者在 Emu3 和 Janus-Pro 这两种完全统一架构、轻微模型解耦架构上进行了实验,如下表所示,结果表明本文的方法能够在没有任何其他 trick 的情况下提升这些模型的性能,减小了与更高解耦程度模型的差距。


同时,研究者给出了使用 AIA 损失之后 Emu3 和 Janus-Pro 跨模态交互模式曲线变化,可以发现加入了 AIA 损失之后,两个模型的交互曲线都向单任务模型的表现靠近了,既证明了 AIA 损失的有效性,同时也说明了模型架构解耦不是唯一能够提高统一模型性能的方式。

当然,研究者也承认在目前情况下完全统一的方法和高解耦程度的模型之间存在很大的差距,但正如 Emu3.5 的出现,他们认为这个差距会越来越小。因此,研究者呼吁更多的人抛开表层的框架和数据配比,深入研究统一模型的任务冲突问题,寻找更优的解法。

AIA 好训吗?

由于 Emu3 只有预训练 (PT) 阶段是统一训练的,因此研究者在其 PT 权重上进行微调,而 Janus-Pro 给的是最终 SFT 微调后的权重,研究者在此基础上进行后训练。

研究者通过调整 AIA 损失与 next-token-prediction (NTP) 损失的比重来测试其微调的敏感度,结果发现训练 Emu3 的时候由于其预训练知识比较薄弱,AIA 损失在一个很大的范围内都能达到稳定收敛的效果。而在 Janus-Pro 中,由于其本身预训练知识很强,AIA 的加入非常容易影响模型训练,但在合适的比重情况下仍然能够达到不错的效果。

AIA 有什么优势?

AIA 损失的加入可以一定程度上减少现在常见的数据配比工程问题,本文的方法在生成与理解数据配比在 1:1 的情况下能够达到更好的效果,这说明在一定程度上两个任务的训练不再是冲突的,产生了协同优化的效果。

统一模型训练的正确道路是什么?

通过结合现在所有统一模型训练的问题以及本文的实验分析,可以发现不管怎样解耦模型,其始终会在统一训练的过程中动态分配不同任务在同一层的权重来缓解冲突,那这是否实际上代表了统一模型的正确行为?


另一条统一路径是移除所有可以用来区分任务的线索(即采用统一分词器、消除任务相关特殊 token、使用交错数据数据输入),迫使模型只能从输入中学习真正的统一空间。虽然这种方法或许可以解决任务间的负相关问题,但也会显著增加训练难度。

未来展望

AIA 迈出了统一模型训练原理分析的第一步,研究者希望能够有更多志同道合的研究者加入这个领域的探索。统一模型现在的理论、架构都远远没有达到成熟,需要大家共同进行探索。同时研究者也希望大家能够更加关注统一模型真正的意义,不要一味地关注当前单任务基准上的性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗称纳坦兹核设施遭美以两次袭击

伊朗称纳坦兹核设施遭美以两次袭击

新华社
2026-03-03 07:22:03
不要捡!不要捡!最近深圳街头大量出现

不要捡!不要捡!最近深圳街头大量出现

深圳晚报
2026-03-03 08:26:09
读懂今年全国两会,就能读懂中国下一个五年发展

读懂今年全国两会,就能读懂中国下一个五年发展

时代周报
2026-03-02 11:46:24
你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

另子维爱读史
2026-01-22 18:21:09
“精液”真的可以预防妇科疾病吗?医生直言:不要害羞,早知早好

“精液”真的可以预防妇科疾病吗?医生直言:不要害羞,早知早好

医者荣耀
2025-09-09 12:05:05
日寇陆军中将远藤三郎:读罢《论持久战》,方知军国主义必败

日寇陆军中将远藤三郎:读罢《论持久战》,方知军国主义必败

又是美好的日子
2026-03-02 23:22:50
中东多地关闭领空,急盼回国!全球唯一七星级酒店迪拜帆船酒店遇袭起火,中国母女36万元囤12张机票;广东籍游客亲历导弹袭击“紧张时刻”

中东多地关闭领空,急盼回国!全球唯一七星级酒店迪拜帆船酒店遇袭起火,中国母女36万元囤12张机票;广东籍游客亲历导弹袭击“紧张时刻”

极目新闻
2026-03-03 11:20:37
新一轮导弹向以色列发射

新一轮导弹向以色列发射

财联社
2026-02-28 16:30:07
马卡揭秘马斯坦托诺怒喷裁判:真耻辱,真TM的耻辱

马卡揭秘马斯坦托诺怒喷裁判:真耻辱,真TM的耻辱

懂球帝
2026-03-03 07:27:05
女子新买LV羽绒服穿3小时掉色?店员:LV衣服不能沾水,汗液浸到衣服上面出现褪色

女子新买LV羽绒服穿3小时掉色?店员:LV衣服不能沾水,汗液浸到衣服上面出现褪色

现代快报
2026-03-02 15:09:09
今年,北京已无离职潮

今年,北京已无离职潮

微微热评
2026-03-01 18:45:40
堪称第二个邓文迪!27岁清华博士,生3娃还能替世界首富掌钱袋

堪称第二个邓文迪!27岁清华博士,生3娃还能替世界首富掌钱袋

通文知史
2026-03-02 12:00:03
万人大厂宣布裁员 40%:利润在涨,人却多余了

万人大厂宣布裁员 40%:利润在涨,人却多余了

互联网早读课
2026-03-03 08:09:38
最初发现时仅1株!专家繁殖20年没成功,湖北农民只用6年种出27棵

最初发现时仅1株!专家繁殖20年没成功,湖北农民只用6年种出27棵

墨兰史书
2026-02-23 22:10:47
外媒:美官员首次证实美海军陆战队士兵在美驻巴基斯坦领事馆外的抗议活动中开火

外媒:美官员首次证实美海军陆战队士兵在美驻巴基斯坦领事馆外的抗议活动中开火

环球网资讯
2026-03-03 12:01:22
三人结拜为兄弟,建国后:一人是铁匠,一人是农民,一人是主席

三人结拜为兄弟,建国后:一人是铁匠,一人是农民,一人是主席

抽象派大师
2026-03-03 03:39:03
克林顿点名特朗普

克林顿点名特朗普

南方都市报
2026-03-03 12:22:25
中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

中国第一监狱:关的几乎全是高官,为防止泄密,牢房内有特殊布置

瓦伦西亚月亮
2026-02-20 17:37:18
法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

法国和浙江同为6000万人口,2025年法国创3万亿美元GDP,浙江呢?

八斗小先生
2026-02-28 18:56:17
特朗普怎么都没想到:哈梅死前留下25字遗言,中国不许三件事发生

特朗普怎么都没想到:哈梅死前留下25字遗言,中国不许三件事发生

小涛叨叨
2026-03-02 18:05:02
2026-03-03 13:36:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2327589文章数 5652关注度
往期回顾 全部

科技要闻

手机AI在MWC上卷出了新高度

头条要闻

美国三架F-15E被击落 美军声明中有个非常奇怪的地方

头条要闻

美国三架F-15E被击落 美军声明中有个非常奇怪的地方

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

霍尔木兹海峡近乎停摆 布油直逼80美元

汽车要闻

长安汽车2月销量151922辆 环比逆势增长12.8%

态度原创

亲子
教育
家居
手机
军事航空

亲子要闻

自闭症儿童空间方位分不清?别急!这样教so easy

教育要闻

直播预约|新学期加油站,火力攻破阅读写作难关!

家居要闻

万物互联 享科技福祉

手机要闻

荣耀Magic 9系列大屏产品或测试2亿像素主摄!

军事要闻

美国中央司令部透露对伊朗动武全部武器装备清单

无障碍浏览 进入关怀版