网易首页 > 网易号 > 正文 申请入驻

哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及新SOTA

0
分享至



全模态大模型(Omnimodal Large Models, OLMs)能够理解、生成、处理并关联真实世界多种数据类型,从而实现更丰富的理解以及与复杂世界的深度交互。人工智能向全模态大模型的演进,标志着其从「专才」走向「通才」,从「工具」走向「伙伴」的关键点。

然而,如何在一个模型中同时兼顾强大的多模态理解与高质量生成,如何构建高效而统一的模型架构,如何设计合理的训练方法和数据配比方案,仍是当前学术界与工业界共同的挑战。

近日,哈工大深圳计算与智能研究院 Lychee 大模型团队,在 2023 年研发的「立知」大语言模型基础上(工信部和网信办双认证),基于 2024 年 5 月提出的原创 Uni-MoE 全模态大模型架构,正式发布第二代「立知」全模态大模型Uni-MoE-2.0-Omni。

该模型以大语言模型为核心,通过渐进式模型架构演进与训练策略优化,将稠密大语言模型拓展为混合专家架构驱动的高效全模态大模型,实现了从「语言理解」到「多模态理解」,再到「理解与生成兼备」的跨越式升级!团队围绕以语言为核心的通用人工智能,通过引入全模态 3D RoPE 位置编码、设计动态容量 MoE 架构以及全模态生成器等关键技术,有效打破了不同模态之间的壁垒,在维持高效计算性能的同时,实现了对图像、视频、文本与语音的统一理解、推理与生成。

值得一提的是,Uni-MoE-2.0-Omni 在图像理解、视频推理、音频理解、语音生成、图像生成与编辑等85 项基准上取得高度竞争性或领先的表现,在 76 项可对比评测中,Uni-MoE-2.0-Omni(75B Tokens)超越 Qwen2.5-Omni(1.2T Tokens)逾 50 项任务,不仅在视频理解和全模态交互上取得显著突破,更在长语音生成、多模态语音交互和可控图像生成与编辑方面树立了新标杆。



  • 论文地址: https://arxiv.org/abs/2511.12609
  • 项目地址: https://idealistxy.github.io/Uni-MoE-v2.github.io/
  • 开源代码: https://github.com/HITsz-TMG/Uni-MoE
  • 开源模型: https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20

模型结构



Uni-MoE-2.0-Omni 以语言核心(LLM),通过统一的感知(Uni-Perception)与生成(Uni-Generation)模块,实现对文本、图像、视频、音频等多模态信号的全链路处理。这一架构由统一模态编码、动态 MoE 以及全模态生成器三大核心组件构成,旨在打破模态间的壁垒,实现从感知到生成的全链路统一。

1. 统一模态编码:为实现真正的多模态统一表示,Uni-MoE-2.0-Omni 采用了统一的 Token 化策略。在视觉方面,模型借助 SigLIP 编码器处理任意分辨率的图像与高帧率视频,并通过滑动窗口编码实现能力的平滑迁移;在音频方面,基于 Whisper-Large-v3 将 30 秒音频压缩为仅 200 个 Token,显著提升了长语音的理解效率。更重要的是,模型引入了Omni-Modality 3D RoPE机制,构建了一个覆盖文本(时间)、图像(空间)、视频(时空)和音频(绝对时间)的统一坐标系。这一设计彻底解决了跨模态位置编码不一致的问题,为高精度视频理解与视听对齐奠定了坚实基础。

2. 动态混合专家:Uni-MoE-2.0-Omni 的核心架构升级为新型的Dynamic-Capacity MoE。不同于传统混合专家架构的固定路由,该架构支持动态专家数,即根据 Token 的难易程度自动分配算力,实现轻重缓急的自适应处理。同时,模型创新性地引入了三类专家角色:负责特定模态知识的路由专家、促进跨模态知识迁移的共享专家,以及用于跃层加速的空专家。配合路由梯度估计(Routing Gradient Estimation)技术,该架构有效解决了离散选择无法反向传播的痛点,在降低训练与推理算力的同时,显著提升了模型的稳定性与记忆管理能力。

3. 全模态生成器:Uni-MoE-2.0-Omni 通过特殊的控制 Token,将所有理解与生成任务统一纳入语言模型的语义空间,实现了理解即生成的无缝流转:在语音生成方面,其上下文信息驱动的 Uni-MoE-TTS可以实现两分钟以上的语音回复,支持中英三种音色。在视觉生成方面:引入任务感知的扩散模型,通过深度融合视觉、任务与内容信号来联合驱动图像生成与编辑,显著提升了图像编辑和复原的准确性。

训练方法




针对混合专家架构在全模态大模型训练中易出现不稳定的问题,该团队设计了渐进式训练策略,依次推进:跨模态对齐→专家预热→MoE 微调与强化学习→生成式训练。该渐进式的模型演进和训练流程能够以较少的数据量(75B),将稠密大语言模型 (Qwen2.5-7B) 高效扩展为全模态大模型,并保障在全模态数据环境下强化训练的收敛稳定性。

针对多模态理解与生成任务在训练中往往割裂的问题,该团队提出以语言生成任务为锚点的多模态理解与生成联合训练方式。通过将图像编辑与生成、语音合成等任务统一至语言生成框架,打破理解与生成之间的内在界限,实现两者能力的协同增强与双向赋能。

性能评估



为了验证 Uni-MoE-2.0-Omni 的全能实力,研究团队在多达 85 个基准测试上进行了地毯式评估。结果显示,该模型在理解能力与生成质量上均取得了质的飞跃,不仅在35 个任务上达到最佳性能(SOTA),更在 50 个评估任务上全面超越了 1.2T Token 训练的 Qwen2.5-Omni,其中在 8 个视频评估基准和 4 个全模态理解基准较 Qwen2.5-Omni提升 7%,展现了极高的数据利用效率与架构优势。



全模态理解



视频理解



可控生成与图像复原



多模态语音交互问答

功能展示

场景一:视觉数学推理

给它一个图表题,它不仅具备 OCR 能力,而且能基于 OCR 结果进行数学推理。



场景二:图像推理生成

生成冬天的苹果园时,考虑季节因素,避免「画蛇添足」。





场景三:人像图片修饰

保持人物主体不变,根据指令修改图片。



场景四:图像质量修复

给它雨 / 雾 / 雪 / 暗等低质量图片,秒变清晰原图。



场景五:识图语音助手

给它一张照片,精确定位旅游景点。



场景六:多轮对话伙伴

化身智慧助手,精准捕捉话题流转,连续响应用户意图。



总结与展望

Uni-MoE-2.0-Omni 是一个架构先进、完全开源的全模态大模型。从 Uni-MoE 1.0 到 2.0,该系列模型不仅验证了将稠密大语言模型扩展为全模态模型的路径,更实现了从单纯的「多模态理解」向「理解生成一体化」的跨越。该模型的发布,为社区提供了一个强有力的全模态基座,其代码、模型权重及数据清单的开源,将进一步推动通用多模态人工智能的研究与应用发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
40年春晚赞助商,40年泼天富贵来时路

40年春晚赞助商,40年泼天富贵来时路

鉴茶院
2026-01-28 08:15:50
深度揭秘 | 封疆大吏罗保铭:贪婪腐化,大办丧事敛财,大搞迷信活动

深度揭秘 | 封疆大吏罗保铭:贪婪腐化,大办丧事敛财,大搞迷信活动

一分为三看人生
2026-02-11 16:18:47
机票价格大跳水,不少人“抄底”,上海最高跌幅超70%!

机票价格大跳水,不少人“抄底”,上海最高跌幅超70%!

环球网资讯
2026-02-18 07:39:13
一场0:2验出申花一个水货外援 乏善可陈还坑苦球队 恐遭斯帅冷落

一场0:2验出申花一个水货外援 乏善可陈还坑苦球队 恐遭斯帅冷落

零度眼看球
2026-02-18 07:48:36
神童张炘炀现状:博士毕业,没有无业啃老,坦言父母不欠他一套房

神童张炘炀现状:博士毕业,没有无业啃老,坦言父母不欠他一套房

阿讯说天下
2026-02-17 11:59:53
44岁前国脚怼网友:看不起送外卖的?人家比你朝九晚五上班挣得多

44岁前国脚怼网友:看不起送外卖的?人家比你朝九晚五上班挣得多

念洲
2026-02-18 09:57:01
一味中药,消囊胜过手术刀,用好了能消除肝囊肿、肾囊肿、卵巢囊肿

一味中药,消囊胜过手术刀,用好了能消除肝囊肿、肾囊肿、卵巢囊肿

环京快爆
2026-02-06 13:46:01
记者:图拉姆完全契合巴萨的中锋需求,转会费不超过7000万欧

记者:图拉姆完全契合巴萨的中锋需求,转会费不超过7000万欧

懂球帝
2026-02-17 17:04:45
1988年四川白岩沟那一战,1516人围攻2名逃兵,打了3天3夜,最后只拖出两具烧焦的黑炭

1988年四川白岩沟那一战,1516人围攻2名逃兵,打了3天3夜,最后只拖出两具烧焦的黑炭

史海孤雁
2026-01-13 23:29:17
美国为何对中国保持克制?你绝对想不到的原因!

美国为何对中国保持克制?你绝对想不到的原因!

枫冷慕诗
2025-12-03 18:25:42
1960年代,许世友想要安徽一个湖,省委书记拍桌子:手伸太长!结局谁也没想到

1960年代,许世友想要安徽一个湖,省委书记拍桌子:手伸太长!结局谁也没想到

源溯历史
2025-12-22 12:14:11
他是安徽省首任省长,用一生告诉我们:信仰就该如岩石,坚不可摧

他是安徽省首任省长,用一生告诉我们:信仰就该如岩石,坚不可摧

阿天爱旅行
2026-02-17 22:21:26
牢A命中,被一窝端16人都是女留学生

牢A命中,被一窝端16人都是女留学生

雪中风车
2026-01-28 13:23:54
96年考上大学向舅舅借1000被拒,全村连夜凑钱,20年后让乡亲落泪

96年考上大学向舅舅借1000被拒,全村连夜凑钱,20年后让乡亲落泪

浩舞默画
2025-10-04 06:40:03
为什么日本在短期旅行中几乎无可挑剔,却在长期生活中让大量外国人逐渐感到压抑与疏离

为什么日本在短期旅行中几乎无可挑剔,却在长期生活中让大量外国人逐渐感到压抑与疏离

日本物语
2026-01-13 20:41:39
“我舍不得吃,你们凭什么送给外人”!评论区撕开父母穷大方的一面

“我舍不得吃,你们凭什么送给外人”!评论区撕开父母穷大方的一面

素十三儿
2026-02-16 12:35:05
凭啥说诺维斯基这一冠含金量历史最高 小牛和对手阵容差距有多大

凭啥说诺维斯基这一冠含金量历史最高 小牛和对手阵容差距有多大

篮球小烟花
2026-01-25 08:00:02
春节档6部华语电影血拼,第一波口碑来了,榜首出乎意料

春节档6部华语电影血拼,第一波口碑来了,榜首出乎意料

小Q侃电影
2026-02-18 12:51:30
王毅警告日本后,新加坡对日态度大变,高市突然给全体华人拜年

王毅警告日本后,新加坡对日态度大变,高市突然给全体华人拜年

东极妙严
2026-02-17 09:08:55
回顾:上海杀妻案朱晓东被处死刑,狱中对妻子的评价,让人胆寒

回顾:上海杀妻案朱晓东被处死刑,狱中对妻子的评价,让人胆寒

谈史论天地
2026-02-11 13:30:11
2026-02-18 13:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12314文章数 142568关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

牛弹琴:特朗普宣布一个大消息 日本要当"冤大头"了

头条要闻

牛弹琴:特朗普宣布一个大消息 日本要当"冤大头"了

体育要闻

维尼修斯进球后罢赛 向穆帅投诉对手歧视

娱乐要闻

6大卫视春晚收视出炉 北京台稳居第一

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

亲子
房产
游戏
数码
公开课

亲子要闻

孩子心口闷得慌是怎么回事呢?

房产要闻

三亚新机场,又传出新消息!

死或生6老玩家破防!官方:若想升级新版需要全款购买

数码要闻

苹果秘密研发清单流出:第三代HomePod扬声器和紧凑型室内传感器

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版