网易首页 > 网易号 > 正文 申请入驻

哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及新SOTA

0
分享至



全模态大模型(Omnimodal Large Models, OLMs)能够理解、生成、处理并关联真实世界多种数据类型,从而实现更丰富的理解以及与复杂世界的深度交互。人工智能向全模态大模型的演进,标志着其从「专才」走向「通才」,从「工具」走向「伙伴」的关键点。

然而,如何在一个模型中同时兼顾强大的多模态理解与高质量生成,如何构建高效而统一的模型架构,如何设计合理的训练方法和数据配比方案,仍是当前学术界与工业界共同的挑战。

近日,哈工大深圳计算与智能研究院 Lychee 大模型团队,在 2023 年研发的「立知」大语言模型基础上(工信部和网信办双认证),基于 2024 年 5 月提出的原创 Uni-MoE 全模态大模型架构,正式发布第二代「立知」全模态大模型Uni-MoE-2.0-Omni。

该模型以大语言模型为核心,通过渐进式模型架构演进与训练策略优化,将稠密大语言模型拓展为混合专家架构驱动的高效全模态大模型,实现了从「语言理解」到「多模态理解」,再到「理解与生成兼备」的跨越式升级!团队围绕以语言为核心的通用人工智能,通过引入全模态 3D RoPE 位置编码、设计动态容量 MoE 架构以及全模态生成器等关键技术,有效打破了不同模态之间的壁垒,在维持高效计算性能的同时,实现了对图像、视频、文本与语音的统一理解、推理与生成。

值得一提的是,Uni-MoE-2.0-Omni 在图像理解、视频推理、音频理解、语音生成、图像生成与编辑等85 项基准上取得高度竞争性或领先的表现,在 76 项可对比评测中,Uni-MoE-2.0-Omni(75B Tokens)超越 Qwen2.5-Omni(1.2T Tokens)逾 50 项任务,不仅在视频理解和全模态交互上取得显著突破,更在长语音生成、多模态语音交互和可控图像生成与编辑方面树立了新标杆。



  • 论文地址: https://arxiv.org/abs/2511.12609
  • 项目地址: https://idealistxy.github.io/Uni-MoE-v2.github.io/
  • 开源代码: https://github.com/HITsz-TMG/Uni-MoE
  • 开源模型: https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20

模型结构



Uni-MoE-2.0-Omni 以语言核心(LLM),通过统一的感知(Uni-Perception)与生成(Uni-Generation)模块,实现对文本、图像、视频、音频等多模态信号的全链路处理。这一架构由统一模态编码、动态 MoE 以及全模态生成器三大核心组件构成,旨在打破模态间的壁垒,实现从感知到生成的全链路统一。

1. 统一模态编码:为实现真正的多模态统一表示,Uni-MoE-2.0-Omni 采用了统一的 Token 化策略。在视觉方面,模型借助 SigLIP 编码器处理任意分辨率的图像与高帧率视频,并通过滑动窗口编码实现能力的平滑迁移;在音频方面,基于 Whisper-Large-v3 将 30 秒音频压缩为仅 200 个 Token,显著提升了长语音的理解效率。更重要的是,模型引入了Omni-Modality 3D RoPE机制,构建了一个覆盖文本(时间)、图像(空间)、视频(时空)和音频(绝对时间)的统一坐标系。这一设计彻底解决了跨模态位置编码不一致的问题,为高精度视频理解与视听对齐奠定了坚实基础。

2. 动态混合专家:Uni-MoE-2.0-Omni 的核心架构升级为新型的Dynamic-Capacity MoE。不同于传统混合专家架构的固定路由,该架构支持动态专家数,即根据 Token 的难易程度自动分配算力,实现轻重缓急的自适应处理。同时,模型创新性地引入了三类专家角色:负责特定模态知识的路由专家、促进跨模态知识迁移的共享专家,以及用于跃层加速的空专家。配合路由梯度估计(Routing Gradient Estimation)技术,该架构有效解决了离散选择无法反向传播的痛点,在降低训练与推理算力的同时,显著提升了模型的稳定性与记忆管理能力。

3. 全模态生成器:Uni-MoE-2.0-Omni 通过特殊的控制 Token,将所有理解与生成任务统一纳入语言模型的语义空间,实现了理解即生成的无缝流转:在语音生成方面,其上下文信息驱动的 Uni-MoE-TTS可以实现两分钟以上的语音回复,支持中英三种音色。在视觉生成方面:引入任务感知的扩散模型,通过深度融合视觉、任务与内容信号来联合驱动图像生成与编辑,显著提升了图像编辑和复原的准确性。

训练方法




针对混合专家架构在全模态大模型训练中易出现不稳定的问题,该团队设计了渐进式训练策略,依次推进:跨模态对齐→专家预热→MoE 微调与强化学习→生成式训练。该渐进式的模型演进和训练流程能够以较少的数据量(75B),将稠密大语言模型 (Qwen2.5-7B) 高效扩展为全模态大模型,并保障在全模态数据环境下强化训练的收敛稳定性。

针对多模态理解与生成任务在训练中往往割裂的问题,该团队提出以语言生成任务为锚点的多模态理解与生成联合训练方式。通过将图像编辑与生成、语音合成等任务统一至语言生成框架,打破理解与生成之间的内在界限,实现两者能力的协同增强与双向赋能。

性能评估



为了验证 Uni-MoE-2.0-Omni 的全能实力,研究团队在多达 85 个基准测试上进行了地毯式评估。结果显示,该模型在理解能力与生成质量上均取得了质的飞跃,不仅在35 个任务上达到最佳性能(SOTA),更在 50 个评估任务上全面超越了 1.2T Token 训练的 Qwen2.5-Omni,其中在 8 个视频评估基准和 4 个全模态理解基准较 Qwen2.5-Omni提升 7%,展现了极高的数据利用效率与架构优势。



全模态理解



视频理解



可控生成与图像复原



多模态语音交互问答

功能展示

场景一:视觉数学推理

给它一个图表题,它不仅具备 OCR 能力,而且能基于 OCR 结果进行数学推理。



场景二:图像推理生成

生成冬天的苹果园时,考虑季节因素,避免「画蛇添足」。





场景三:人像图片修饰

保持人物主体不变,根据指令修改图片。



场景四:图像质量修复

给它雨 / 雾 / 雪 / 暗等低质量图片,秒变清晰原图。



场景五:识图语音助手

给它一张照片,精确定位旅游景点。



场景六:多轮对话伙伴

化身智慧助手,精准捕捉话题流转,连续响应用户意图。



总结与展望

Uni-MoE-2.0-Omni 是一个架构先进、完全开源的全模态大模型。从 Uni-MoE 1.0 到 2.0,该系列模型不仅验证了将稠密大语言模型扩展为全模态模型的路径,更实现了从单纯的「多模态理解」向「理解生成一体化」的跨越。该模型的发布,为社区提供了一个强有力的全模态基座,其代码、模型权重及数据清单的开源,将进一步推动通用多模态人工智能的研究与应用发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
罗晋携任素汐去祈福后,唐嫣连发三文表态,婚变传闻终于真相大白

罗晋携任素汐去祈福后,唐嫣连发三文表态,婚变传闻终于真相大白

喜欢历史的阿繁
2025-12-30 11:18:30
凌晨暴走体育西!广州地铁1400万人次刷新纪录

凌晨暴走体育西!广州地铁1400万人次刷新纪录

楼主说楼市
2026-01-01 21:51:42
R.I.P. 国内知名游戏博主因癌症不幸离世

R.I.P. 国内知名游戏博主因癌症不幸离世

游民星空
2025-12-31 20:28:11
教育部这一刀,算是精准砍在了某些人的大动脉上!

教育部这一刀,算是精准砍在了某些人的大动脉上!

达文西看世界
2025-12-31 18:39:00
倒闭率达43%,多地门店跑路!曾月入5万的躺赚行业,现也扛不住了

倒闭率达43%,多地门店跑路!曾月入5万的躺赚行业,现也扛不住了

财经八卦
2025-12-17 20:32:35
74年炊事员煮了锅肉汤给战士喝,开吃前首长却开口:第一口你先喝

74年炊事员煮了锅肉汤给战士喝,开吃前首长却开口:第一口你先喝

卡西莫多的故事
2025-10-23 10:45:01
美联储降息,大消息!

美联储降息,大消息!

魏家东
2026-01-01 14:17:52
出大事了,托卡耶夫犯了大忌,参拜日本明治神宫,还要给日稀土?

出大事了,托卡耶夫犯了大忌,参拜日本明治神宫,还要给日稀土?

无情有思可
2025-12-31 18:01:20
英各大媒体:切尔西今日就会解雇主教练马雷斯卡

英各大媒体:切尔西今日就会解雇主教练马雷斯卡

星耀国际足坛
2026-01-02 01:05:09
电讯报:爱德华兹对魔笛的成功判断,使红军相信维尔茨能成功

电讯报:爱德华兹对魔笛的成功判断,使红军相信维尔茨能成功

懂球帝
2026-01-01 18:26:11
你的退休年龄又被调了?1970-1977年出生的人,务必算清这笔账!

你的退休年龄又被调了?1970-1977年出生的人,务必算清这笔账!

陈博世财经
2025-12-30 14:28:00
封岛军演三天,29国站在中方对立面,美航母改道,台军巡逻艇叫阵

封岛军演三天,29国站在中方对立面,美航母改道,台军巡逻艇叫阵

现代小青青慕慕
2026-01-01 11:07:00
海马斯火箭炮再度出现在官方海报中,被精准“点杀”

海马斯火箭炮再度出现在官方海报中,被精准“点杀”

扬子晚报
2025-12-31 23:28:22
好莱坞女星吞枪自杀,吸毒成瘾负债累累,20年没拍戏靠抚养费生存

好莱坞女星吞枪自杀,吸毒成瘾负债累累,20年没拍戏靠抚养费生存

跳跳历史
2025-12-31 11:57:02
熊掌“成名”记:熊身上那么多能吃的肉,为啥唯独熊掌出了大名?

熊掌“成名”记:熊身上那么多能吃的肉,为啥唯独熊掌出了大名?

向航说
2025-12-24 00:55:03
重磅官宣:对中国公民免签,90天

重磅官宣:对中国公民免签,90天

数据宝
2026-01-01 12:14:21
彻底卖爆了!“疯掉了,像不要钱一样”,有人全部换成黄金……

彻底卖爆了!“疯掉了,像不要钱一样”,有人全部换成黄金……

环球网资讯
2026-01-01 07:20:11
49岁仍单身!曾因“全裸写真”遭全网唾骂,如今她活成了这样!

49岁仍单身!曾因“全裸写真”遭全网唾骂,如今她活成了这样!

小小李娱
2025-11-06 11:14:59
中国海警登船海报,敢运军火我们就拦,3国已向中方声援支持统一

中国海警登船海报,敢运军火我们就拦,3国已向中方声援支持统一

小涛叨叨
2025-12-31 21:08:39
最低温-11℃!小雪局部中雪、小雨或雨夹雪,阵风7~8级,山东最新元旦假期天气→

最低温-11℃!小雪局部中雪、小雨或雨夹雪,阵风7~8级,山东最新元旦假期天气→

鲁中晨报
2026-01-01 16:25:12
2026-01-02 01:59:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12031文章数 142527关注度
往期回顾 全部

科技要闻

特斯拉Model 3车主首度全程自驾横穿美国

头条要闻

收到情报后 卢卡申科“提醒普京不要赴会”

头条要闻

收到情报后 卢卡申科“提醒普京不要赴会”

体育要闻

2026,这些英超纪录可能会被打破

娱乐要闻

跑调风波越演越烈!沈佳润被网友喊话

财经要闻

巴菲特「身退,权还在」

汽车要闻

一汽-大众2025年整车销量超158万辆 燃油车市占率创新高

态度原创

家居
房产
游戏
旅游
军事航空

家居要闻

无形有行 自然与灵感诗意

房产要闻

实景暴击!海口这个顶流红盘,抛出准现房+顶级书包双王炸!

LPL最惨选手诞生!圈内主播爆料RNG离谱合同,LPL概念神陪玩挣钱

旅游要闻

自贡非遗花灯点亮江南夜!2026无锡梅里古镇新年灯会璀璨启幕

军事要闻

福建舰全体官兵列阵 送上硬核祝福

无障碍浏览 进入关怀版