网易首页 > 网易号 > 正文 申请入驻

哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA

0
分享至

来源:市场资讯

(来源:机器之心)


全模态大模型(Omnimodal Large Models, OLMs)能够理解、生成、处理并关联真实世界多种数据类型,从而实现更丰富的理解以及与复杂世界的深度交互。人工智能向全模态大模型的演进,标志着其从「专才」走向「通才」,从「工具」走向「伙伴」的关键点。

然而,如何在一个模型中同时兼顾强大的多模态理解与高质量生成,如何构建高效而统一的模型架构,如何设计合理的训练方法和数据配比方案,仍是当前学术界与工业界共同的挑战。

近日,哈工大深圳计算与智能研究院 Lychee 大模型团队,在 2023 年研发的「立知」大语言模型基础上(工信部和网信办双认证),基于 2024 年 5 月提出的原创 Uni-MoE 全模态大模型架构,正式发布第二代「立知」全模态大模型 Uni-MoE-2.0-Omni。

该模型以大语言模型为核心,通过渐进式模型架构演进与训练策略优化,将稠密大语言模型拓展为混合专家架构驱动的高效全模态大模型,实现了从「语言理解」到「多模态理解」,再到「理解与生成兼备」的跨越式升级!团队围绕以语言为核心的通用人工智能,通过引入全模态 3D RoPE 位置编码、设计动态容量 MoE 架构以及全模态生成器等关键技术,有效打破了不同模态之间的壁垒,在维持高效计算性能的同时,实现了对图像、视频、文本与语音的统一理解、推理与生成。

值得一提的是,Uni-MoE-2.0-Omni 在图像理解、视频推理、音频理解、语音生成、图像生成与编辑等 85 项基准上取得高度竞争性或领先的表现,在 76 项可对比评测中,Uni-MoE-2.0-Omni(75B Tokens)超越 Qwen2.5-Omni(1.2T Tokens)逾 50 项任务,不仅在视频理解和全模态交互上取得显著突破,更在长语音生成、多模态语音交互和可控图像生成与编辑方面树立了新标杆。


  • 论文地址: https://arxiv.org/abs/2511.12609

  • 项目地址: https://idealistxy.github.io/Uni-MoE-v2.github.io/

  • 开源代码: https://github.com/HITsz-TMG/Uni-MoE

  • 开源模型: https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20

模型结构


Uni-MoE-2.0-Omni 以语言核心(LLM),通过统一的感知(Uni-Perception)与生成(Uni-Generation)模块,实现对文本、图像、视频、音频等多模态信号的全链路处理。这一架构由统一模态编码、动态 MoE 以及全模态生成器三大核心组件构成,旨在打破模态间的壁垒,实现从感知到生成的全链路统一。

1. 统一模态编码:为实现真正的多模态统一表示,Uni-MoE-2.0-Omni 采用了统一的 Token 化策略。在视觉方面,模型借助 SigLIP 编码器处理任意分辨率的图像与高帧率视频,并通过滑动窗口编码实现能力的平滑迁移;在音频方面,基于 Whisper-Large-v3 将 30 秒音频压缩为仅 200 个 Token,显著提升了长语音的理解效率。更重要的是,模型引入了 Omni-Modality 3D RoPE 机制,构建了一个覆盖文本(时间)、图像(空间)、视频(时空)和音频(绝对时间)的统一坐标系。这一设计彻底解决了跨模态位置编码不一致的问题,为高精度视频理解与视听对齐奠定了坚实基础。

2. 动态混合专家:Uni-MoE-2.0-Omni 的核心架构升级为新型的 Dynamic-Capacity MoE。不同于传统混合专家架构的固定路由,该架构支持动态专家数,即根据 Token 的难易程度自动分配算力,实现轻重缓急的自适应处理。同时,模型创新性地引入了三类专家角色:负责特定模态知识的路由专家、促进跨模态知识迁移的共享专家,以及用于跃层加速的空专家。配合路由梯度估计(Routing Gradient Estimation)技术,该架构有效解决了离散选择无法反向传播的痛点,在降低训练与推理算力的同时,显著提升了模型的稳定性与记忆管理能力。

3. 全模态生成器:Uni-MoE-2.0-Omni 通过特殊的控制 Token,将所有理解与生成任务统一纳入语言模型的语义空间,实现了理解即生成的无缝流转:在语音生成方面,其上下文信息驱动的 Uni-MoE-TTS 可以实现两分钟以上的语音回复,支持中英三种音色。在视觉生成方面:引入任务感知的扩散模型,通过深度融合视觉、任务与内容信号来联合驱动图像生成与编辑,显著提升了图像编辑和复原的准确性。

训练方法


针对混合专家架构在全模态大模型训练中易出现不稳定的问题,该团队设计了渐进式训练策略,依次推进:跨模态对齐→专家预热→MoE 微调与强化学习→生成式训练。该渐进式的模型演进和训练流程能够以较少的数据量(75B),将稠密大语言模型 (Qwen2.5-7B) 高效扩展为全模态大模型,并保障在全模态数据环境下强化训练的收敛稳定性。

针对多模态理解与生成任务在训练中往往割裂的问题,该团队提出以语言生成任务为锚点的多模态理解与生成联合训练方式。通过将图像编辑与生成、语音合成等任务统一至语言生成框架,打破理解与生成之间的内在界限,实现两者能力的协同增强与双向赋能。

性能评估


为了验证 Uni-MoE-2.0-Omni 的全能实力,研究团队在多达 85 个基准测试上进行了地毯式评估。结果显示,该模型在理解能力与生成质量上均取得了质的飞跃,不仅在35 个任务上达到最佳性能(SOTA),更在 50 个评估任务上全面超越了 1.2T Token 训练的 Qwen2.5-Omni,其中在 8 个视频评估基准和 4 个全模态理解基准较 Qwen2.5-Omni 提升 7%,展现了极高的数据利用效率与架构优势。


全模态理解


视频理解


可控生成与图像复原


多模态语音交互问答

功能展示

场景一:视觉数学推理

给它一个图表题,它不仅具备 OCR 能力,而且能基于 OCR 结果进行数学推理。


场景二:图像推理生成

生成冬天的苹果园时,考虑季节因素,避免「画蛇添足」。



场景三:人像图片修饰

保持人物主体不变,根据指令修改图片。


场景四:图像质量修复

给它雨 / 雾 / 雪 / 暗等低质量图片,秒变清晰原图。


场景五:识图语音助手

给它一张照片,精确定位旅游景点。


场景六:多轮对话伙伴

化身智慧助手,精准捕捉话题流转,连续响应用户意图。


总结与展望

Uni-MoE-2.0-Omni 是一个架构先进、完全开源的全模态大模型。从 Uni-MoE 1.0 到 2.0,该系列模型不仅验证了将稠密大语言模型扩展为全模态模型的路径,更实现了从单纯的「多模态理解」向「理解生成一体化」的跨越。该模型的发布,为社区提供了一个强有力的全模态基座,其代码、模型权重及数据清单的开源,将进一步推动通用多模态人工智能的研究与应用发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马杜罗为啥不值得同情

马杜罗为啥不值得同情

吴女士
2026-01-04 13:57:39
三亚不香了?东北人撤离成潮,压垮他们的不是物价,而是生活现实

三亚不香了?东北人撤离成潮,压垮他们的不是物价,而是生活现实

青眼财经
2026-01-02 23:58:07
一行多人翻“小鳌太线”失联至今?相关工作人员:还在搜救中

一行多人翻“小鳌太线”失联至今?相关工作人员:还在搜救中

红星新闻
2026-01-04 16:26:15
段子:特朗普说前俄罗斯军事顾问提供了马杜罗情报,只要价1美元

段子:特朗普说前俄罗斯军事顾问提供了马杜罗情报,只要价1美元

回旋镖
2026-01-04 13:03:41
台湾社会反弹,陈水扁新节目黄了!疑卓荣泰传话:开播就抓回去关

台湾社会反弹,陈水扁新节目黄了!疑卓荣泰传话:开播就抓回去关

海峡导报社
2026-01-04 11:16:12
特朗普:美军抓走马杜罗行动中“许多古巴人丧生”

特朗普:美军抓走马杜罗行动中“许多古巴人丧生”

环球网资讯
2026-01-04 11:04:27
忍耐10天,解放军围台演习打响,美军胆敢武力介入,只有一个下场

忍耐10天,解放军围台演习打响,美军胆敢武力介入,只有一个下场

boss外传
2026-01-03 17:00:03
演都不演了!田朴珺删光合影,怒斥对方自私,王石彻底成“笑话”

演都不演了!田朴珺删光合影,怒斥对方自私,王石彻底成“笑话”

查尔菲的笔记
2026-01-04 15:08:02
女子对年薪四五十万老公不满,全网劝离,甚至还有网友想取而代之

女子对年薪四五十万老公不满,全网劝离,甚至还有网友想取而代之

鋭娱之乐
2026-01-03 20:18:35
美军突袭抓获马杜罗,三个细节值得关注

美军突袭抓获马杜罗,三个细节值得关注

中国能源网
2026-01-04 15:34:08
美国全面接管委内瑞拉石油,连锁反应开始了

美国全面接管委内瑞拉石油,连锁反应开始了

贩财局
2026-01-04 08:43:54
国行版AI上线了?苹果回应

国行版AI上线了?苹果回应

财联社
2026-01-04 13:12:04
特朗普威胁古巴、哥伦比亚

特朗普威胁古巴、哥伦比亚

界面新闻
2026-01-04 07:16:33
新加坡科学院院士国大教授陈小元,被指涉及性不端行为遭校方解雇

新加坡科学院院士国大教授陈小元,被指涉及性不端行为遭校方解雇

知社学术圈
2026-01-04 15:47:09
确认了,今晚浙江天气有变!

确认了,今晚浙江天气有变!

鲁中晨报
2026-01-04 15:53:03
满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

满是心酸!42岁著名歌手江苏走穴,宾客只顾吃席没人搭理

查尔菲的笔记
2026-01-04 13:13:57
小米集团CEO雷军:消费者不了解老说我们小米汽车车轮子撞掉了,其实是“丢轮保车”安全策略!大家一定要帮我们解释一下

小米集团CEO雷军:消费者不了解老说我们小米汽车车轮子撞掉了,其实是“丢轮保车”安全策略!大家一定要帮我们解释一下

和讯网
2026-01-04 11:42:21
拆迁队“以尘逼迁”,雾炮机变“扬尘机”?广州一街道回应:操作失误所致,施工队已停工整改

拆迁队“以尘逼迁”,雾炮机变“扬尘机”?广州一街道回应:操作失误所致,施工队已停工整改

封面新闻
2026-01-04 17:25:03
田朴珺删光王石合影,王石:每晚最难熬是等她回家,不知道回不回

田朴珺删光王石合影,王石:每晚最难熬是等她回家,不知道回不回

眉眼动人
2026-01-04 11:41:23
“老板承诺夺冠每人奖一台车,却食言清空账号”,当地通报:企业面临困难,企业主家庭出现特殊状况,难以兑现承诺,球队不再要求履约

“老板承诺夺冠每人奖一台车,却食言清空账号”,当地通报:企业面临困难,企业主家庭出现特殊状况,难以兑现承诺,球队不再要求履约

每日经济新闻
2026-01-04 01:17:06
2026-01-04 18:48:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1900352文章数 5156关注度
往期回顾 全部

科技要闻

独家|宇树科技上市绿色通道被叫停

头条要闻

神秘账户精准押注"马杜罗被抓" 一天狂赚超1200%

头条要闻

神秘账户精准押注"马杜罗被抓" 一天狂赚超1200%

体育要闻

球队陷入危难,一名44岁教练选择复出打球

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

委内瑞拉变局对原油美元黄金的连锁冲击

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

时尚
本地
旅游
手机
军事航空

伊姐元旦热推:电视剧《剥茧》;电视剧《玉茗茶骨》......

本地新闻

即将过去的2025年,对重庆的影响竟然如此深远

旅游要闻

元旦旅游迎来开门红,广东清远、陕西铜川等“黑马”增速领跑

手机要闻

苹果首款折叠屏iPhone渲染图曝光,或2026年秋季发布

军事要闻

美军突袭抓获马杜罗 三个细节值得关注

无障碍浏览 进入关怀版