网易首页 > 网易号 > 正文 申请入驻

真·多模态问世,阿里开源Qwen2.5-Omni,7B参数完成看、听、说、写

0
分享至

机器之心编辑部

3 月 27 日凌晨,阿里通义千问团队发布 Qwen2.5-Omni。

这是 Qwen 系列中全新的旗舰级多模态大模型,专为全面的多模式感知设计,可以无缝处理包括文本、图像、音频和视频的各种输入,同时支持流式的文本生成和自然语音合成输出。

从此以后,你可以像打电话或进行视频通话一样与 Qwen 聊天!可以说是「语音聊天 + 视频聊天」都实现了。

体验地址:https://chat.qwen.ai/

更重要的是,团队人员将支持这一切的模型 Qwen2.5-Omni-7B 开源了,采用 Apache 2.0 许可证,并且发布了技术报告,分享所有细节!

现在,开发者和企业可免费下载商用Qwen2.5-Omni,手机等终端智能硬件也可轻松部署运行。

  • 论文地址:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf

  • 博客地址:https://qwenlm.github.io/blog/qwen2.5-omni/

  • GitHub 地址:https://github.com/QwenLM/Qwen2.5-Omni

  • Hugging Face 地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

  • ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

有网友表示,这才是真正的 Open AI。

大家可以通过官方 demo 感受一下 Qwen2.5-Omni 真实表现。

Qwen2.5-Omni 模型架构

Qwen2.5-Omni 具有以下特点:

  • Omni 和创新架构:团队提出了 Thinker-Talker 架构,这是一个端到端的多模态模型,旨在感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。此外,团队还提出了一种名为 TMRoPE(Time-aligned Multimodal RoPE)的新型位置嵌入,用于同步视频输入与音频的时间戳;

  • 实时语音和视频聊天:该架构专为完全实时交互而设计,支持分块输入和即时输出;

  • 自然且稳健的语音生成:在语音生成方面,Qwen2.5-Omni 超越了许多现有的流式和非流式替代方案,展现出卓越的稳健性和自然性;

  • 多模态性能强劲:在与同样大小的单模态模型进行基准测试时,Qwen2.5-Omni 在所有模态上均展现出卓越的性能。Qwen2.5-Omni 在音频能力上超越了同样大小的 Qwen2-Audio,并且达到了与 Qwen2.5-VL-7B 相当的性能;

  • 出色的端到端语音指令遵循能力:Qwen2.5-Omni 在端到端语音指令遵循方面的表现可与文本输入的有效性相媲美,这一点在 MMLU 和 GSM8K 等基准测试中得到了证明。

前文我们已经提到,Qwen2.5-Omni 采用了 Thinker-Talker 架构。

Thinker 就像大脑一样,负责处理和理解来自文本、音频和视频模态的输入,生成高级表示以及对应的文本。

Talker 则像人类的嘴巴,以流式方式接收 Thinker 产生的高级表示和文本,并流畅地输出离散的语音 token。

Thinker 是一个 Transformer 解码器,配备有音频和图像的编码器,以便于提取信息。相比之下,Talker 被设计为一种双轨自回归 Transformer 解码器架构。

在训练和推理过程中,Talker 直接接收来自 Thinker 的高维表示,并共享 Thinker 的所有历史上下文信息。因此,整个架构作为一个统一的单一模型运行,实现了端到端的训练和推理。

Qwen2.5-Omni 模型架构

模型性能

团队人员对 Qwen2.5-Omni 进行了全面评估,结果表明,该模型在所有模态上的表现均优于类似大小的单模态模型以及闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在需要集成多种模态的任务中,如 OmniBench,Qwen2.5-Omni 达到了最先进的水平。

此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU, MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和 subjective naturalness)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
薄一波两位亲家是谁?一位身经百战将军,一位仕途辉煌副国级高层

薄一波两位亲家是谁?一位身经百战将军,一位仕途辉煌副国级高层

人生录
2026-06-24 12:53:18
大捷!金伯恩沙嘴升起乌克兰国旗,乌军兵不血刃收复战略要地

大捷!金伯恩沙嘴升起乌克兰国旗,乌军兵不血刃收复战略要地

史政先锋
2026-06-26 13:18:32
雷佳音喊话网友支持《抓特务》,网友:您“走个面”请我看

雷佳音喊话网友支持《抓特务》,网友:您“走个面”请我看

阿乐碎碎念
2026-06-26 12:42:35
比机票还贵的机建燃油,到底是谁发明的?

比机票还贵的机建燃油,到底是谁发明的?

差评XPIN
2026-06-26 01:55:24
美军反击后,万斯警告伊朗:有异议,可以打电话

美军反击后,万斯警告伊朗:有异议,可以打电话

音乐时光的娱乐
2026-06-27 08:50:50
13岁少女遭强奸不予立案事件迎来转机!30岁凶手围猎少女手段恶劣令人发指

13岁少女遭强奸不予立案事件迎来转机!30岁凶手围猎少女手段恶劣令人发指

不二表姐
2026-06-26 00:55:55
“你高考分数还没我内存高”,女高中生查分现场,眼神注定了结局

“你高考分数还没我内存高”,女高中生查分现场,眼神注定了结局

妍妍教育日记
2026-06-27 09:55:08
30家A股公司集体提示风险,8股发布利好

30家A股公司集体提示风险,8股发布利好

21世纪经济报道
2026-06-27 07:46:23
美参院以47票赞成50票反对否决,特朗普发文感谢

美参院以47票赞成50票反对否决,特朗普发文感谢

环球时报国际
2026-06-26 09:31:27
女演员千万别整容,看42岁王佳佳和40岁江疏影同框,就知道了

女演员千万别整容,看42岁王佳佳和40岁江疏影同框,就知道了

芬霏剧时光
2026-06-26 11:31:34
中国女篮爆冷输6分!张子宇瘦很多,集训细节曝光,近期赛程出炉

中国女篮爆冷输6分!张子宇瘦很多,集训细节曝光,近期赛程出炉

老吴说体育
2026-06-26 23:55:24
世界杯第17支晋级队伍出炉,亚洲第二队晋级,韩国无缘淘汰赛

世界杯第17支晋级队伍出炉,亚洲第二队晋级,韩国无缘淘汰赛

老壥说体育
2026-06-26 12:52:19
被小卡无视,被字母嫌弃!市值133亿联盟第一,为何到这般田地?

被小卡无视,被字母嫌弃!市值133亿联盟第一,为何到这般田地?

老梁体育漫谈
2026-06-26 23:16:50
法国三连胜,夺冠却难了!一魔咒显灵,德尚缺席气懵,现三大隐患

法国三连胜,夺冠却难了!一魔咒显灵,德尚缺席气懵,现三大隐患

郭錉包工头
2026-06-27 06:24:08
FIFA向88岁老记者送纪念品遭群嘲:这礼物网购只需8.99美元

FIFA向88岁老记者送纪念品遭群嘲:这礼物网购只需8.99美元

懂球帝
2026-06-26 18:23:24
52岁苏有朋巴黎街拍太辣眼!妆容浮夸、脸蛋黑红,网友跪求别姨化

52岁苏有朋巴黎街拍太辣眼!妆容浮夸、脸蛋黑红,网友跪求别姨化

冰语历史
2026-06-26 17:41:57
Here we go!罗马诺:尼科-帕斯永久转会科莫,交易已完成

Here we go!罗马诺:尼科-帕斯永久转会科莫,交易已完成

懂球帝
2026-06-26 20:30:15
韩国命运最快1天后揭晓 出线需同时满足3个条件 盼西班牙埃及帮忙

韩国命运最快1天后揭晓 出线需同时满足3个条件 盼西班牙埃及帮忙

我爱英超
2026-06-26 19:44:00
刘裕已经掌握大权,为何还要灭司马懿满门,原因很现实

刘裕已经掌握大权,为何还要灭司马懿满门,原因很现实

南书房
2026-06-26 17:15:04
黄金大跌!金店10克20克金条不到3小时卖光,店员:如果金价再跌,自己也打算买点

黄金大跌!金店10克20克金条不到3小时卖光,店员:如果金价再跌,自己也打算买点

江西晨报
2026-06-26 19:35:25
2026-06-27 10:32:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3442文章数 11167关注度
往期回顾 全部

科技要闻

GPT-5.6发布,旗舰模型先向可信伙伴开放

头条要闻

没有牛的牧场空转8年 130万"牧场主"碎了:涉案5.6亿

头条要闻

没有牛的牧场空转8年 130万"牧场主"碎了:涉案5.6亿

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

11.99万起 捷途自由者7 PLUS/山海T1四驱版上市

态度原创

房产
健康
游戏
亲子
军事航空

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

“无糖汤圆”是否隐藏着健康陷阱?

经典肉鸽地城冒险《男爵》销量突破100万 发售11年

亲子要闻

宝贝过来给你两个水气球玩

军事要闻

黎以美达成三方框架协议

无障碍浏览 进入关怀版