网易首页 > 网易号 > 正文 申请入驻

阿里开源多模态模型,7B参数掀翻谷歌!看一眼秒出食谱,唠嗑更像人

0
分享至

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。

作者 | 陈骏达
编辑 | 心缘

智东西3月27日报道,今天,阿里巴巴通义千问发布了新一代端到端多模态旗舰模型Qwen2.5-Omni-7B。这一模型能够实时处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。

该模型现已在Hugging Face、魔搭、DashScope和GitHub上开源,采用宽松的Apache 2.0开源协议,模型论文也全面开源,详解了背后的技术细节。同时,用户可以在Demo中体验互动功能,或是在Qwen Chat中像打电话或视频通话一样与Qwen聊天。

千问团队称,Qwen2.5-Omni采用了全新的Thinker-Talker架构,支持跨模态理解和流式文本、语音响应,支持分块输入和即时输出。

在与同等规模的模型进行基准测试比较时,Qwen2.5-Omni表现出一定优势,并超过了Gemini 1.5 Pro和GPT-4o-mini等闭源模型。

Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。在权威多模态理解测试OmniBench上,Qwen2.5-Omni获得了SOTA表现,超越Gemini 1.5 Pro,提升幅度达30.8%。

Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理类似的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试获得了不错的成绩。

开源地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

论文地址:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf

Demo体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

一、全模态实时交互,看一眼食材秒出食谱

在博客文章中,千问团队放出了多个Qwen2.5-Omni在现实世界多模态场景中的测试案例。

目前,Qwen2.5-Omni共有Cherry和Ethan两种语音可供选择。Cherry音色对应的是女声,Ethan音色对应的是男声。从听感来看,这两种语音真实、自然,会在说话时加入停顿、语气词等内容。

Qwen2.5-Omni能在场景中实时处理、分析多模态内容。

例如,在下厨时,可以拿着食材询问通义应该如何处理,或是环视厨房里的调料,看究竟应该用哪些调料,可谓是厨房小白福音了。

Qwen2.5-Omni能听懂音乐,判断歌曲是什么风格,采用了何种音调,并提出对原创歌曲歌词、节奏等方面的意见。

在绘画时,Qwen2.5-Omni可以根据草图判断绘画内容,还能给出画面的构图建议。

此外,Qwen2.5-Omni还可以在户外场景判断天气、在学习场景中辅助解题、论文阅读,具备较好的通用多模态能力。

二、自研端到端架构,获得多模态理解基准测试SOTA

Qwen2.5-Omni采用Thinker-Talker双核架构。Thinker模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容。

Talker模块则类似发声器官,以流式方式接收Thinker实时输出的语义表征与文本,流畅合成离散语音单元。

Thinker基于Transformer解码器架构,融合音频/图像编码器进行特征提取;Talker则采用双轨自回归Transformer解码器设计,在训练和推理过程中直接接收来自Thinker的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

千问团队还提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的同步。

在多项基准测试中,Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及闭源模型。

值得一提的是,在多模态理解基准测试OmniBench上,Qwen2.5-Omni达到了SOTA表现,其得分为56.13%,超过第2名Gemini 1.5 Pro的42.91%。

在视频到文本任务上,Qwen2.5-Omni也超过了原本的开源SOTA模型和GPT-4o-mini。

在其他基准测试中,如语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感),Qwen2.5-Omni的成绩均超过了Qwen家族的其他单模态模型。

结语:更强大的Qwen2.5-Omni还在路上

Qwen2.5-Omni-7B一经发布便获得海内外用户的关注,有不少网友已经开启了催更模式,比如增加对小语种的支持、开发千问海外App,或是与智能眼镜等硬件结合。

据千问团队介绍,未来,他们还会发布能力更强、速度更快的模型,并扩展其多模态输出能力,涵盖图像、视频和音乐等多种形式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰“被去世”乌龙:全网慌了!谁来替寒门说真话

张雪峰“被去世”乌龙:全网慌了!谁来替寒门说真话

舟望停云
2026-03-26 00:55:54
萨拉赫官宣离队!克洛普一语道破:他难管?他才是红军真核

萨拉赫官宣离队!克洛普一语道破:他难管?他才是红军真核

体育闲话说
2026-03-25 22:04:34
人有没有糖尿病,吃饭就知道?有糖尿病的人,吃饭常有这9个表现

人有没有糖尿病,吃饭就知道?有糖尿病的人,吃饭常有这9个表现

诊途有道
2026-03-24 19:40:09
网传苏州女司机撞到老人后被家属打死?记者核实:女司机耳部缝针治疗后已出院,后续仍需观察

网传苏州女司机撞到老人后被家属打死?记者核实:女司机耳部缝针治疗后已出院,后续仍需观察

扬子晚报
2026-03-25 20:25:53
仲夏:一种关于存在的热烈庆典

仲夏:一种关于存在的热烈庆典

疾跑的小蜗牛
2026-03-25 21:28:01
日本反华走向极端!商店禁止中国人入内,日本网友反应更扎心

日本反华走向极端!商店禁止中国人入内,日本网友反应更扎心

好贤观史记
2026-03-02 16:42:05
合肥市庐阳区教体局通报:合肥安信地产大厦398室等被查!

合肥市庐阳区教体局通报:合肥安信地产大厦398室等被查!

肥东论坛
2026-03-25 22:22:28
毛远新出狱常落泪,晚年享双重优待,身世与人生起落藏内情

毛远新出狱常落泪,晚年享双重优待,身世与人生起落藏内情

唠叨说历史
2026-03-10 12:40:40
拼多多全年盈利近千亿,力压阿里和京东

拼多多全年盈利近千亿,力压阿里和京东

华美财经
2026-03-25 21:38:06
缺钱了?景甜卖上海黄浦江200平的大平层,价格在1.35亿元

缺钱了?景甜卖上海黄浦江200平的大平层,价格在1.35亿元

椰黄娱乐
2026-03-24 11:36:57
叔本华:性欲是一切欲望的焦点

叔本华:性欲是一切欲望的焦点

听哲学
2026-03-24 21:42:04
WTA迈阿密站:莱巴金娜2-1逆转大富背靠背挺进四强

WTA迈阿密站:莱巴金娜2-1逆转大富背靠背挺进四强

曾蠃爱旅行
2026-03-26 03:43:22
1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

史海孤雁
2026-03-25 18:31:11
克林顿:我一生对两件事倍感遗憾,一中国加入WTO,二我做错了

克林顿:我一生对两件事倍感遗憾,一中国加入WTO,二我做错了

近史谈
2026-03-24 19:08:48
不得不面对的事实?美司令首次承认:中国卫星太强,美军必须反击

不得不面对的事实?美司令首次承认:中国卫星太强,美军必须反击

我想把最好的一面展现给你
2026-03-25 02:18:32
震惊!绵阳三台县五家地产商承诺,不再出售低于5000起的住宅…

震惊!绵阳三台县五家地产商承诺,不再出售低于5000起的住宅…

火山詩话
2026-03-23 08:40:59
特朗普转发巴基斯坦总理倡议 支持巴方主办美伊会谈

特朗普转发巴基斯坦总理倡议 支持巴方主办美伊会谈

中国网
2026-03-25 09:18:19
自主 AI 智能体如何通过 NVIDIA OpenShell 实现原生安全

自主 AI 智能体如何通过 NVIDIA OpenShell 实现原生安全

NVIDIA英伟达中国
2026-03-25 18:34:05
十年前旧机成“香饽饽” 废旧手机回收市场突然“爆火”

十年前旧机成“香饽饽” 废旧手机回收市场突然“爆火”

新浪财经
2026-03-25 19:32:17
龙洋眼往上瞟,不是看提词器,也不是针打多了,而是一个“硬伤”

龙洋眼往上瞟,不是看提词器,也不是针打多了,而是一个“硬伤”

她时尚丫
2026-02-17 22:41:30
2026-03-26 04:24:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11433文章数 117015关注度
往期回顾 全部

科技要闻

红极一时却草草收场,Sora宣布正式关停

头条要闻

伊朗:正在搜捕逃亡美军

头条要闻

伊朗:正在搜捕逃亡美军

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰遗产分割复杂!是否立遗嘱成关键

财经要闻

管涛:中东局势如何影响人民币汇率走势?

汽车要闻

智己LS8放大招 30万内8系旗舰+全线控底盘秀实力

态度原创

数码
时尚
亲子
教育
公开课

数码要闻

英特尔发布基于第三代酷睿Ultra处理器vPro平台

女人过了40岁别胡乱穿衣,赶紧看看这些日系穿搭,舒适又耐看

亲子要闻

11岁侄女发育过快引发关注,医生提醒未必是好事

教育要闻

那些躺平的孩子,其实是看透了父母的伪装

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版