网易首页 > 网易号 > 正文 申请入驻

阿里开源多模态模型,7B参数掀翻谷歌!看一眼秒出食谱,唠嗑更像人

0
分享至

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。

作者 | 陈骏达
编辑 | 心缘

智东西3月27日报道,今天,阿里巴巴通义千问发布了新一代端到端多模态旗舰模型Qwen2.5-Omni-7B。这一模型能够实时处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。

该模型现已在Hugging Face、魔搭、DashScope和GitHub上开源,采用宽松的Apache 2.0开源协议,模型论文也全面开源,详解了背后的技术细节。同时,用户可以在Demo中体验互动功能,或是在Qwen Chat中像打电话或视频通话一样与Qwen聊天。

千问团队称,Qwen2.5-Omni采用了全新的Thinker-Talker架构,支持跨模态理解和流式文本、语音响应,支持分块输入和即时输出。

在与同等规模的模型进行基准测试比较时,Qwen2.5-Omni表现出一定优势,并超过了Gemini 1.5 Pro和GPT-4o-mini等闭源模型。

Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。在权威多模态理解测试OmniBench上,Qwen2.5-Omni获得了SOTA表现,超越Gemini 1.5 Pro,提升幅度达30.8%。

Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理类似的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试获得了不错的成绩。

开源地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

论文地址:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf

Demo体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

一、全模态实时交互,看一眼食材秒出食谱

在博客文章中,千问团队放出了多个Qwen2.5-Omni在现实世界多模态场景中的测试案例。

目前,Qwen2.5-Omni共有Cherry和Ethan两种语音可供选择。Cherry音色对应的是女声,Ethan音色对应的是男声。从听感来看,这两种语音真实、自然,会在说话时加入停顿、语气词等内容。

Qwen2.5-Omni能在场景中实时处理、分析多模态内容。

例如,在下厨时,可以拿着食材询问通义应该如何处理,或是环视厨房里的调料,看究竟应该用哪些调料,可谓是厨房小白福音了。

Qwen2.5-Omni能听懂音乐,判断歌曲是什么风格,采用了何种音调,并提出对原创歌曲歌词、节奏等方面的意见。

在绘画时,Qwen2.5-Omni可以根据草图判断绘画内容,还能给出画面的构图建议。

此外,Qwen2.5-Omni还可以在户外场景判断天气、在学习场景中辅助解题、论文阅读,具备较好的通用多模态能力。

二、自研端到端架构,获得多模态理解基准测试SOTA

Qwen2.5-Omni采用Thinker-Talker双核架构。Thinker模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容。

Talker模块则类似发声器官,以流式方式接收Thinker实时输出的语义表征与文本,流畅合成离散语音单元。

Thinker基于Transformer解码器架构,融合音频/图像编码器进行特征提取;Talker则采用双轨自回归Transformer解码器设计,在训练和推理过程中直接接收来自Thinker的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

千问团队还提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的同步。

在多项基准测试中,Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及闭源模型。

值得一提的是,在多模态理解基准测试OmniBench上,Qwen2.5-Omni达到了SOTA表现,其得分为56.13%,超过第2名Gemini 1.5 Pro的42.91%。

在视频到文本任务上,Qwen2.5-Omni也超过了原本的开源SOTA模型和GPT-4o-mini。

在其他基准测试中,如语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感),Qwen2.5-Omni的成绩均超过了Qwen家族的其他单模态模型。

结语:更强大的Qwen2.5-Omni还在路上

Qwen2.5-Omni-7B一经发布便获得海内外用户的关注,有不少网友已经开启了催更模式,比如增加对小语种的支持、开发千问海外App,或是与智能眼镜等硬件结合。

据千问团队介绍,未来,他们还会发布能力更强、速度更快的模型,并扩展其多模态输出能力,涵盖图像、视频和音乐等多种形式。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
纽约市的犹太人 ,有 33%的人在市长竞选中把票投给马姆达尼

纽约市的犹太人 ,有 33%的人在市长竞选中把票投给马姆达尼

老王说正义
2025-11-07 00:03:31
独行侠自由落体湖人被77带飞 尼科的耻辱愈演愈烈

独行侠自由落体湖人被77带飞 尼科的耻辱愈演愈烈

体坛周报
2025-11-06 15:08:13
张角败亡,数十吨黄金埋在江苏铁山寺,几百年后一个牧童发现宝藏

张角败亡,数十吨黄金埋在江苏铁山寺,几百年后一个牧童发现宝藏

白云故事
2025-11-05 12:15:03
雷军回应造车争议翻车,网友怒喷:标准雷不群说法

雷军回应造车争议翻车,网友怒喷:标准雷不群说法

公子麦少
2025-11-06 14:19:48
顶级名模海边戏水,有没有让你冲动

顶级名模海边戏水,有没有让你冲动

妮妮玩不够
2025-11-07 09:27:07
张凌赫 回应曾经理想是进入国家电网 江苏电力回应张凌赫 :愿共探前路 期谱佳话

张凌赫 回应曾经理想是进入国家电网 江苏电力回应张凌赫 :愿共探前路 期谱佳话

每日经济新闻
2025-11-06 12:21:44
肖捷在广西调研

肖捷在广西调研

政知新媒体
2025-11-07 09:29:07
浙经贸的三分钟战士大二弟弟火了

浙经贸的三分钟战士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
西海岸官方确认!为国养士,郑智是热门人选,3人随邵佳一离队

西海岸官方确认!为国养士,郑智是热门人选,3人随邵佳一离队

小金体坛大视野
2025-11-07 11:32:31
27国联手对华展开“混合战”,荷兰率先对华核心零件断供,中方反击出招!

27国联手对华展开“混合战”,荷兰率先对华核心零件断供,中方反击出招!

娱乐圈的笔娱君
2025-11-07 10:42:33
女博士出轨副院长导师,男友反击被怼:“我真的无法无法拒绝他”

女博士出轨副院长导师,男友反击被怼:“我真的无法无法拒绝他”

苏大强专栏
2025-02-28 16:39:18
印媒指出福建舰严重设计缺陷! 这回没瞎说: 福建舰确实存在这问题

印媒指出福建舰严重设计缺陷! 这回没瞎说: 福建舰确实存在这问题

福建平子
2025-11-03 10:21:52
张勋的最后六年:远离政坛,生活阔绰,死后溥仪还赐谥号“忠武”

张勋的最后六年:远离政坛,生活阔绰,死后溥仪还赐谥号“忠武”

普览
2025-11-01 21:23:29
大米公司为什么被全网群嘲?这两点就够了!

大米公司为什么被全网群嘲?这两点就够了!

宏哥谈商道
2025-11-06 19:00:03
人社部召开发布会,2026年养老金调整有望!还会向低收入倾斜吗?

人社部召开发布会,2026年养老金调整有望!还会向低收入倾斜吗?

好贤观史记
2025-11-07 08:53:31
6胜2负东部第二!坐拥4个前五顺位,成翻版雷霆,五少平均才22岁

6胜2负东部第二!坐拥4个前五顺位,成翻版雷霆,五少平均才22岁

你的篮球频道
2025-11-07 11:03:31
最新斯诺克排名:赵心童跃升6位,吴宜泽飙升9位反超希金斯

最新斯诺克排名:赵心童跃升6位,吴宜泽飙升9位反超希金斯

求球不落谛
2025-11-06 14:16:54
固态电池爆发:国家队悄悄重仓的10家真干活企业

固态电池爆发:国家队悄悄重仓的10家真干活企业

时尚的弄潮
2025-11-07 01:28:59
国运来了挡不住!30亿吨铁矿重见天日,美媒:中国将改写全球格局

国运来了挡不住!30亿吨铁矿重见天日,美媒:中国将改写全球格局

来科点谱
2025-11-06 13:44:10
女孩每天去超市货架偷面包,老板装没看见,10年后老板收到快递哭了

女孩每天去超市货架偷面包,老板装没看见,10年后老板收到快递哭了

悬案解密档案
2025-11-03 10:58:58
2025-11-07 12:20:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10708文章数 116894关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

美国试射洲际弹道导弹后 俄方几乎整个领导层齐聚克宫

头条要闻

美国试射洲际弹道导弹后 俄方几乎整个领导层齐聚克宫

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

白百何回应东京电影节争议

财经要闻

老登们的社交货币全崩了

汽车要闻

小鹏X9增程版综合续航1606公里 有底气挑战赛那?

态度原创

游戏
时尚
艺术
家居
公开课

推测《GTA6》是最后一次跳票 大表哥2也跳了两次

美拉德失宠了?今年冬天最流行的3个颜色,谁穿谁好看!

艺术要闻

砸30亿!酷狗给音乐盖了座“声波大楼”,正在穿玻璃外衣!

家居要闻

现代自由 功能美学居所

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版