网易首页 > 网易号 > 正文 申请入驻

通义千问继续开源多模态模型,Qwen2-Audio音频理解能力刷新行业最佳水平

0
分享至

8月13日消息,阿里通义大模型继续开源,Qwen2系列开源家族新增音频语言模型Qwen2-Audio。Qwen2-Audio可以不需文本输入,直接进行语音问答,理解并分析用户输入的音频信号,包括人声、自然音、音乐等。该模型在多个权威测评中都显著超越先前的最佳模型。通义团队还同步推出了一套全新的音频理解模型测评基准,相关论文已入选本周正在举办的国际顶会ACL 2024。

声音是人类以及许多生命体用以进行交互和沟通的重要媒介,声音中蕴含丰富的信息,让大模型学会理解各种音频信号,对于通用人工智能的探索至为重要。Qwen2-Audio是通义团队在音频理解模型上的新一步探索,相比前一代模型Qwen-Audio,新版模型有了更强的声音理解能力和更好的指令跟随能力。

Qwen2-Audio可以理解分析音乐

Qwen2-Audio是一款大型音频语言模型(Large Audio-Language Model ,LALM),具备语音聊天和音频分析两种使用模式,前者是指用户可以用语音向模型发出指令,模型无需自动语音识别(ASR)模块就可理解用户输入;后者是指模型能够根据用户指令分析音频信息,包括人类声音、自然声音、音乐或者多种信号混杂的音频。Qwen2-Audio能够自动实现两种模式的切换。Qwen2-Audio支持超过8种语言和方言,如中文、英语、法语、意大利语、西班牙语、德语、日语,粤语。

通义团队同步开源了基础模型 Qwen2-Audio-7B 及其指令跟随版本Qwen2-Audio-7B-Instruct,用户可以通过Hugging Face、魔搭社区ModelScope等下载模型,也可以在魔搭社区“创空间”直接体验模型能力。

Qwen2-Audio的模型结构与训练方法

根据Qwen2-Audio技术报告,Qwen2-Audio的模型结构包含一个Qwen大语言模型和一个音频编码器。在预训练阶段,依次进行ASR、AAC等多任务预训练以实现音频与语言的对齐,接着通过SFT(监督微调) 强化模型处理下游任务的能力,再通过 DPO(直接偏好优化)方法加强模型与人类偏好的对齐。

研发团队在一系列基准测试集上对模型效果作了评估,包括 LibriSpeech、Common Voice 15、Fleurs、Aishell2、CoVoST2、Meld、Vocalsound 以及通义团队新开发的 AIR-Benchmark基准。在所有任务中,Qwen2-Audio 都显著超越了先前的最佳模型和它的前代 Qwen-Audio,成为新的SOTA模型。

Qwen2-Audio 在多个测评中都显著超越了先前的最佳模型

附:Qwen2-Audio下载或体验地址

魔搭模型页面: https://modelscope.cn/organization/qwen?tab=model

魔搭体验页面: https://www.modelscope.cn/studios/qwen/Qwen2-Audio-Instruct-Demo

GitHub: https://github.com/QwenLM/Qwen2-Audio

Hugging Face:https://huggingface.co/collections/Qwen/qwen2-audio-66b628d694096020e0c52ff6

Qwen2-Audio技术报告: https://arxiv.org/pdf/2407.10759

AIR-Benchmark论文地址: https://arxiv.org/abs/2402.07729

雷峰网

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
逼急了同归于尽!伊朗若真亮出核弹,美伊恐怕只能认怂

逼急了同归于尽!伊朗若真亮出核弹,美伊恐怕只能认怂

闻识
2026-04-29 20:48:53
李云泽简历,突然消失在国家金融监管总局官网

李云泽简历,突然消失在国家金融监管总局官网

财经众议院
2026-04-29 19:37:22
震惊!李白《静夜思》被篡改“床前看月光”,网友:这才是原始版

震惊!李白《静夜思》被篡改“床前看月光”,网友:这才是原始版

火山詩话
2026-04-29 19:47:16
汤姆斯杯:国羽3-1印度锁定小组第1!李诗沣苦战复仇,翁泓阳首败

汤姆斯杯:国羽3-1印度锁定小组第1!李诗沣苦战复仇,翁泓阳首败

钉钉陌上花开
2026-04-29 20:53:35
不打了!确认退出G5!曝火箭或交易杜兰特

不打了!确认退出G5!曝火箭或交易杜兰特

篮球实战宝典
2026-04-29 17:49:17
从战前的两千架到700万架,乌克兰的无人机产量为何能暴增?

从战前的两千架到700万架,乌克兰的无人机产量为何能暴增?

高博新视野
2026-04-29 07:30:22
蔚来练就爆款秘籍:15.98万起的乐道L80,让市值一夜暴涨百亿

蔚来练就爆款秘籍:15.98万起的乐道L80,让市值一夜暴涨百亿

超电实验室
2026-04-29 18:39:51
火箭车0.9秒破百,追觅「星空计划」真的还是新势力吗?

火箭车0.9秒破百,追觅「星空计划」真的还是新势力吗?

车云网
2026-04-29 17:14:03
图解丨中国台湾人均GDP首次同时超过日本和韩国

图解丨中国台湾人均GDP首次同时超过日本和韩国

格隆汇APP
2026-04-27 17:45:34
No!东契奇次轮报销!湖人彻底天塌了

No!东契奇次轮报销!湖人彻底天塌了

篮球实战宝典
2026-04-29 18:51:29
“老俞绝不亏待自己” 东方甄选主播集体离职后,俞敏洪获价值5000万港元奖励,粉丝心寒掀退费潮

“老俞绝不亏待自己” 东方甄选主播集体离职后,俞敏洪获价值5000万港元奖励,粉丝心寒掀退费潮

新浪财经
2026-04-29 17:07:23
张素芬一季度最新重仓3家低价股,全在横盘,连摩根高盛也跟进了

张素芬一季度最新重仓3家低价股,全在横盘,连摩根高盛也跟进了

长风价值掘金
2026-04-29 14:42:54
浙江力克宁波总分1-0:程帅澎14分伤退 约翰逊13+7+4帽超杨瀚森

浙江力克宁波总分1-0:程帅澎14分伤退 约翰逊13+7+4帽超杨瀚森

醉卧浮生
2026-04-29 21:35:01
小情侣在餐厅内亲密互动,身体抖动举止不雅,目击者:裤子脱了

小情侣在餐厅内亲密互动,身体抖动举止不雅,目击者:裤子脱了

李晚书
2026-04-29 16:56:06
刚刚,深圳率先发布楼市新政

刚刚,深圳率先发布楼市新政

地产大爆炸
2026-04-29 20:35:45
ChatGPT 拎包入住云计算一哥,你的下一任好同事可能是AI

ChatGPT 拎包入住云计算一哥,你的下一任好同事可能是AI

爱范儿
2026-04-29 17:04:08
今年,许多人集体消失了!

今年,许多人集体消失了!

放牛娃的遐想
2026-04-29 08:26:55
ESPN:皇马内部认为姆巴佩和维尼修斯无法共存,但老佛爷不这么想

ESPN:皇马内部认为姆巴佩和维尼修斯无法共存,但老佛爷不这么想

懂球帝
2026-04-29 21:30:10
韩俊被免去农业农村部党组书记,乌鲁木齐市委书记张柱接任

韩俊被免去农业农村部党组书记,乌鲁木齐市委书记张柱接任

观察者网
2026-04-29 13:55:20
王楚钦:谁敢说稳赢我们?反正我不信 放马过来 看看能打成什么样

王楚钦:谁敢说稳赢我们?反正我不信 放马过来 看看能打成什么样

念洲
2026-04-29 14:48:01
2026-04-29 22:51:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69216文章数 656120关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

院长儿子被指"吃空饷"涉百万奖金 医院调查称其拿2万

头条要闻

院长儿子被指"吃空饷"涉百万奖金 医院调查称其拿2万

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

教育
手机
房产
公开课
军事航空

教育要闻

还得是青羊区啊!两年官宣6所新高中,个个来头不小

手机要闻

子系迭代旗舰集体涨价:标准版起步就是4000元 机圈变天了

房产要闻

80亿投资!浙商总部基地+海口北站,金沙湾这是要起飞啊!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国参议院否决限制特朗普对古巴动武的决议

无障碍浏览 进入关怀版