网易首页 > 网易号 > 正文 申请入驻

受DeepSeek-R1启发,小米大模型团队登顶音频推理MMAU榜

0
分享至

3月17日,小米技术官方微博发文称,小米大模型团队在音频推理领域取得突破性进展,受 Deepseek-R1 启发,团队率先将强化学习算法应用于多模态音频理解任务,仅用一周时间便以64.5%的 SOTA 准确率登顶国际权威的 MMAU 音频理解评测榜首。现同步开源。

据介绍,MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集是音频推理能力的量化标尺,它通过一万条涵盖语音、环境声和音乐的音频样本,结合人类专家标注的问答对,测试模型在27种技能,如跨场景推理、专业知识等应用上的表现,期望模型达到接近人类专家的逻辑分析水平。

作为基准上限,人类专家在 MMAU 上的准确率为 82.23%。目前 MMAU 官网榜单上表现最好的模型是来自 OpenAI 的 GPT-4o,准确率为 57.3%。紧随其后的是来自 Google DeepMind 的 Gemini 2.0 Flash,准确率为 55.6%。

来自阿里的 Qwen2-Audio-7B 模型在此评测集上的准确率为 49.2%。由于它的开源特性,小米大模型团队尝试使用一个较小的数据集,清华大学发布的 AVQA 数据集,对此模型做微调。AVQA 数据集仅包含 3.8 万条训练样本,通过全量有监督微调(SFT),模型在 MMAU 上的准确率提升到了 51.8%。

DeepSeek-R1 的发布为小米大模型团队在该项任务上的研究带来了启发。DeepSeek-R1 的 Group Relative Policy Optimization (GRPO) 方法,让模型仅通过"试错-奖励"机制就能使自主进化,涌现出类似人类的反思、多步验证等推理能力。

小米大模型团队尝试将 DeepSeek-R1 的 GRPO 算法迁移到 Qwen2-Audio-7B 模型上。最终,在仅使用 AVQA 的 3.8 万条训练样本的情况下,强化学习微调后的模型在 MMAU 评测集上实现了 64.5% 的准确率,这一成绩比目前榜单上第一名的商业闭源模型 GPT-4o 有近10个百分点的优势。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《寻秦记》破2亿:古天乐这25年的倔强,撕开了内娱多少遮羞布

《寻秦记》破2亿:古天乐这25年的倔强,撕开了内娱多少遮羞布

喜欢历史的阿繁
2026-01-03 01:16:33
微信通话弹窗,终于变了!

微信通话弹窗,终于变了!

全是技能
2026-01-07 15:19:33
你身边有细思极恐的人吗?网友:老天爷,大晚上给我看害怕了

你身边有细思极恐的人吗?网友:老天爷,大晚上给我看害怕了

解读热点事件
2026-01-05 00:05:06
云南省委原常委李文荣,受贿数额特别巨大!任职地连续四任市长落马

云南省委原常委李文荣,受贿数额特别巨大!任职地连续四任市长落马

上观新闻
2026-01-07 11:20:07
老用户成“冤大头”?新号29元100G 老号89元不够用 3招破局不换号

老用户成“冤大头”?新号29元100G 老号89元不够用 3招破局不换号

Thurman在昆明
2026-01-03 15:59:21
讽刺的对比下,老百姓将会越来越清醒!

讽刺的对比下,老百姓将会越来越清醒!

胖胖说他不胖
2026-01-06 10:00:08
中国本次禁止所有两用物项对日出口,厉害在哪里?

中国本次禁止所有两用物项对日出口,厉害在哪里?

王二哥老搞笑
2026-01-07 03:48:17
问政播报 | 无锡中央车站网约车接客点移至小区对面,居民出行困难

问政播报 | 无锡中央车站网约车接客点移至小区对面,居民出行困难

扬子晚报
2026-01-07 12:14:09
厉害了!北京这 3 个区即将代表中国走向世界!快看有没有你老家!

厉害了!北京这 3 个区即将代表中国走向世界!快看有没有你老家!

小鹿姐姐情感说
2026-01-07 14:05:48
特朗普话音刚落,丹麦首相通告全球:美国一旦夺岛,北约联盟终结

特朗普话音刚落,丹麦首相通告全球:美国一旦夺岛,北约联盟终结

蛙斯基娱乐中
2026-01-07 20:01:16
河北农村取暖上热搜,当地政府冷处理,补贴资金分配难辞其咎!

河北农村取暖上热搜,当地政府冷处理,补贴资金分配难辞其咎!

ICT解读者
2026-01-07 09:03:43
多只小天鹅被冻在公园冰面上死亡?园方:已查看,将进一步反馈

多只小天鹅被冻在公园冰面上死亡?园方:已查看,将进一步反馈

半岛晨报
2026-01-06 19:46:12
天呐!终于知道为什么有的人完全不会内耗了 ​​​

天呐!终于知道为什么有的人完全不会内耗了 ​​​

夜深爱杂谈
2026-01-06 20:24:39
闫学晶事件再升级!官媒下场发文锐评,言辞犀利,句句直戳她心窝

闫学晶事件再升级!官媒下场发文锐评,言辞犀利,句句直戳她心窝

揽星河的笔记
2026-01-07 16:04:46
“遥遥领先”最多挺3个月?马斯克确认,满血FSD入华障碍已扫除

“遥遥领先”最多挺3个月?马斯克确认,满血FSD入华障碍已扫除

小李车评李建红
2026-01-06 07:30:03
拜仁5-0完胜,26岁日本球星凌空斩,17岁新星2球1助,18岁新星1球1助

拜仁5-0完胜,26岁日本球星凌空斩,17岁新星2球1助,18岁新星1球1助

凌空倒钩
2026-01-06 23:53:46
吃相难看!海南房子到手后,何树成继续喊话赵本山:就让你膈应我

吃相难看!海南房子到手后,何树成继续喊话赵本山:就让你膈应我

梁瞠侃世界
2026-01-05 22:09:44
美国不敢对中国开战?英国学者一语道破:中国不止核武器一个底牌

美国不敢对中国开战?英国学者一语道破:中国不止核武器一个底牌

谛听骨语本尊
2025-11-30 16:05:50
万万没想到!美国对华最大的失算,是让中国90后、00后彻底清醒了

万万没想到!美国对华最大的失算,是让中国90后、00后彻底清醒了

远方风林
2026-01-07 11:40:08
1901年庚子谈判,西方列必杀12人名单,慈禧指一名字:此人不可杀

1901年庚子谈判,西方列必杀12人名单,慈禧指一名字:此人不可杀

干史人
2025-12-16 19:20:03
2026-01-07 22:43:00
鞭牛士 incentive-icons
鞭牛士
准确、快速、有深度的科技媒体
102672文章数 61661关注度
往期回顾 全部

科技要闻

精华!黄仁勋CES记者会:揭秘新款大杀器

头条要闻

美军扣押俄潜艇护航的"水手"油轮 美方人员已上船

头条要闻

美军扣押俄潜艇护航的"水手"油轮 美方人员已上船

体育要闻

卖水果、搬砖的小伙,与哈兰德争英超金靴

娱乐要闻

《马背摇篮》首播,革命的乐观主义故事

财经要闻

农大教授科普:无需过度担忧蔬菜农残

汽车要闻

燃油驾趣+智能电感双Buff 试驾全新奥迪Q5L

态度原创

游戏
手机
时尚
亲子
军事航空

这女婿也太会了!岳父是游戏搭子 手搓雕像送礼

手机要闻

华为Mate 60系列等机型推送鸿蒙OS 6 125版本升级 5A信号标识来了

衣服完全没有必要越买越多!准备好这3款单品,百搭又舒适

亲子要闻

用白醋试真假奶粉,靠谱吗?

军事要闻

特朗普政府正在讨论获取格陵兰岛的方案 包括军事选项

无障碍浏览 进入关怀版