网易首页 > 网易号 > 正文 申请入驻

摩尔线程开源音频理解大模型MooER:38小时训练5000小时数据

0
分享至

快科技8月23日消息,摩尔线程官方宣布,音频理解大模型"MooER"(摩耳)已经正式开源,并公布在GitHub上:https://github.com/MooreThreads/MooER

目前开源的内容包括推理代码,以及5000小时数据训练的模型,后续还将开源训练代码,以及基于8万小时数据训练的模型。

摩尔线程希望,能够在语音大模型的方法演进和技术落地方面为社区做出贡献。

MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型,依托摩尔线程的夸娥(KUAE)智算平台,并得益于自研的创新算法和高效计算资源的结合,仅用38个小时,就完成了5000小时音频数据和伪标签的训练。

MooER不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力,并在多个语音识别领域的测试集中,展现出了领先或至少持平的优异表现。

MooER的模型结构包括Encoder、Adapter、Decoder(LLM)三个部分。

其中,Encoder对输入的原始音频进行建模,提取特征并获取表征向量。

Encoder的输出会送到Adapter进一步下采样,使得每120ms音频输出一组音频Embedding。

音频Embedding和文本的Prompt Embedding拼接后,再送进LLM进行对应的下游任务,如语音识别(ASR)、语音翻译(AST)等。

在模型训练阶段,融合了语音模态和文本模态的数据会按以下形式输入到LLM:

摩尔线程使用开源的Paraformer语音编码器、Qwen2-7B-instruct大语言模型,初始化Encoder和LLM模块,并随机初始化Adapter模块。

训练过程中,Encoder始终固定参数,Adapter和LLM会参与训练和梯度更新。

利用自研的夸娥智算平台,摩尔线程使用DeepSpeed框架和Zero2策略,基于BF16精度进行训练和推理。

经实验发现,训练过程中更新LLM参数能够提升最终音频理解任务的效果。

为了提升训练效率,摩尔线程采用了LoRA技术,仅更新2%的LLM参数。具体的模型参数规模如下:

该模型的训练数据MT5K(MT 5000h)由部分开源数据和内部数据构成,内部数据的语音识别标签均是由第三方云服务得到的伪标签。

语音识别的伪标签经过一个文本翻译模型后,得到语音翻译的伪标签,且没有对这些伪标签数据做任何的人工筛选。

具体数据来源和对应的规模如下:

摩尔线程将MooER与多个开源的音频理解大模型进行了对比,包括Paraformer、SenseVoice、Qwen-audio、Whisper-large-v3、SeamlessM4T-v2等。这些模型的训练规模从几万小时到上百万小时不等。

对比结果显示,开源模型MooER-5K在六个中文测试集上的CER(字错误率)达到4.21%,在六个英文测试集的WER(词错误率)为17.98%,与其它开源模型相比,效果更优或几乎持平。

特别是在Covost2 zh2en中译英测试集上,MooER的BLEU分数达到了25.2,显著优于其他开源模型,取得了可与工业水平相媲美的效果。

基于内部8万小时数据训练的MooER-80k模型,在上述中文测试集上的CER达到了3.50%,在英文测试集上的WER到达了12.66%。

与此同时,摩尔线程还得到一些有趣的结论,可以为数据资源和计算资源有限的开发者提供一些建议:

▼Encoder的选择。

分别对比无监督(Self-Supervised Learning)训练的W2v-bert 2.0、半监督(Semi-Supervised Learning)训练的Whisper v3、有监督(Supervised Learning)训练的Paraformer。

采用无监督训练得到的Encoder必须参与到训练过程中,否则模型很难收敛。

综合考虑模型效果、参数量以及训练和推理的效率,选择Paraformer作为Encoder。

▼音频建模粒度很关键。

尝试使用240ms、180ms和120ms的粒度进行建模,并发现这一参数对音频与文本的融合效果具有重要影响,同时会影响模型的最终效果和训练的收敛速度。

经过评估,最终选择每120ms输出一个音频Embedding。

▼快速适应到目标垂类。

仅使用了140h~150h的英文数据进行训练,可以在6个不同来源的英文的测试集上取得一定效果。

同时尝试将任务迁移到语音翻译(AST)领域,取得了很好的效果。

相信这个方法同样也适用于小语种、方言或其它低资源的音频理解任务。

▼LLM对音频理解任务的影响。

在模型训练过程中采用LoRA技术对LLM参数进行更新,可以使训练更快收敛,并且最终取得更好的效果。

同时,音频理解任务上的效果也会随着基础LLM效果提升而提升。

更多技术细节,请参考技术文档:

https://arxiv.org/pdf/2408.05101

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山东一民企飞无人机催县农业局“快还钱”,当地回应:正协商解决

山东一民企飞无人机催县农业局“快还钱”,当地回应:正协商解决

上游新闻
2026-05-26 19:50:19
白衣飘飘,绿树依依!

白衣飘飘,绿树依依!

疾跑的小蜗牛
2026-05-27 22:49:26
一顿饭就要花掉40万,四年敛财40亿,杭州土皇帝虞关荣有多嚣张

一顿饭就要花掉40万,四年敛财40亿,杭州土皇帝虞关荣有多嚣张

莫地方
2026-05-21 01:45:03
穆里尼奥太离谱!门德斯送上 1.6 亿双星!两人点名要为他效力

穆里尼奥太离谱!门德斯送上 1.6 亿双星!两人点名要为他效力

奶盖熊本熊
2026-05-28 04:29:05
承诺“不限次数”,就该接住顾客的“天天来”

承诺“不限次数”,就该接住顾客的“天天来”

南风不及你温柔
2026-05-16 01:02:57
脸都打肿了!曼城 8000 万目标直接拒绝!亲口表态首选曼联

脸都打肿了!曼城 8000 万目标直接拒绝!亲口表态首选曼联

奶盖熊本熊
2026-05-28 05:24:01
新加坡为何害怕《给阿嬷的情书》?跟多年来他们刻意去中国化有关

新加坡为何害怕《给阿嬷的情书》?跟多年来他们刻意去中国化有关

娱乐圈见解说
2026-05-27 00:48:02
卫健委已将左氧氟沙星列为重点监控药物!提醒:服用千万注意

卫健委已将左氧氟沙星列为重点监控药物!提醒:服用千万注意

健康科普365
2026-05-25 22:15:03
47.98 万元起!新一代问界 M9 上市,余承东:地球上最强的 SUV

47.98 万元起!新一代问界 M9 上市,余承东:地球上最强的 SUV

爱范儿
2026-05-28 00:25:31
多名院士调查发现:吃一口久冻馒头,等于中一次毒?真假

多名院士调查发现:吃一口久冻馒头,等于中一次毒?真假

医学科普汇
2026-05-27 20:00:13
知名户外主播发生意外,Z疮发作大便失禁,恶臭难挡被取笑

知名户外主播发生意外,Z疮发作大便失禁,恶臭难挡被取笑

新游戏大妹子
2026-05-27 12:54:49
你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

你在无意中发现别人什么秘密?网友爆料,电视剧都不敢这样演

夜深爱杂谈
2026-03-16 22:21:03
1990年,作家三毛到新疆和76岁的王洛宾同居,王洛宾说:“可以同居,不可以发生关系!

1990年,作家三毛到新疆和76岁的王洛宾同居,王洛宾说:“可以同居,不可以发生关系!

犀利辣椒
2026-05-20 06:23:07
体育世家,日本U21国脚萨尼-布朗的哥哥是日本百米运动员

体育世家,日本U21国脚萨尼-布朗的哥哥是日本百米运动员

懂球帝
2026-05-27 15:55:09
老赖黄淑芬把人撞成植物人,宁愿坐牢不肯赔偿,如今结果大快人心

老赖黄淑芬把人撞成植物人,宁愿坐牢不肯赔偿,如今结果大快人心

米果说识
2026-04-03 14:56:49
无名指长于食指为龙长虎短,这类手相之人晚年有三种不同运势

无名指长于食指为龙长虎短,这类手相之人晚年有三种不同运势

唠叨说历史
2026-05-27 14:59:27
老婆孩子在哈尔滨,已婚男子孤身在北京,两年打赏女主播1700多万元,七夕等节庆日还飞去上海和女方约会!妻子起诉三被告,法院判了

老婆孩子在哈尔滨,已婚男子孤身在北京,两年打赏女主播1700多万元,七夕等节庆日还飞去上海和女方约会!妻子起诉三被告,法院判了

扬子晚报
2026-05-27 20:12:23
四亿人同吃一锅饭:大跃进公共食堂是如何把好事办成噩梦的?

四亿人同吃一锅饭:大跃进公共食堂是如何把好事办成噩梦的?

浪子说
2026-05-28 00:50:03
史诗级突破!随着水晶宫夺欧协联冠军,英超近半数球队获欧战席位

史诗级突破!随着水晶宫夺欧协联冠军,英超近半数球队获欧战席位

侧身凌空斩
2026-05-28 06:52:48
14岁小七穿贝嫂的挂脖裙逛街,戴牙套笑容灿烂,进军美妆业受阻

14岁小七穿贝嫂的挂脖裙逛街,戴牙套笑容灿烂,进军美妆业受阻

译言
2026-05-27 09:28:14
2026-05-28 09:12:49
快科技 incentive-icons
快科技
一起关注每日科技热点
114610文章数 260561关注度
往期回顾 全部

科技要闻

拼多多股价跌10%:管理层称业绩难免波动

头条要闻

台媒:特朗普就台湾问题表态后 没人敢提“台独”了

头条要闻

台媒:特朗普就台湾问题表态后 没人敢提“台独”了

体育要闻

这群老阿姨,是最硬核的马刺球迷

娱乐要闻

王鹤棣风波连累父亲炸串店遭差评?

财经要闻

一线调查丨燃油车“甩卖”也难卖

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

房产
手机
艺术
本地
公开课

房产要闻

合生创展前总裁被查!直指房企违规放贷、利益输送等问题

手机要闻

苹果开发“防抢夺锁机”功能 被抢走的iPhone将立即自动上锁

艺术要闻

于右任草书对联:标准草书天花板,爱好者如何不写成“天书”?

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版