网易首页 > 网易号 > 正文 申请入驻

专注E2E语音识别,腾讯AILab开源语音处理工具包PIKA

0
分享至

机器之心报道

作者:魔王、杜伟

PyTorch + Kaldi,腾讯 AI Lab 开源轻量级语音处理工具包 PIKA,专注于端到端语音识别任务。

Kaldi 是一个开源的语音识别系统,由 Daniel Povey 主导开发,在很多语音识别测试和应用中广泛使用。但它依赖大量脚本语言,且核心算法是用 C++ 编写的,对声学模型的更新和代码调试带来一定难度。

语音识别系统架构

「Kaldi 之父」Daniel Povey 表示正在打造下一代 Kaldi。去年夏天在 WAIC 开发者日上,Daniel 分享了他对下一代 Kaldi 的期望,希望能够基于 PyTorch 甚至 TensorFlow 构建语义识别模型。

学术界和业界也都在努力改进语音识别流程,加快技术迭代。此前,Yoshua Bengio 团队成员 Mirco Ravanelli 等人开发了一个新型开源框架——PyTorch-Kaldi,试图继承 Kaldi 的效率和 PyTorch 的灵活性,弥补 PyTorch 和 Kaldi 之间的鸿沟:在 PyTorch 中实现声学模型,在 Kaldi 中执行特征提取、标签 / 对齐计算和解码。

近日,腾讯 AI Lab 开源了一个基于 PyTorch 和 (Py)Kaldi 的轻量级语音处理工具包 PIKA。PIKA 首个版本专注于端到端语音识别,开发团队以 PyTorch 作为深度学习引擎,使用 Kaldi 进行数据格式化和特征提取。

项目地址:https://github.com/tencent-ailab/pika

具体而言,PIKA 具备以下特征:

即时数据增强和特征加载器;

TDNN Transformer 编码器,以及基于卷积和 Transformer 的解码器结构;

RNNT 训练和批解码;

利用 Ngram FST 的 RNNT 解码(即时重评分、aka 和 shallow fusion);

RNNT 最小贝叶斯风险(MBR)训练;

用于 RNNT 的 LAS 前向与后向重评分器;

基于高效 BMUF(块模型更新过滤)的分布式训练。

安装和依赖

PIKA 开发团队推荐使用 Anaconda,因为它包含大多数的依赖项。其他主要依赖如下:

PyTorch

用户可前往 PyTorch 官网自行安装,代码和脚本应能够在 PyTtorch 0.4.0 及以上版本运行。但为了确保与 RNNT 损失模块兼容,PIKA 开发团队推荐使用 PyTorch 1.0.0 以上版本。

Pykaldi 和 Kaldi

开发团队使用 Kaldi 和 PyKaldi(Kaldi 的 python 包装器)进行数据处理、特征提取和 FST 操作。用户可前往 Pykaldi 网站自行安装,为提升效率请确保使用 ninja 构建 Pykaldi。完成所有 pykaldi 安装流程后,Kaldi 和 Pykaldi 依赖项即准备完成。

CUDA-Warp RNN-Transducer

对于 RNNT 损失模块,开发者采用了 warp-rnnt(https://github.com/1ytic/warp-rnnt)项目中的 pytorch 绑定。

使用方法

在使用 PIKA 之前,我们需要先检查 egs 目录中的所有训练和解码脚本。

数据准备和 RNNT 训练

egs/train_transducer_bmuf_otfaug.sh 包括数据准备和 RNNT 训练。用户需要准备训练数据并指定训练数据目录:

继续 MBR 训练

有了 RNNT 训练模型后,用户可以使用 egs/train_transducer_mbr_bmuf_otfaug.sh 继续 MBR 训练(假设使用的训练数据相同,则可以省略数据准备步骤)。用户需要确保指定初始模型:

训练 LAS 前向与后向重评分器

用户可以利用 egs/train_las_rescorer_bmuf_otfaug.sh 为 RNNT 模型训练 LAS 前向与后向重评分器。LAS 重评分器将与 RNNT 模型共享编码器部分,并使用两层 LSTM 作为额外的编码器。用户需要确保指定编码器共享:

该工具还支持双向 LAS 重评分,即前向与后向重评分。后向重评分(自右至左)通过训练 LAS 模型时反转序列标签来实现。通过以下代码,用户可以轻松执行 LAS 后向重评分训练:

PIKA 工具包中的所有训练和解码超参数都基于大规模训练和内部评估数据。用户可能需要调参以获得最优性能。此外,WER (CER) 评分脚本基于中文普通话任务,处理不同语言的用户可以重写评分脚本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
碾压一众明星!民间小妈祖踏阶走红,一低头一抬眼全网直接看破防

碾压一众明星!民间小妈祖踏阶走红,一低头一抬眼全网直接看破防

一盅情怀
2026-05-13 10:08:42
马化腾回应腾讯AI是否落后:一年前以为上了AI的船,结果发现漏水了;腾讯坚持走正确的道路,不能随便跨过去抢别人的地盘

马化腾回应腾讯AI是否落后:一年前以为上了AI的船,结果发现漏水了;腾讯坚持走正确的道路,不能随便跨过去抢别人的地盘

大象新闻
2026-05-13 19:50:04
广州交警:电动自行车闯红灯、逆行,后果严重……

广州交警:电动自行车闯红灯、逆行,后果严重……

广州交通电台
2026-05-13 08:42:05
范冰冰大方公开:18亿是真,没打算复合。

范冰冰大方公开:18亿是真,没打算复合。

乔话
2026-05-11 23:31:39
外交部评日本几十年来最大规模反战抗议:重走军国主义回头路是不归路

外交部评日本几十年来最大规模反战抗议:重走军国主义回头路是不归路

澎湃新闻
2026-05-13 15:30:26
理想4月销量:i6“杀疯了”狂揽2.1万辆,L9跌破500台?MEGA遇冷

理想4月销量:i6“杀疯了”狂揽2.1万辆,L9跌破500台?MEGA遇冷

侃故事的阿庆
2026-05-13 11:25:20
外交部:中方欢迎特朗普总统对中国进行国事访问

外交部:中方欢迎特朗普总统对中国进行国事访问

界面新闻
2026-05-13 15:24:33
性生活别傻练“持久战”了!让她脸红的,从来不是你那几十分钟

性生活别傻练“持久战”了!让她脸红的,从来不是你那几十分钟

樱桃小丸子1987
2026-05-12 17:34:19
81岁鼎爷终现曙光!邓兆尊怒劝长子找工作,吴家乐避谈杨思琦平反

81岁鼎爷终现曙光!邓兆尊怒劝长子找工作,吴家乐避谈杨思琦平反

一盅情怀
2026-05-13 16:41:31
6000亿杭州联合银行,空降48岁女行长

6000亿杭州联合银行,空降48岁女行长

财经众议院
2026-05-13 17:16:18
食堂阿姨偷偷给贫困生多打菜,被同学举报后开除,次日接到局里电话

食堂阿姨偷偷给贫困生多打菜,被同学举报后开除,次日接到局里电话

罪案洞察者
2025-11-03 13:59:03
3分钟倾家荡产?年入千亿“精神鸦片”,正精准掏空中国人的钱包

3分钟倾家荡产?年入千亿“精神鸦片”,正精准掏空中国人的钱包

趣文说娱
2026-05-12 19:53:22
中超第12轮首尾大战:成都蓉城炮台瘸腿,不败金身被“虎”破?

中超第12轮首尾大战:成都蓉城炮台瘸腿,不败金身被“虎”破?

画夕
2026-05-14 00:29:41
湖人重磅交易传闻!拆散东契奇、里夫斯组合,押上里夫斯全力追逐字母哥

湖人重磅交易传闻!拆散东契奇、里夫斯组合,押上里夫斯全力追逐字母哥

海阔山遥YAO
2026-05-13 11:03:46
1.6亿美金!湖人为何必须砸锅卖铁留住里夫斯?

1.6亿美金!湖人为何必须砸锅卖铁留住里夫斯?

仰卧撑FTUer
2026-05-13 17:47:01
中印边境之战,美苏为何会支持印度,32天战争让印度做了58年噩梦

中印边境之战,美苏为何会支持印度,32天战争让印度做了58年噩梦

易玄
2025-02-15 12:16:20
新款传祺M6 MAX,外观大气,内饰焕新,7座布局,适合全家出行

新款传祺M6 MAX,外观大气,内饰焕新,7座布局,适合全家出行

红涛说車
2026-05-12 21:46:22
官方:巴黎圣日耳曼将在对朗斯比赛中身穿Labubu联名球衣出战

官方:巴黎圣日耳曼将在对朗斯比赛中身穿Labubu联名球衣出战

懂球帝
2026-05-13 22:27:45
特朗普要求中国对美经贸团队访问提供便利,外交部回应

特朗普要求中国对美经贸团队访问提供便利,外交部回应

澎湃新闻
2026-05-13 15:22:26
大疆多款产品降价,Pocket3至高直降1400元,Pocket4仍无现货

大疆多款产品降价,Pocket3至高直降1400元,Pocket4仍无现货

鲁中晨报
2026-05-13 16:06:55
2026-05-14 07:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12987文章数 142648关注度
往期回顾 全部

科技要闻

阿里年营收首破万亿,AI终于不再是画大饼

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

头条要闻

女子闪婚获千万房产99%份额闪离后起诉分割 法院判了

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

教育
本地
艺术
游戏
公开课

教育要闻

家长就读,孩子免费修大学学分的社区大学?

本地新闻

用苏绣的方式,打开江西婺源

艺术要闻

这才是真正的“史上最强毕业证”,书法堪比字帖!

曝《雷曼》重制版反馈积极 游戏或于今夏公布

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版