新发布的 Granary 数据集包含约 100 万小时音频,可用于训练高精度、高吞吐量的 AI 音频转录与翻译模型。
在全球约 7,000 种语言中,AI 语言模型所支持的语言仅占到极少数。NVIDIA 正通过新发布的数据集与模型攻克此难题。新数据集与模型可用于为 25 种欧洲语言开发高质量的语音识别与翻译 AI ,涵盖克罗地亚语、爱沙尼亚语、马耳他语等数据稀缺的语言。
借助这些工具,开发者能够轻松扩展 AI 应用,支持全球用户在生产级用例中使用快速、精准的语音技术,例如多语种聊天机器人、客服语音智能体和近实时翻译服务。具体包括:
- Granary:一个庞大的开源多语种语音数据集,包含约百万小时的音频素材,其中包括近 65 万小时的语音识别数据,以及超过 35 万小时的语音翻译数据。
- NVIDIA Canary-1b-v2:一个基于 Granary 数据集训练的十亿参数模型,可实现欧洲语言的高质量转录,并支持英语与二十余种语言间的互译。该模型在 Hugging Face 开放模型榜多语言语音识别评测中排名靠前。
- NVIDIA Parakeet-tdt-0.6b-v3:一个精简型 6 亿参数模型,专为实时或大批量转录 Granary 支持的语言而设计。该模型是 Hugging Face 排行榜的多语言模型中吞吐量最高的(以转录音频时长除以计算时间衡量)。
Granary 相关论文已于语言处理大会 Interspeech 上发表。该数据集及全新 Canary 和 Parakeet 模型现已在 Hugging Face 平台上开放获取。
Granary 如何解决数据稀缺问题
为构建 Granary 数据集,NVIDIA 语音 AI 团队与卡内基梅隆大学和布鲁诺 · 凯斯勒基金会 (Fondazione Bruno Kessler) 的研究人员开展了协作。团队通过 NVIDIA NeMo 语音数据处理器 (NVIDIA NeMo Speech Data Processor) 套件驱动的创新处理管线,将未标注的音频转换成高质量的结构化数据。
该管线使研究人员无需耗费大量人力对数据进行标记,即可将公开语音数据升级成适用于 AI 训练的格式。该套件已在 GitHub 上开源。
凭借 Granary 数据集提供的整洁、即用的数据,开发者可以抢先一步开发处理欧盟 24 种官方语言的转录与翻译模型。
对于在人工标记数据集中代表性不足的欧洲语言,Granary 提供了开发更具包容性的语音技术所需的关键资源,可在减少训练数据量的同时,更加充分地反映出欧洲语言的多样性。
该团队在 Interspeech 论文中证明了:相较于其他常见的数据集,只需使用约一半量的 Granary 训练数据,即可让自动语音识别 (ASR) 和自动语音翻译 (AST) 达到目标准确率。
使用 NVIDIA NeMo 大幅加快转录速度
新发布的 Canary 和 Parakeet 模型,向开发者展示了如何利用 Granary 构建符合其目标应用需求的定制化模型。Canary-1b-v2 针对复杂任务提高了准确性,而 Parakeet-tdt-0.6b-v3 则专为需要高速、低延迟的任务设计。
通过分享 Granary 数据集及这两个模型的开发方法,NVIDIA 帮助全球语音 AI 开发者社区将该数据处理工作流应用于其他 ASR / AST 模型或更多语言领域,从而推动语音 AI 的创新。
Canary-1b-v2 采用宽松型许可证,将 Canary 系列模型支持的语言从 4 种扩展至 25 种。其转录与翻译质量可媲美 3 倍规模的模型,同时推理速度最快可提升 10 倍。
演示视频请点击链接观看:「链接」
NVIDIA NeMo 是一个用于管理 AI 智能体生命周期的模块化软件套件,极大加快了语音 AI 模型的开发。该软件套件中的 NeMo Curator 帮助团队从源数据中筛选合成样本,确保仅使用高质量样本进行训练模型。团队还使用 NeMo 语音数据处理器套件完成文本转录与音频文件的对齐、数据格式转换等任务。
Parakeet-tdt-0.6b-v3 优先保障高吞吐量,单次推理即可转录 24 分钟音频片段。该模型能自动识别输入音频的语言类型,无需额外提示步骤即可完成转录。
Canary 与 Parakeet 模型均能在输出中提供精准的标点符号、规范的大小写及单词级时间戳。
您可在 GitHub 上了解更多信息:
https://nvidia-nemo.github.io/blog/2025/08/13/granary-data-for-fine-tune/
在 Hugging Face 平台上开始使用 Granary:
https://huggingface.co/datasets/nvidia/Granary
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.