品玩2月5日讯,据音频语音与语言处理研究组消息,西北工业大学ASLP实验室联合希尔贝壳、中国电信人工智能研究院等机构,正式开源发布首个大规模多维标注四川话语音语料库WenetSpeech-Chuan。该语料库涵盖10,000小时语音数据,覆盖9大领域,并创新性提供ASR转录、说话人属性、语音质量等多维度标注。
研究团队自主研发Chuan-Pipeline数据处理框架,创新采用LLM-GER转录纠错技术,显著提升方言识别准确率。实验表明,基于该语料库训练的模型在ASR与TTS任务中达到开源系统最优性能,部分指标媲美商业系统。
此项工作有效解决了四川话研究资源匮乏的难题,为推进方言语音技术公平发展提供重要基础支撑。语料库、基准测试及技术报告已在GitHub全面开源。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.