如果提高语音识别准确率的关键是简单地将所有可用的语音数据集混合在一起训练一个大型的人工智能模型呢?这就是谷歌Research和谷歌Brain下属的一个研究团队最近发表的一项研究背后的假设。他们声称,一个名为SpeechStew的AI模型在一系列语音语料上进行训练,在各种语音识别基准上达到了最先进或接近最先进的结果。
在更多的数据上训练模型往往是困难的,因为收集和注释新数据是昂贵的,特别是在语音领域。此外,对AI社区的许多成员来说,训练大型模型是昂贵和不切实际的。
为了寻求解决方案,谷歌的研究人员将社区多年来策划的所有可用的有标签和无标签的语音识别数据进行了整合。他们借鉴了AMI,一个包含约100小时会议录音的数据集,以及包括Switchboard(约2000小时的电话)、Broadcast News(50小时的电视新闻)、Librispeech(960小时的有声读物)和Mozilla的众包Common Voice在内的语料库。他们的综合数据集有超过5000小时的语音,没有一个是在原始形式下进行调整的。
研究人员利用组装好的数据集,使用谷歌云TPU来训练SpeechStew,得出了一个拥有超过1亿个参数的模型。在机器学习中,参数是模型在训练过程中学习到的数据属性。研究人员还训练了一个10亿参数的模型,但它的性能下降了。
一旦团队有了一个通用的SpeechStew模型,他们在一些基准上进行了测试,发现它不仅优于之前开发的模型,而且表现出了适应挑战性新任务的能力。利用Chime-6这个由麦克风记录的40小时家庭远距离对话数据集,研究人员对SpeechStew进行了微调,以达到与更复杂的模型一致的准确性。
迁移学习需要用较少的数据将知识从一个领域转移到另一个领域,它在人工智能的许多子领域显示出了希望。比如,通过使用一个旨在理解一般语音的模型,并在边缘处进行改进,人工智能就有可能理解不同口音和环境下的语音。
当记者通过电子邮件询问像SpeechStew这样的语音模型如何在生产中使用——比如在消费设备或云API中——研究人员拒绝猜测。但他们设想这些模型可以作为通用的表示,可以转移到任何数量的下游语音识别任务中。
研究人员说:”这种对通用模型进行微调以适应新的下游语音识别任务的简单技术简单、实用,但效果惊人。重要的是要认识到,其他数据源的分布并不完全匹配感兴趣的数据集。但只要有一些共同的表示方式需要解决这两个任务,我们就可以希望通过结合这两个数据集来实现改进结果。“
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.