语音识别(ASR)论文优选：可商用的开源30000小时ASR英文训练语料The People‘s Speech: A Large-Scale Diverse English Speech Recogn

声明：平时看些文章做些笔记分享出来，文章中难免存在错误的地方，还望大家海涵。搜集一些资料，方便查阅学习：http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章h

我叫永强

2024人浏览 · 2021-11-19 16:47:26

我叫永强 · 2021-11-19 16:47:26 发布

声明：平时看些文章做些笔记分享出来，文章中难免存在错误的地方，还望大家海涵。搜集一些资料，方便查阅学习：http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。如有转载，请注明出处。欢迎关注微信公众号：低调奋进。

The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage 本文为MLCommons等在2021.11.17更新的文章，主要开源可商用的30000多小时英文语料，从而促进ASR的进步，具体的文章链接https://arxiv.org/pdf/2111.09344.pdf

简介

本文主要的工作是开源30000小时的英文ASR语料，该语料是可以商用的。Table 1列出了目前已经开源的语料，本文的People's Speech可以商用，其音频构成取自 audiobooks, movies, TV, local news, music, historical documentaries, video game replays, stock footage, twitch streams, sports commentary, business news, lectures, sermons, podcasts, old-time radio, court recordings, health, and law enforcement等等场景，而且该语料具备现实的背景噪声。

Fig 1是该数据库每种license的数据构成，其都是可以商用的。Fig2是进行筛选52500小时的语言分布，本文主要选取English数据。Fig3和Fig5分别为文本中实体地点词分布和场景分布。Fig4为数据集的音频采样率构成。Fig5为数据集中背景噪声的分布情况。Fig6和Table 2使用DSAlign强制对齐的质量情况。