声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage 本文为MLCommons等在2021.11.17更新的文章,主要开源可商用的30000多小时英文语料,从而促进ASR的进步,具体的文章链接https://arxiv.org/pdf/2111.09344.pdf


 简介

本文主要的工作是开源30000小时的英文ASR语料,该语料是可以商用的​。Table 1列出了目前已经开源的语料,本文的People's Speech可以商用,其音频构成取自 audiobooks, movies, TV, local news, music, historical documentaries, video game replays, stock footage, twitch streams, sports commentary, business news, lectures, sermons, podcasts, old-time radio, court recordings, health, and law enforcement等等场景​,而且该语料具备现实的​背景噪声。

Fig 1是该数据库每种license的数据构成,其都是可以​商用的。Fig2是进行筛选52500小时的语言分布,本文主要选取English数据​。Fig3和Fig5分别为文本中实体地点词分布和场景分布。Fig4为数据集的音频采样率构成​。Fig5为数据集中背景噪声的​分布情况。Fig6和Table 2使用DSAlign强制对齐的质量​情况。​

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐