python pytorch语音识别_在pytorch中为ASR加载librispeech

weixin_39545895

592人浏览 · 2020-12-21 04:20:42

weixin_39545895 · 2020-12-21 04:20:42 发布

你的问题很宽泛：你在看音频文件的记录吗？如果是这样的话，它们在每个目录的文本文件中，每行都以文件名(不带扩展名)开头。在

尤其是这种方法，它给出了一个音频文件列表及其对Librispeech语料库的转录：def get_data_librispeech(self, raw_data_path):

text_files = self.find_files(raw_data_path, ".txt")

result = []

for text_file in text_files:

directory = os.path.dirname(text_file)

with open(text_file, "r") as f:

lines = f.read().split("\n")

for line in lines:

head = line.split(' ')[0]

if len(head) < 5:

# Not a line with a file desc

break

audio_file = directory + "/" + head + ".flac"

if os.path.exists(audio_file):

result.append([audio_file, self.clean_label(line.replace(head, "")), None])

return result

注意：每个项目的第三个值总是无，因为它应该被另一个方法中的音频长度替换。在

你不需要用相应的字符来标记音频的每一帧，CTC将通过处理完整的音频和相应的转录本来处理它。在

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

Kaldi之父，IEEE Fellow，小米首席语音科学家Daniel Povey将出席2024全球机器学习技术大会并发表演讲！

CSDN学习社区

cover

探索神经网络在商品销售和图像识别中的应用

CSDN学习社区

cover

基于stm32F103的座面声控台灯

CSDN学习社区

所有评论(0)

查看更多评论

weixin_39545895

@weixin_39545895

已为社区贡献1条内容