语音识别 Deep Speech Recognition 小模型代码初探

最近开始学习语音识别 (Speech Recognition) 相关发现了一个结构挺清晰的中文识别小模型原项目有一些 bug 在此记录下项目地址 https://github.com/yang123qwe/end2end_chinese_speech_recognition问题一 module 'torchaudio' has no attribute 'load_wav'pytorchaudio

刘阿宾

2642人浏览 · 2021-11-17 23:59:59

刘阿宾 · 2021-11-17 23:59:59 发布

最近开始学习语音识别 (Speech Recognition) 相关
发现了一个结构挺清晰的中文识别小模型
原项目有一些 bug 在此记录下

项目地址 https://github.com/yang123qwe/end2end_chinese_speech_recognition

问题一 `module 'torchaudio' has no attribute 'load_wav'`

pytorchaudio 模块版本问题
直接将函数 load_wav 改成 load() 即可

问题二 `No audio I/O backend is available`

没有安装 backend
- 其实在 torchaudio 在导入的时候会产生一个警告
Windows 安装 pip install soundfile
官方的详细说明： https://pytorch.org/audio/stable/backend.html#soundfile-backend
没什么用的测试命令:
- torchaudio.list_audio_backends()
- 成功后的输出： ['soundfile']
- （失败为：[])

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

Kaldi之父，IEEE Fellow，小米首席语音科学家Daniel Povey将出席2024全球机器学习技术大会并发表演讲！

CSDN学习社区

cover

探索神经网络在商品销售和图像识别中的应用

CSDN学习社区

cover

基于stm32F103的座面声控台灯

CSDN学习社区

所有评论(0)

查看更多评论

刘阿宾

已为社区贡献1条内容