Speech ASR 语音识别方案现状调查

研究了3大工具：Kaldi , whisper ， PaddleSpeech。Kaldi是一个开源的语音识别工具包,它提供了一系列用于构建自定义语音识别系统的工具和库。Whisper 是openai开源的大模型语音识别模型。PaddleSpeech 是百度Paddlepaddle框架下的语音识别的实现。PaddleSpeech项目集成了多种中文的语音识别模型的Paddlepaddle实现，当然也包

hohoha-cn

460人浏览 · 2023-10-24 22:27:08

hohoha-cn · 2023-10-24 22:27:08 发布

目的

项目需要实现类似行业定制的智能音箱功能，所以对当前可用的开源工具进行了调研和搭建demo环境，结合自己的体会形成下面相对中立的观点，供大家参考。

现状

AI框架的市场份额

从这个数据来看："根据2022年下半年IDC对中国深度学习开源框架市场的调研，前三名Meta PyTorch、百度飞桨PaddlePaddle、谷歌TensorFlow已经占据超过80%的市场份额，遥遥领先于其他国内外框架。飞桨PaddlePaddle开源框架市场份额超越了谷歌TensorFlow。" 我的体会是tensorflow可以暂时放下了。

从飞浆官网

飞桨PaddlePaddle-源于产业实践的开源深度学习平台的更新来看，有半年没更新了，说明百度最近的投入重点有所转移。加微信客服无人理睬，没有支持的项目不值得跟进了。

所以个人推荐Pytorch，抱Nvidia这个大腿更合适一些。

Speech ASR 开源方案介绍

研究了4大工具：Kaldi , whisper ， PaddleSpeech, MMS。

Kaldi是一个开源的语音识别工具包,它提供了一系列用于构建自定义语音识别系统的工具和库。

Whisper 是openai开源的大模型语音识别模型。

PaddleSpeech 是百度Paddlepaddle框架下的语音识别的实现。PaddleSpeech项目集成了多种中文的语音识别模型的Paddlepaddle实现，当然也包括了Kaldi和Whisper模型的实现。同时集成了众多中文数据集。

今年Meta发布了MMS模型，网上有人和Whisper做了对比，错误率显著降低，不过目前还没有找到中文文档，和中文语料的优化结果。估计还要等一段时间。

中文数据集介绍

AISHELL公司于2021年发布的中文语音数据集,总共包含1700小时的音频数据,分为语音和文本两份数据。Kaldi和Whisper都属于英语或多语言项目，并没有专门对中文进行训练。PaddleSpeech 对众多中文语音数据集进行了集成，方便下载。

免费GPU平台

在A100禁运的当下，GPU水涨船高，训练大模型的P100,T4显卡都是数万起步。能够白嫖GPU卡当然比单独用CPU训练更高效，并且易于随时开始调试，在手机上都可以通过网页访问GPU进行调试。

我接触的免费GPU平台有AIstudio.baidu.com 和 Kaggle.com 2家。其中AIstudio.baidu.com 主推飞浆框架，如果要用pytorch，就只有Kaggle了。AIstudio其实也不错，但是paddlespeech的后续支持堪忧，代码陈旧，找不到人支持，只好放弃。

其他需要科学上网的免费GPU平台有google colab.