目的

        项目需要实现类似行业定制的智能音箱功能,所以对当前可用的开源工具进行了调研和搭建demo环境,结合自己的体会形成下面相对中立的观点,供大家参考。

现状

  AI框架的市场份额

        从这个数据来看:"根据2022年下半年IDC对中国深度学习开源框架市场的调研,前三名Meta PyTorch、百度飞桨PaddlePaddle、谷歌TensorFlow已经占据超过80%的市场份额,遥遥领先于其他国内外框架。 飞桨PaddlePaddle开源框架市场份额超越了谷歌TensorFlow。"  我的体会是tensorflow可以暂时放下了。

        从飞浆官网 

飞桨PaddlePaddle-源于产业实践的开源深度学习平台  的更新来看,有半年没更新了,说明百度最近的投入重点有所转移。加微信客服无人理睬,没有支持的项目不值得跟进了。

        所以个人推荐Pytorch,抱Nvidia这个大腿更合适一些。

 Speech ASR 开源方案介绍

    研究了4大工具:Kaldi , whisper , PaddleSpeech, MMS。

    Kaldi是一个开源的语音识别工具包,它提供了一系列用于构建自定义语音识别系统的工具和库。

    Whisper 是openai开源的大模型语音识别模型。

    PaddleSpeech 是百度Paddlepaddle框架下的语音识别的实现。PaddleSpeech项目集成了多种中文的语音识别模型的Paddlepaddle实现,当然也包括了Kaldi和Whisper模型的实现。同时集成了众多中文数据集。

     今年Meta发布了MMS模型,网上有人和Whisper做了对比,错误率显著降低,不过目前还没有找到中文文档,和中文语料的优化结果。估计还要等一段时间。

中文数据集介绍       

       AISHELL公司于2021年发布的中文语音数据集,总共包含1700小时的音频数据,分为语音和文本两份数据。Kaldi和Whisper都属于英语或多语言项目,并没有专门对中文进行训练。PaddleSpeech 对众多中文语音数据集进行了集成,方便下载。  

免费GPU平台

        在A100禁运的当下,GPU水涨船高,训练大模型的P100,T4显卡都是数万起步。能够白嫖GPU卡当然比单独用CPU训练更高效,并且易于随时开始调试,在手机上都可以通过网页访问GPU进行调试。

        我接触的免费GPU平台有AIstudio.baidu.com 和 Kaggle.com 2家。 其中AIstudio.baidu.com 主推飞浆框架,如果要用pytorch,就只有Kaggle了。AIstudio其实也不错,但是paddlespeech的后续支持堪忧,代码陈旧,找不到人支持,只好放弃。

        其他需要科学上网的免费GPU平台有google colab.

对比分析

        结合项目情况,主要考虑开源方案的成熟度,活跃度,中文支持度,训练成本。训练成本即免费GPU服务器的可用性。

        最后我的选择是:Pytorch + Kaggle 免费GPU +whisper + 中文预料微调 ASR方案。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐