阿呆游乐园:blog.csdn.net.longer44

2012年12月份,CMU大学更新pocketsphinx工具包,最新版本已经是0.8了。下载下来尝试了一下,发现对于声学模型的训练比之前方便多了。


下面简单介绍一下新版本声学模型的训练过程:

1:安装新版本的Pocketsphinx-0.8

下载地址:http://cmusphinx.sourceforge.net/wiki/download/

在Linux下安装很方便:config,make,make install即可。

2:准备录音材料

将你需要识别的命令列个表,然后录制WAV格式的音频文件

重点说明:录制单声道16000Hz(8000Hz需要配置一下)

3:新建一个目录:例如:my_db

4:在my_db下新建目录:wav和etc

5:将录制好的音频文件放到wav文件夹下

6:在etc文件夹下准备以下几个文件:

  • my_db.dic -  Phonetic dictionary
  • my_db.phone -  Phoneset file
  • my_db.lm.DMP -  Language model
  • my_db.filler -  List of fillers
  • my_db_train.fileids -  List of files for training
  • ny_db_train.transcription -  Transcription for training
  • my_db_test.fileids -  List of files for testing
  • my_db_test.transcription -  Transcription for testing
以上文件的格式或制作方法请参照本人转载的《sphinx武林秘籍》

7:配置相关参数

从终端进入my_db目录,然后通过

sphinxtrain -t my_db setup
命令配置训练脚本,及训练参数。

配置完成后,可以进入etc文件夹下查找feat.params和sphinx_train.cfg文件,修改相关配置参数

8:开始训练

以上步骤完成后,可以开始训练声学模型了

sphinxtrain run

如果准备的文件完全正确,训练声学模型过程等待就可以了,如果出现停顿或者不动的情况,那么说明是某些地方不正确,可以查看错误日志或者终端输出信息加以修改。

9:查看训练好的声学模型

训练完成后,声学模型在my_db/model_parameters文件夹下。


总结:新版本的声学模型训练将之前繁琐的步骤加以简化,操作起来更加方便。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐