语音识别工具包pocketsphinx-0.8声学模型训练

福哥哥哥

1831人浏览 · 2014-06-06 15:39:56

福哥哥哥 · 2014-06-06 15:39:56 发布

阿呆游乐园：blog.csdn.net.longer44

2012年12月份，CMU大学更新pocketsphinx工具包，最新版本已经是0.8了。下载下来尝试了一下，发现对于声学模型的训练比之前方便多了。

下面简单介绍一下新版本声学模型的训练过程：

1:安装新版本的Pocketsphinx-0.8

下载地址：http://cmusphinx.sourceforge.net/wiki/download/

在Linux下安装很方便：config，make，make install即可。

2:准备录音材料

将你需要识别的命令列个表，然后录制WAV格式的音频文件

重点说明：录制单声道16000Hz(8000Hz需要配置一下)

3:新建一个目录：例如：my_db

4:在my_db下新建目录：wav和etc

5:将录制好的音频文件放到wav文件夹下

6:在etc文件夹下准备以下几个文件：

my_db.dic - Phonetic dictionary
my_db.phone - Phoneset file
my_db.lm.DMP - Language model
my_db.filler - List of fillers
my_db_train.fileids - List of files for training
ny_db_train.transcription - Transcription for training
my_db_test.fileids - List of files for testing
my_db_test.transcription - Transcription for testing

以上文件的格式或制作方法请参照本人转载的《sphinx武林秘籍》

7:配置相关参数

从终端进入my_db目录，然后通过

sphinxtrain -t my_db setup

命令配置训练脚本，及训练参数。

配置完成后，可以进入etc文件夹下查找feat.params和sphinx_train.cfg文件，修改相关配置参数

8:开始训练

以上步骤完成后，可以开始训练声学模型了

sphinxtrain run

如果准备的文件完全正确，训练声学模型过程等待就可以了，如果出现停顿或者不动的情况，那么说明是某些地方不正确，可以查看错误日志或者终端输出信息加以修改。

9:查看训练好的声学模型

训练完成后，声学模型在my_db/model_parameters文件夹下。

总结：新版本的声学模型训练将之前繁琐的步骤加以简化，操作起来更加方便。

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

Kaldi之父，IEEE Fellow，小米首席语音科学家Daniel Povey将出席2024全球机器学习技术大会并发表演讲！

CSDN学习社区

cover

探索神经网络在商品销售和图像识别中的应用

CSDN学习社区

cover

基于stm32F103的座面声控台灯

CSDN学习社区

所有评论(0)

查看更多评论

福哥哥哥

已为社区贡献7条内容