Vosk是一个免费,开业,可商用,支持离线语音识别的东西,关键是可以在Unity中使用。
在这里插入图片描述

Vosk可以离线语音识别,也可以自建语音识别服务区,支持多种语言,还支持在Unity中使用。

整体而言,识别率还行,可以发布为windows,应该也能发布为安卓和苹果。性能还行,但是,只支持单一的中文。比如说,无法将12301识别为罗马数字而是识别成幺二三零幺。至于MP3,NBA就更无法识别了。

没找到添加新词的办法,也没找到识别音频文件办法,只能将麦克风录制的语音识别出来。

需要注意的几点

  • 语音模型解压目录不能有特殊字符
  • 第一次运行会闪退,大概是因为解压和目录
  • 发布windows后要复制dll到运行根目录

代码简单说明

初始化语音识别

StartVoskStt();//初始化的方法

开始语音识别

Task.Run(ThreadedWork).ConfigureAwait(false);//开始识别的方法

如果不用官方的麦克风录制,注释掉外面的循环和判断

        //while (_threadedBufferQueue.Count > 0)
        //{
            //if (_threadedBufferQueue.TryDequeue(out short[] voiceResult))
            //{
                _recognizer.AcceptWaveform(voiceResult, voiceResult.Length);
                    lock (_resultLock)
                    {
                        _threadedRecognitionResult = _recognizer.Result();
                    }
            //}
        //}

录制的语音转换大致代码

float[] fdata
_audioClip.GetData(fdata, 0);
......
short[] sdata
for (int i = 0; i < fdata.Length; i++)
{
  sdata[i] = (short)Math.Floor(fdata[i] * short.MaxValue);
}
......
_recognizer.AcceptWaveform(sdata, sdata.Length);
......

演示和视频地址(https://www.bilibili.com/video/BV15Y4y1p7hT/)

Vosk可以在Unity中使用的离线语音识别

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐