百度语音识别API的简单应用

1. prepare根据百度开发文档的提示可以知道，API仅能处理特定格式的语音文件。由于底层识别使用的是pcm，因此推荐直接上传pcm文件。如果上传其它格式，会在服务器端转码成pcm，调用接口的耗时会增加。语音识别仅支持以下格式：pcm（不压缩）、wav（不压缩，pcm编码）、amr（有损压缩格式）；8k/16k 采样率 16bit 位深的单声道。即：pc...

风先生

16274人浏览 · 2018-04-02 01:32:13

风先生 · 2018-04-02 01:32:13 发布

1. prepare

根据百度开发文档的提示可以知道，API仅能处理特定格式的语音文件。

由于底层识别使用的是pcm，因此推荐直接上传pcm文件。如果上传其它格式，会在服务器端转码成pcm，调用接口的耗时会增加。

语音识别仅支持以下格式：pcm（不压缩）、wav（不压缩，pcm编码）、amr（有损压缩格式）；8k/16k 采样率 16bit 位深的单声道。即：

pcm wav amr 格式三选一。正常情况请使用pcm。其中wav格式需要使用pcm编码。
采用率二选一 8000 或者 16000。正常情况请使用16000
单声道

这就以为着需要对语音文件进行解码，修改，重新编码。
特别的，如果我希望能够提供视屏的字幕，就需要对音屏文件进行提取，然后进行语音识别。

ffmpeg

简介

FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。

需要注意一点：因为FFmpeg默认只支持mp3的解码，不支持mp3编码。如果想把提取出来的音频保存为mp3格式肯定就需要mp3格式的编码库。因此，想输出mp3文件，需要借助第三方的mp3编码库。这里采用LAME编码库，即Lame Aint an MP3 Encoder(A high quality MP3 encoder).

Ubuntu安装的比较简单粗暴：

sudo apt-get install lame
sudo apt-get install ffmpeg

使用

输入音频参数
wav amr 与mp3格式都自带头部，含有采样率编码多声道等信息。而pcm为原始音频信息，没有类似头部。 wav（pcm编码）格式，仅仅在同样参数的pcm文件加了个几百k的文件头。

输入 wav amr 及mp3格式：

-i  test.wav # 或test.mp3 或者 test.amr

输入 pcm格式： pcm需要额外告知编码格式，采样率，单声道信息，-f fmt 强迫采用格式fmt，-ac 2（声道数1或2），-ar （声音的采样频率），s16le （PCM signed 16-bit little-endian）

-f s16le -ac 1 -ar 16000 -i 8k.pcm

单声道 16000 采样率 16bits编码 pcm文件

输出音频参数
在原始采样率大于或者接近16000的时候，推荐使用16000的采样率。 8000的采样率会降低识别效果。输出wav和amr格式时，如果不指定输出编码器的haunt，ffmpeg会选取默认编码器。

输出pcm音频

-f s16le -ac 1 -ar 16000 16k.pcm

单声道 16000 采样率 16bits编码 pcm文件
输出wav 音频：

-ac 1 -ar 16000 16k.wav

单声道 16000 采样率的wav文件。

what a wav looks like?

# -*- coding: utf-8 -*-
import wave
import pylab as pl
import numpy as np

# 打开WAV文档
#‘rb’，读取文件；
#‘wb’，写入文件;
f = wave.open(r"/home/vedio/test.wav", "rb")

# 读取格式信息
# (nchannels, sampwidth, framerate, nframes, comptype, compname)
params = f.getparams()
nchannels, sampwidth, framerate, nframes = params[:4]

# 读取波形数据
str_data = f.readframes(nframes)
f.close()

#将波形数据转换为数组
wave_data = np.fromstring(str_data, dtype=np.short)
wave_data.shape = -1, 2
wave_data = wave_data.T
time = np.arange(0, nframes) * (1.0 / framerate)

# 绘制波形
pl.subplot(211) 
pl.plot(time, wave_data[0])
pl.subplot(212) 
pl.plot(time, wave_data[1], c="g")
pl.xlabel("time (seconds)")
pl.show()

这里写图片描述

待续

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生