语音断点检测(短时改进子带谱熵)
端点检测:确定句子的时间起始点和终点,忽略中间少量的非语音帧,用于语音识别。(Speech Endpoint Detection)熵在信息论中是反映信息度量的一个量。某随机事件的随机性越大,即不确定性越高,则熵值也越大,所以携带的信息量亦越大。本次采用 谱熵法 对语音进行端点检测。......
·
1. 音频分析
1.输出语音的切分时间点信息,时间点用毫秒表示;
2.把语音分割成多个wav文件;
端点检测:确定句子的时间起始点和终点,忽略中间少量的非语音帧,
用于语音识别。(Speech Endpoint Detection)
熵在信息论中是反映信息度量的一个量。某随机事件的随机性越大,
即不确定性越高,则熵值也越大,所以携带的信息量亦越大。
本次作业采用 谱熵法 对语音进行端点检测。
2. 谱熵法
3. 预处理
4. 双门限法端点检测
5. 实验结果
处理 PHONE_001.wav 得到的信息
(1)time.csv: 为语音切段信息;
(2)PHONE_001_vad.wav:为语音VAD处理后,语音段合成的wav;
(3)segmentation文件夹: 为语音分段后各小段的语音;
(4)main_VAD.m: 主函数;
(5)vad.m: 为双门限法端点检测函数;
(6)houzhichuli.m: 为间歇长度判定函数;
(7)frame2time.m: 为帧对于的时间函数;
代码:
VAD
+qq:1095982611; 80% discount
更多推荐
已为社区贡献1条内容
所有评论(0)