用python实现语音端点检测(Voice Activity Detection,VAD)

用python实现语音端点检测(Voice Activity Detection,VAD)1.准备环境https://github.com/marsbroshok/VAD-python里面的vad.py文件2.具体代码from vad import VoiceActivityDetectorimport waveif __name__ == "__main__":load_file = "test

抽屉疯了

5987人浏览 · 2021-07-17 11:48:45

抽屉疯了 · 2021-07-17 11:48:45 发布

用python实现语音端点检测(Voice Activity Detection,VAD)

1.准备环境
https://github.com/marsbroshok/VAD-python
里面的vad.py文件

2.具体代码

from vad import VoiceActivityDetector
import wave

if __name__ == "__main__":
    load_file = "test.wav"
    save_file = "process.wav"
    # 获取vad分割节点
    v = VoiceActivityDetector(load_file)
    raw_detection = v.detect_speech()
    speech_labels, point_labels = v.convert_windows_to_readible_labels(raw_detection)
    if len(point_labels) != 0:
        # 根据节点音频分割并连接
        data = v.data
        cut_data = []
        Fs = v.rate
        for start, end in point_labels:
            cut_data.extend(data[int(start):int(end)])

        
        # 保存音频
        f = wave.open(save_file, 'w')
        nframes = len(cut_data)
        f.setparams((1, 2, Fs, nframes, 'NONE', 'NONE'))  # 声道，字节数，采样频率，*，*
        wavdata = np.array(cut_data)
        wavdata = wavdata.astype(np.int16)
        f.writeframes(wavdata)  # outData
        f.close()

3.部分参数
vad.py文件

class VoiceActivityDetector():
    """ Use signal energy to detect voice activity in wav file """

    def __init__(self, wave_input_filename):
        self._read_wav(wave_input_filename)._convert_to_mono()
        #沿音频数据移动 20 毫秒的窗口。
        self.sample_window = 0.02  # 20 ms 
        self.sample_overlap = 0.01  # 10ms
        #应用长度为 0.5s 的中值滤波器来平滑检测到的语音区域。
        self.speech_window = 0.5  # half a second
        #计算语带能量与窗口总能量的比值。如果比率大于阈值（默认为 0.6），则将窗口标记为语音
        self.speech_energy_threshold = 0.6  # 60% of energy in voice band    
        #中值滤波器（滤波保留2000-8000hz）
        self.speech_start_band = 2000
        self.speech_end_band = 8000
        self.data_speech = []

4.实现效果
原音频
在这里插入图片描述
切割保留后的音频

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生