华工研究生语音课
语音蕴含的信息、语音识别的目的语音的准平稳性、分帧、预加重、时域特征分析(能量和过零率)、端点检测(双门限法)语音的基频及检测(主要是自相关法、野点的处理)声音的产生过程(声门脉冲、声道模型、辐射),两大听觉特性(时频分析和掩蔽效应)LPC分析(原理、窗函数、建模为全极点模型、最小均方误差、系数的三种解法与对比)MFCC分析(Mel频率、Mel滤波器组以及这两者设计的原因:模仿人耳听觉特性。同态信
这门课讲啥
语音蕴含的信息、语音识别的目的
语音的准平稳性、分帧、预加重、时域特征分析(能量和过零率)、端点检测(双门限法)
语音的基频及检测(主要是自相关法、野点的处理)
声音的产生过程(声门脉冲、声道模型、辐射),两大听觉特性(时频分析和掩蔽效应)
LPC分析(原理、窗函数、建模为全极点模型、最小均方误差、系数的三种解法与对比)
MFCC分析(Mel频率、Mel滤波器组以及这两者设计的原因:模仿人耳听觉特性。同态信号处理方法、复倒谱和倒谱、MFCC求法、差分MFCC)
VQ(简要了解原理、知道一些聚类算法)
谱距离(距离的特性、对数谱距离、倒谱距离、截断倒谱距离)
DTW(为什么要对齐、线性时间规整算法、了解动态规划的思想、约束条件、动态时间规整算法)
DTW模板训练的过程(包括鲁棒性训练和聚类还有一个Casual啥的,三类对比)
语音识别系统的决策准则(k近邻)、两类评价指标(速度和准确率,具体指标有哪些)、语音识别的自适应问题
HMM概念(了解其参数意义、齐次假设、观测独立性假设、两类主要拓扑结构)
HMM三大基本问题以及经典解法(评估、最佳路径、训练。大概知道其解法)
HMM的实际应用问题
这门课考啥
贺老师课上讲得比较深入,主要围绕语音识别系统展开,上完对语音识别的经典流程有个了解。但考试考的比较简单,没有计算题,以概念为主,如:
什么是短时平稳
为啥不用矩形窗
解释某个算法某个变量的含义
为啥用从左到右的HMM结构
为啥不用线性时间规整,而去用DTW?
DTW的约束条件
为啥引入差分MFCC
HMM三大问题是什么,对应算法的名字
整体来说,课程广度和深度足够,考试也友好,是值得选修的一门课。
更多推荐
所有评论(0)