【论文阅读】X-vectors: Robust DNN Embedding for Speaker Recognition

文章链接关键词语音识别、说话人识别、DNN前言大多数说话人识别系统是基于I-Vector的。主要工作

abcdhhhh_ · 2022-10-11 19:19:40 发布

说话人识别、DNN、数据增强、x-vectors

本文所用的DNN可接受任意长度的输入，并转换成固定长度的表达（即x-vector）。
（在训练数据量不足的情况下，采用了数据增强）
（与 i-vector 对比，发现数据增强对 i-vector 没有帮助，但对 x-vector DNN 帮助很大）

本文所用DNN的结构可参见另一篇文章（文章链接），如图所示：
在这里插入图片描述
包括多层时间延迟结构、1层统计池化层、2层全连接层（隐藏层）、以及一层softmax。

使用交叉熵损失函数进行训练。

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

Kaldi之父，IEEE Fellow，小米首席语音科学家Daniel Povey将出席2024全球机器学习技术大会并发表演讲！

探索神经网络在商品销售和图像识别中的应用

基于stm32F103的座面声控台灯

查看更多评论

已为社区贡献1条内容