INTERSPEECH 2020 技术交流会笔记

1.微软报告题目:构建工业级流式端到端语音识别模型主流端到端模型：TransducerS2SAttention mechanism无有搭建组件...

尚歌

550人浏览 · 2020-12-20 14:14:37

尚歌 · 2020-12-20 14:14:37 发布

主流端到端模型：

Transducer S2S

Attention mechanism 无有

搭建组件 RNN或者Transformer RNN或者Transformer

流式自然需要把全局注意力转为局部注意力

应用场景在线离线

两大点，Transformer Transducer, Conformer Transducer

INTERSPEECH 2020 口音英语语音识别比赛：

许多类型的数据增强是很有帮助的（速度变化，音频拼接，加噪音，加混响）
基于注意力的encoder和CTC组合模型是主要的策略（CTC+LAS,CTC+Transformer,CTC+Conformer）
语言模型（RNNLM,Transformer）
Wav2vec是一个很好的无监督学习框架
特征用法（Fbank,X-vector,wav2vec）

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

Kaldi之父，IEEE Fellow，小米首席语音科学家Daniel Povey将出席2024全球机器学习技术大会并发表演讲！

CSDN学习社区

cover

探索神经网络在商品销售和图像识别中的应用

CSDN学习社区

cover

基于stm32F103的座面声控台灯

CSDN学习社区

所有评论(0)

查看更多评论

尚歌

已为社区贡献12条内容