KnowingAI知智-S4语音任务

本文系笔者在观看B站up主@KnowingAI知智的S4系列短视频所做的笔记合集
原视频见S4语音任务

S4E0:声音与机器

在这里插入图片描述

语音任务和自然语言处理相比,其更加纯粹地与声音信号打交道,语音任务的本质即为【语音和文字之间的转换】;

实现“Speech to text”的任务,需要将声波信号以帧为单位进行划分,再由帧组成一个一个的音素,多个音素就能组成一个音节,多个音节最终就可以组成单词。

S4E1:语音识别

在这里插入图片描述

【模型训练】

  • 声音数据→声学模型,将声音表达成声学符号
  • 文本数据→语言模型,为声学符号找到可能的文字表达

【语音数据→声学符号】

  • 将语音信号按照时间间隔切割成彼此重叠、很小的段落
  • 这些片段通过声学模型可以识别成相应的语音状态;这些语音状态是声母、韵母的组成 部分

【声学符号→文字】

  • 通过声学模型可以确定语音信号最佳的对应声学符号组合
  • 通过发声词典,就能将声学符号和语言模型中最优可能的文字表达进行对应

【语音识别方言】

  • 用机器识别方言或是普通话,其核心的网络架构与思想并无不同,只不过识别方言时需要使用相应的方言资料来训练声学模型和语言模型,并且需要配备与方言相对应的发声词典。

S4E2:语音合成

在这里插入图片描述

【录制语音库】

  • 语音库中包含的语音应该兼备该语言的各种音节和因素组成(比如既有元音也有辅音,既有声母也有韵母),同时也应包含有各类声调的语音。

【读音预测】

  • 首先根据文本得到预测出的音素序列
  • 为了可以转换为更加自然的语音,还需要能够学习出文本中的重音、节奏和缩写等内容

【语音合成】

  • 波形拼接:在语音库中逐一寻找和识别出来的音素最一致的语音信号并进行合成
  • 参数合成:直接将预测出的音素转换成关于时域的语音信号,并结合语音库中的特征生成完整的语音
  • 端到端:利用深度学习的网络结构,实现从文本端到语音信号端的直接转换

    就目前研究而言,端到端正处于兴起阶段,参数合成与波形拼接相结合的手段具有更好的性能

S4E3/E4/E5/E6:语音任务的应用们

  • 声纹识别

【图片位置预留】
以抽象的观点来解释声纹和声纹识别:

  • 假如用苹果来类比一段音频,那么对于声音诸如【中气十足】、【轻声细语】这样的特质就好比苹果的【形状】和【颜色】这样的显像特征
  • 为了提高识别的准确性和鲁棒性,我们采用机器学习的手段可从更多角度抽取出识别事物的抽象特征,比如苹果边缘的弧度、叶子的锯齿等等
  • 每次面对一个新事物时,就从形状、颜色、边缘弧度、叶子锯齿等这些抽象的特征的角度去判别其是否为一个苹果——这就是声纹识别

声纹识别的安全性

  • 录制音不能通过声纹识别:因为录制和播放的过程会让声音衰减失真
  • 使用随机声纹锁也可以避免录制音风险
  • 智能音箱

在这里插入图片描述

  • 智能家居|可穿戴设备|机器人|客服

在这里插入图片描述

  • 智能语音助手——语音交互设计

在这里插入图片描述

S4E7:音乐信息检索[听歌识曲]

在这里插入图片描述

  • 听歌识曲(哼唱或音源播放)都属于音频信息检索的范畴,其还包括诸如音乐推荐、音乐生成、音乐自动分类等任务;
  • 提取乐曲的特征往往将音乐转换成频谱图,然后每隔固定的一段时间在频谱图上提取特征点,并把这个特征点称为指纹;
  • 匹配最近邻的音乐是通过比照两首歌曲之间的指纹串来实现的;
  • 乐曲库中往往有大量的乐曲,为了方便比对与检索,需要建立一个以指纹为关键词,以乐曲为网页链接的搜索引擎

S4E8:虚拟偶像的更迭

在这里插入图片描述

S4E9:音乐生成

在这里插入图片描述

  • 希望生成不同类型的音乐只需要更换不同的乐曲库即可

S4E10:鸡尾酒会问题

【图片】

  • 问题定义:在鸡尾酒会情景下,人们在鸡尾酒会中交谈,语音信号会重叠在一起,需要将混杂在一起的信号分离成各自独立的信号
  • 问题解决:
    ①单通道系统中,对混杂信号的频谱图中需要的谱图部分标注1,不需要的部分标注0,利用机器学习让机器自动学习输出1的部分
    ②多通道系统中,使用麦克风阵列,利用空间特性可以对声音信号进行处理

S4E11:远场识别

【图片】
①问题定义:在中远距离的环境中发生的语音识别称为远场识别(Far-field Speech Recognition);在远场识别情境下,通常会出现诸如收音不佳混响噪声等问题。

②使用麦克风阵列解决:多个麦克风的放置可利用音频信号的空间特性,从而可以对声源进行定位;对声源信号定向增强可以提升收音效果;同时抑制其他来源的声音即可有效解决噪声和混响等问题。

③使用深度学习解决:利用深度学习网络结构,并导入远场语音数据作为训练集。

S4E12:S4内容总结|多模态

在这里插入图片描述
语音技术和计算机视觉结合起来的应用:

  • 人脸识别+声纹识别→提高识别的准确率
  • 视频分析+语音识别→更好地进行视频内容识别
  • 机器人+语音智能情感分析→智能情感机器人,提高机器的“智能”性
Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐