一种基于精神卫生访谈信息实现长文本语音识别增强处理的方法

zhangruhuan501

1155人浏览 · 2022-02-23 12:51:51

zhangruhuan501 · 2022-02-23 12:51:51 发布

当前通用语音识别模型针对精神卫生领域医患访谈的识别率不高。目前的录音一般是需要用户在安静环境下，近距离、慢慢的、认真清晰发音。经实际验证，在一些实际医疗访谈场景，通用ASR准确率效果还不够好的，比如，如果拿到医患的真实场景内去验证，结果发现，诊疗室语音识别效果非常不理想。医患距离过远，收音情况不理想，实际场景中发现现有的通用ASR也没有特别严格的医患测试，除了多人说话的干扰，还有各种噪音以及患者情绪的波动经常处于信号不好的情况。访谈中精卫领域的专有术语混合。特别在描述病情的场景，用户说抑郁专有词汇时，很容易识别错误的。总之，ASR是目前AI领域，通用场景下可以商用成熟的技术，但是医患访谈领域，但还是要医患双方可以配合AI在特定场景下使用。近年来在精神卫生领域的诊断当中，每个工作日几乎都可能面临海量的患者诊疗，而在访谈过程中，医生一般专注于跟进病情陈述内容、诊疗进程，在诊疗结束后，病历纪要往往需要依靠医生根据访谈过程进行收集整理，甚至需要护士跟进访谈上所有人的语音信息进行整理、编辑，甚至需要跟进患者确认，从而导致整理病历的过程需要人力成本的投入，耗费人力又费时。

目前，病历整理通常是通过医务人员人手记录，没有普遍使用AI语音识别技术，最多也只是机器识别医患的语音并转换为文字记录。但是，机器只能单纯实现从语音到文字上的转换，并不能够对医疗相关的内容进行理解和整理，当前的语音转换系统尤其不能针对医疗以及精神卫生领域的关键词，语音习惯，语音模型等进行定制，识别准确率较差。

病历记录是用于记录访谈要点、以便于存档和传递病历信息的重要手段，随着信息时代的到来，全文本高准确率的病历记录被越来越多的医疗单位重视。比较传统的实现病历记录的方式就是安排医生进行访谈过程的记录，比较依赖于医生或者护士的专注力，由于边记录边诊断，开小差分心也会出现漏记的现象。随着科技的发展，涌现出了工号牌录音笔等产品帮助记录医患访谈的录音，而后通过对录音的回放进行关键点的人工提炼，解决病历纪要的低效记录的情况。

为了克服了上述现有技术的缺点，我们设计了一种基于精神卫生访谈信息实现长文本语音识别增强处理如下：基于精神卫生访谈信息实现长文本语音识别增强处理的方法，其主要特点是，所述的方法包括以下步骤：

（1）接收访谈语音信号，对信号进行预处理，输出特征数据；

（2）构建CTC声学模型，将语音信息转化为基本音素信息；

（3）通过语言模型和发音字典将基本音素信息解码为中文信息，获取抑郁症访谈文本。

较佳地，所述的步骤（1）具体包括以下步骤：

（1.1）接收访谈语音信号；

（1.2）对语音信号进行处理；

（1.3）对语音信号中的特征信息进行处理，输出特征数据；

较佳地，所述的步骤（3）具体包括以下步骤：

（3.1）通过抑郁症热词库构建针对医疗数据的Transformer语言模型；

（3.2）通过语言模型和发音字典将基本音素信息解码为中文信息。

较佳地，所述的方法还包括调试语言模型的步骤，具体包括以下步骤：