965ffdd722cef6213b25892348c858d3.png

作者:Behic Guven

编译:Florence Wong – AICUG

本文系AICUG翻译原创,如需转载请联系(微信号:834436689)以获得授权

使用Google Speech Recognition API的简单动手项目

在这篇文章中,我将向您展示如何从视频录制文件中提取语音。识别语音后,我们会将其转换为文本文档。这将是一个简单的机器学习项目,可帮助您了解Google语音识别库的一些基础知识。语音识别,是机器学习概念下的热门话题。语音识别,在许多领域都得到了越来越多的使用。例如,我们在Netflix节目,或YouTube视频上,看到的字幕主要是由使用人工智能的机器创建的。语音识别器的其他出色示例,还包括个人语音助手,例如Google的Home Mini,亚马逊的Alexa,苹果的Siri。

目录:

  • 入门
  • 步骤1:导入库
  • 第2步:视频到音频的转换
  • 步骤3:语音识别
  • 最后一步:导出结果

3b7b827b7d46fcaf802d0f849847333c.png
图片作者Alexandre Pellaes,出处 Unsplash

入门

正如您从标题中所了解的那样,我们将需要为此项目录制视频。它甚至可以是,您自己对着摄像机讲话的视频记录。使用名为MoviePy的库,我们将从录像中提取音频。下一步,我们将使用Google的语音识别(Speech Recognition)库,将该音频文件转换为文本。如果您已经准备好了,那就开始安装库吧!

我们将为此项目使用两个库:

  • 语音识别(Speech Recognition)
  • MoviePy

在将他们导入我们的项目文件之前,我们必须先安装他们。在python中,安装模块库非常容易。您甚至可以在一行代码中安装几个库。在您的终端窗口中写以下行:

pip 

是的,就是这样。 SpeechRecognition模块支持多种识别API,而Google Speech API就是其中之一。您可以从此处了解有关该模块的更多信息:

SpeechRecognition​pypi.org
108116c90668d35e5cc4c8f3cde22d9a.png

MoviePy是一个库,可以读取和写入所有最常见的音频和视频格式,包括GIF。如果在安装moviepy库时遇到问题,请尝试安装ffmpeg。 Ffmpeg是领先的多媒体框架,能够解码,编码,转码,mux,demux,流,过滤和播放人类和机器创建的几乎所有内容。

现在,我们应该在代码编辑器中编写代码。我们将从导入库开始。

第1步 — 导入库

import 

是的,这就是我们完成任务所需要的。在不浪费时间的情况下,让我们继续下一步。

第2步 — 视频到音频转换

在这一步中,我们将做一些非常酷的事情,即将视频记录转换为音频文件。视频格式很多,其中一些可以列出为:

  • MP4(mp4,m4a,m4v,f4v,f4a,m4b,m4r,f4b,mov)
  • 3GP(3gp,3gp2、3g2、3gpp,3gpp2)
  • OGG(ogg,oga,ogv,ogx)
  • WMV(WMV,WMA,ASF *)

我们应该知道,我们视频的格式可以毫无问题地进行转换。除了视频格式,了解某些音频格式也是一种好习惯。这里是其中的一些:

  • MP3
  • AAC
  • WMA
  • AC3(杜比数字)

现在,我们对两种格式都有一些了解。现在该使用MoviePy库进行转换了。您不会相信这有多么容易。

clip 

我建议将其转换为WAV格式。它与语音识别库配合使用非常好,下一步将对此进行介绍。

第3步 — 语音识别

首先,让我们定义识别器。

r 

现在,我们导入在上一步(步骤2)中创建的音频文件。

audio 

完美!最好的部分到了,这是识别音频文件中的语音。识别器将尝试理解语音并将其转换为文本格式。

with 

最后一步-导出结果

做得好!艰苦的工作已经完成。在此步骤中,我们将仅将识别的语音导出到文本文档中。这将帮助您存储您的工作。我还在代码末尾添加了打印(“ready!”)。这样我们就知道文件何时准备就绪,并且工作可以完成了。

# exporting the result 

恭喜!您已经创建了一个程序,可以将视频转换为音频文件,然后从该音频中提取语音。最后,将识别的语音导出到文本文档中。希望您喜欢阅读这篇文章,并动手做该项目。如果您今天学到新知识,我感到很高兴。 从事这样的动手编程项目是提高您的编码技能的最佳方法。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐