文本文档代码大全简单_AI教程工具箱系列|5行/10分钟代码 — 使用Python从视频中提取语音...
作者:Behic Guven编译:Florence Wong – AICUG本文系AICUG翻译原创,如需转载请联系(微信号:834436689)以获得授权使用Google Speech Recognition API的简单动手项目在这篇文章中,我将向您展示如何从视频录制文件中提取语音。识别语音后,我们会将其转换为文本文档。这将是一个简单的机器学习项目,可帮助您了解Google语音识别库的一些基础
作者:Behic Guven
编译:Florence Wong – AICUG
本文系AICUG翻译原创,如需转载请联系(微信号:834436689)以获得授权
使用Google Speech Recognition API的简单动手项目
在这篇文章中,我将向您展示如何从视频录制文件中提取语音。识别语音后,我们会将其转换为文本文档。这将是一个简单的机器学习项目,可帮助您了解Google语音识别库的一些基础知识。语音识别,是机器学习概念下的热门话题。语音识别,在许多领域都得到了越来越多的使用。例如,我们在Netflix节目,或YouTube视频上,看到的字幕主要是由使用人工智能的机器创建的。语音识别器的其他出色示例,还包括个人语音助手,例如Google的Home Mini,亚马逊的Alexa,苹果的Siri。
目录:
- 入门
- 步骤1:导入库
- 第2步:视频到音频的转换
- 步骤3:语音识别
- 最后一步:导出结果
入门
正如您从标题中所了解的那样,我们将需要为此项目录制视频。它甚至可以是,您自己对着摄像机讲话的视频记录。使用名为MoviePy的库,我们将从录像中提取音频。下一步,我们将使用Google的语音识别(Speech Recognition)库,将该音频文件转换为文本。如果您已经准备好了,那就开始安装库吧!
库
我们将为此项目使用两个库:
- 语音识别(Speech Recognition)
- MoviePy
在将他们导入我们的项目文件之前,我们必须先安装他们。在python中,安装模块库非常容易。您甚至可以在一行代码中安装几个库。在您的终端窗口中写以下行:
pip
是的,就是这样。 SpeechRecognition模块支持多种识别API,而Google Speech API就是其中之一。您可以从此处了解有关该模块的更多信息:
SpeechRecognitionpypi.orgMoviePy是一个库,可以读取和写入所有最常见的音频和视频格式,包括GIF。如果在安装moviepy库时遇到问题,请尝试安装ffmpeg。 Ffmpeg是领先的多媒体框架,能够解码,编码,转码,mux,demux,流,过滤和播放人类和机器创建的几乎所有内容。
现在,我们应该在代码编辑器中编写代码。我们将从导入库开始。
第1步 — 导入库
import
是的,这就是我们完成任务所需要的。在不浪费时间的情况下,让我们继续下一步。
第2步 — 视频到音频转换
在这一步中,我们将做一些非常酷的事情,即将视频记录转换为音频文件。视频格式很多,其中一些可以列出为:
- MP4(mp4,m4a,m4v,f4v,f4a,m4b,m4r,f4b,mov)
- 3GP(3gp,3gp2、3g2、3gpp,3gpp2)
- OGG(ogg,oga,ogv,ogx)
- WMV(WMV,WMA,ASF *)
我们应该知道,我们视频的格式可以毫无问题地进行转换。除了视频格式,了解某些音频格式也是一种好习惯。这里是其中的一些:
- MP3
- AAC
- WMA
- AC3(杜比数字)
现在,我们对两种格式都有一些了解。现在该使用MoviePy库进行转换了。您不会相信这有多么容易。
clip
我建议将其转换为WAV格式。它与语音识别库配合使用非常好,下一步将对此进行介绍。
第3步 — 语音识别
首先,让我们定义识别器。
r
现在,我们导入在上一步(步骤2)中创建的音频文件。
audio
完美!最好的部分到了,这是识别音频文件中的语音。识别器将尝试理解语音并将其转换为文本格式。
with
最后一步-导出结果
做得好!艰苦的工作已经完成。在此步骤中,我们将仅将识别的语音导出到文本文档中。这将帮助您存储您的工作。我还在代码末尾添加了打印(“ready!”)。这样我们就知道文件何时准备就绪,并且工作可以完成了。
# exporting the result
恭喜!您已经创建了一个程序,可以将视频转换为音频文件,然后从该音频中提取语音。最后,将识别的语音导出到文本文档中。希望您喜欢阅读这篇文章,并动手做该项目。如果您今天学到新知识,我感到很高兴。 从事这样的动手编程项目是提高您的编码技能的最佳方法。
更多推荐
所有评论(0)