文本文档代码大全简单_AI教程工具箱系列|5行/10分钟代码 — 使用Python从视频中提取语音...

weixin_40001275

508人浏览 · 2020-11-27 04:59:06

weixin_40001275 · 2020-11-27 04:59:06 发布

作者：Behic Guven

编译：Florence Wong – AICUG

本文系AICUG翻译原创，如需转载请联系（微信号：834436689）以获得授权

使用Google Speech Recognition API的简单动手项目

在这篇文章中，我将向您展示如何从视频录制文件中提取语音。识别语音后，我们会将其转换为文本文档。这将是一个简单的机器学习项目，可帮助您了解Google语音识别库的一些基础知识。语音识别，是机器学习概念下的热门话题。语音识别，在许多领域都得到了越来越多的使用。例如，我们在Netflix节目，或YouTube视频上，看到的字幕主要是由使用人工智能的机器创建的。语音识别器的其他出色示例，还包括个人语音助手，例如Google的Home Mini，亚马逊的Alexa，苹果的Siri。

目录：

入门
步骤1：导入库
第2步：视频到音频的转换
步骤3：语音识别
最后一步：导出结果

图片作者Alexandre Pellaes，出处 Unsplash

入门

正如您从标题中所了解的那样，我们将需要为此项目录制视频。它甚至可以是，您自己对着摄像机讲话的视频记录。使用名为MoviePy的库，我们将从录像中提取音频。下一步，我们将使用Google的语音识别（Speech Recognition）库，将该音频文件转换为文本。如果您已经准备好了，那就开始安装库吧！

库

我们将为此项目使用两个库：

语音识别（Speech Recognition）
MoviePy

在将他们导入我们的项目文件之前，我们必须先安装他们。在python中，安装模块库非常容易。您甚至可以在一行代码中安装几个库。在您的终端窗口中写以下行：

pip

是的，就是这样。 SpeechRecognition模块支持多种识别API，而Google Speech API就是其中之一。您可以从此处了解有关该模块的更多信息：

SpeechRecognitionpypi.org

MoviePy是一个库，可以读取和写入所有最常见的音频和视频格式，包括GIF。如果在安装moviepy库时遇到问题，请尝试安装ffmpeg。 Ffmpeg是领先的多媒体框架，能够解码，编码，转码，mux，demux，流，过滤和播放人类和机器创建的几乎所有内容。

现在，我们应该在代码编辑器中编写代码。我们将从导入库开始。

第1步 — 导入库

import

是的，这就是我们完成任务所需要的。在不浪费时间的情况下，让我们继续下一步。

第2步 — 视频到音频转换

在这一步中，我们将做一些非常酷的事情，即将视频记录转换为音频文件。视频格式很多，其中一些可以列出为：

MP4（mp4，m4a，m4v，f4v，f4a，m4b，m4r，f4b，mov）
3GP（3gp，3gp2、3g2、3gpp，3gpp2）
OGG（ogg，oga，ogv，ogx）
WMV（WMV，WMA，ASF *）

我们应该知道，我们视频的格式可以毫无问题地进行转换。除了视频格式，了解某些音频格式也是一种好习惯。这里是其中的一些：

MP3
AAC
WMA
AC3（杜比数字）

现在，我们对两种格式都有一些了解。现在该使用MoviePy库进行转换了。您不会相信这有多么容易。

clip

我建议将其转换为WAV格式。它与语音识别库配合使用非常好，下一步将对此进行介绍。

第3步 — 语音识别

首先，让我们定义识别器。

现在，我们导入在上一步（步骤2）中创建的音频文件。

audio

完美！最好的部分到了，这是识别音频文件中的语音。识别器将尝试理解语音并将其转换为文本格式。

with

最后一步-导出结果

做得好！艰苦的工作已经完成。在此步骤中，我们将仅将识别的语音导出到文本文档中。这将帮助您存储您的工作。我还在代码末尾添加了打印（“ready!”）。这样我们就知道文件何时准备就绪，并且工作可以完成了。

# exporting the result

恭喜！您已经创建了一个程序，可以将视频转换为音频文件，然后从该音频中提取语音。最后，将识别的语音导出到文本文档中。希望您喜欢阅读这篇文章，并动手做该项目。如果您今天学到新知识，我感到很高兴。从事这样的动手编程项目是提高您的编码技能的最佳方法。

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

Kaldi之父，IEEE Fellow，小米首席语音科学家Daniel Povey将出席2024全球机器学习技术大会并发表演讲！

CSDN学习社区

cover

探索神经网络在商品销售和图像识别中的应用

CSDN学习社区

cover

基于stm32F103的座面声控台灯

CSDN学习社区

所有评论(0)

查看更多评论

weixin_40001275

@weixin_40001275

已为社区贡献1条内容