如何一键生成字幕，如何快速处理生肉资源？借助whisper语音识别系统生成.srt字幕文件手把手教学在Windows、CPU版本下whisper的安装与使用，快速上手！

Whisper是Open AI开源的语音识别网络，支持98中语言，用于语音识别和翻译等任务。我们可以将歌曲的歌词进行识别，将无字幕的视频资源自动生成字母，极大方便了用户。同时，whisper可以在本地运行，充分保障了个人隐私。在识别方面也具有较准确的识别能力。因此想通过本文对whisper的安装和使用进行说明，希望能对正在学习的伙伴给予参考。从不同的测试结果可以看到，whisper的识别效果还是不

RodgeH

7459人浏览 · 2023-03-20 14:02:14

RodgeH · 2023-03-20 14:02:14 发布

一.前言

Whisper是Open AI开源的语音识别网络，支持98中语言，用于语音识别和翻译等任务。我们可以将歌曲的歌词进行识别，将无字幕的视频资源自动生成字母，极大方便了用户。同时，whisper可以在本地运行，充分保障了个人隐私。在识别方面也具有较准确的识别能力。
因此想通过本文对whisper的安装和使用进行说明，希望能对正在学习的伙伴给予参考。

二.本机环境

本设备基于Python环境：3.8.1，pip：23.0.1，torch：2.0.0+cpu
在这里插入图片描述

三.安装步骤：

步骤1：下载Git并添加环境变量

1.在以下网址进行安装Git：

https://git-scm.com/download/win

安装过程只需无脑点next，直至安装成功。

在这里插入图片描述

win+R进入cmd控制台输入git，若显示如下，则表示安装成功！

在这里插入图片描述

若显示’git’ 不是内部或外部命令，也不是可运行的程序，则未安装成功

在这里插入图片描述

2.找到git.exe所在的位置，一般在bin下，本机为：

D:\Program Files\Git\bin

在这里插入图片描述

3.将git添加到环境变量中
win+R输入Sysdm.cpl进入环境变量配置

在这里插入图片描述

双击path
在这里插入图片描述

新建一个环境变量路径，填入所找到的git.exe所在的路径
在这里插入图片描述

步骤2：下载ffmpeg并添加环境变量

下载地址：

https://github.com/BtbN/FFmpeg-Builds/releases

1.选择 ffmpeg-master-latest-win64-gpl-shared.zip 版本点击下载
在这里插入图片描述
2.找到ffmpeg.exe所在的位置，一般在bin下，本机为：

D:\ffmpeg\ffmpeg-master-latest-win64-gpl-shared\bin

在这里插入图片描述

3.将ffmpeg添加到环境变量中
win+R输入Sysdm.cpl进入环境变量配置

在这里插入图片描述

步骤3：安装pytorch

进入PyTorch官方网站：

https://pytorch.org/

选择cpu版本，最下面一行会提供一个pip命令用于安装torch

在这里插入图片描述

这里有个注意点：在原命令基础上加入参数 -i [镜像源地址]，即可把国外的源换成国内源，可以极大程度上加快下载速度，命令如下：

pip3 install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple

在这里插入图片描述

步骤4：安装whisper

在以上步骤均完成后，即可安装whisper，分别执行以下命令：

pip install git+https://github.com/openai/whisper.git

在这里插入图片描述

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

在这里插入图片描述

至此，whisper的安装步骤就全部结束了。

四.whisper的应用

应用1：识别mp3歌曲中的歌词

在音频所在文件夹的空白处按住shift，然后鼠标右键单击，打开powershell窗口，如图：

在这里插入图片描述

进入PowerShell后，输入命令：whisper + [你需要识别的音频]，就可以开始识别了，首次识别时会先下载模型文件，如图：
在这里插入图片描述

这里以识别歌曲爱在天际.mp3 为例，在PowerShell中输入：

whisper 爱在天际.mp3

识别结果如下：
在这里插入图片描述

需要注意的是，在不添加任何参数的情况下，whisper默认以其small模型进行训练。官方的模型有以下几种，分别为tiny、base、small、medium、large。各模型的大小以及速度对比如下图所示：

在这里插入图片描述

我们该如何选择其他模型进行语音识别呢？只需在命令后面加入参数即可，如我们要用medium模型识别爱在天际.mp3，只需在PowerShell中输入：

whisper 爱在天际.mp3 --model medium

同样，在首次使用模型的情况下，会先自动下载模型文件，再对音频进行识别

在这里插入图片描述

那我们下载的模型会存储在哪里呢？具体位置为

C:\Users[你的用户名].cache\whisper

以本机为例，在以下目录下即可找到所下载的模型文件：

在这里插入图片描述

当语音识别完成以后会在相应的目录下生成.vtt .json .str .tsv .txt 文件，其中 .srt 为字幕文件：

在这里插入图片描述

对.json .tsv .txt .vtt 文件进行对比：

在这里插入图片描述

应用2：识别mp4视频文件，以MV歌曲和英文TED演讲为例进行测试

① whisper识别MV歌曲

识别的操作和命令与.mp3文件的识别无异，命令均为 whisper + [待识别的文件名]
MV：念风及你.mp4识别结果如下：

在这里插入图片描述

同样，识别结束后生成了以下文件

在这里插入图片描述

② whisper识别TED英文演讲

识别结果可以看出，英文的识别也是毫无压力，识别准确率高：
在这里插入图片描述

在这里插入图片描述

应用3：whisper识别生成文件.srt字幕的使用

我们对音频识别产生的字幕文件该如何使用呢？
这里借助一个视频软件PotPlayer，该视频软件可以方便的读取.srt文件，在双击文件后就能自动将字幕与原视频对应上。PotPlayer下载地址：

http://potplayer.tv/?lang=zh_CN

PotPlayer安装完成后，接下来只需直接双击.srt文件即可。最后我们来看看字幕效果吧！

爱在天际.mp3
在这里插入图片描述

念风及你.mp4
在这里插入图片描述

TED演讲：如何有效地学习.mp4
在这里插入图片描述

五.结语

从不同的测试结果可以看到，whisper的识别效果还是不错的，最后的字幕的显示结果也讨人欢喜。小伙伴们在使用的过程中也可以尝试使用whisper不同大小的模型进行识别，来提高识别的准确率哦！
当然在具体安装和配置环境的过程中，我还是遇到了不少的问题的，感兴趣的小伙伴可看看我的上一篇博客的踩坑点，希望可以有效的帮助到大家。博客链接我放在下面啦。
最后，特别感谢我同学zeyu对我的帮助！
当然，也感谢大家的大力支持，你们的支持是我前进的最大动力，欢迎大家在评论区积极讨论哦~

链接<点击进入>：我的上一篇博客之whisper踩坑与解决

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生