如何一键生成字幕,如何快速处理生肉资源?借助whisper语音识别系统生成.srt字幕文件 手把手教学在Windows、CPU版本下whisper的安装与使用,快速上手!
Whisper是Open AI开源的语音识别网络,支持98中语言,用于语音识别和翻译等任务。我们可以将歌曲的歌词进行识别,将无字幕的视频资源自动生成字母,极大方便了用户。同时,whisper可以在本地运行,充分保障了个人隐私。在识别方面也具有较准确的识别能力。因此想通过本文对whisper的安装和使用进行说明,希望能对正在学习的伙伴给予参考。从不同的测试结果可以看到,whisper的识别效果还是不
目录
一.前言
Whisper是Open AI开源的语音识别网络,支持98中语言,用于语音识别和翻译等任务。我们可以将歌曲的歌词进行识别,将无字幕的视频资源自动生成字母,极大方便了用户。同时,whisper可以在本地运行,充分保障了个人隐私。在识别方面也具有较准确的识别能力。
因此想通过本文对whisper的安装和使用进行说明,希望能对正在学习的伙伴给予参考。
二.本机环境
本设备基于Python环境:3.8.1,pip:23.0.1,torch:2.0.0+cpu
三.安装步骤:
步骤1:下载Git并添加环境变量
1.在以下网址进行安装Git:
https://git-scm.com/download/win
安装过程只需无脑点next,直至安装成功。
win+R进入cmd控制台输入git,若显示如下,则表示安装成功!
若显示’git’ 不是内部或外部命令,也不是可运行的程序,则未安装成功
2.找到git.exe所在的位置,一般在bin下,本机为:
D:\Program Files\Git\bin
3.将git添加到环境变量中
win+R输入Sysdm.cpl进入环境变量配置
双击path
新建一个环境变量路径,填入所找到的git.exe所在的路径
步骤2:下载ffmpeg并添加环境变量
下载地址:
https://github.com/BtbN/FFmpeg-Builds/releases
1.选择 ffmpeg-master-latest-win64-gpl-shared.zip 版本点击下载
2.找到ffmpeg.exe所在的位置,一般在bin下,本机为:
D:\ffmpeg\ffmpeg-master-latest-win64-gpl-shared\bin
3.将ffmpeg添加到环境变量中
win+R输入Sysdm.cpl进入环境变量配置
步骤3:安装pytorch
进入PyTorch官方网站:
https://pytorch.org/
选择cpu版本,最下面一行会提供一个pip命令用于安装torch
这里有个注意点:在原命令基础上加入参数 -i [镜像源地址],即可把国外的源换成国内源,可以极大程度上加快下载速度,命令如下:
pip3 install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple
步骤4:安装whisper
在以上步骤均完成后,即可安装whisper,分别执行以下命令:
pip install git+https://github.com/openai/whisper.git
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
至此,whisper的安装步骤就全部结束了。
四.whisper的应用
应用1:识别mp3歌曲中的歌词
在音频所在文件夹的空白处按住shift,然后鼠标右键单击,打开powershell窗口,如图:
进入PowerShell后,输入命令 :whisper + [你需要识别的音频],就可以开始识别了,首次识别时会先下载模型文件,如图:
这里以识别歌曲 爱在天际.mp3 为例,在PowerShell中输入:
whisper 爱在天际.mp3
识别结果如下:
需要注意的是,在不添加任何参数的情况下,whisper默认以其small模型进行训练。官方的模型有以下几种,分别为tiny、base、small、medium、large。各模型的大小以及速度对比如下图所示:
我们该如何选择其他模型进行语音识别呢?只需在命令后面加入参数即可,如我们要用medium模型识别爱在天际.mp3,只需在PowerShell中输入:
whisper 爱在天际.mp3 --model medium
同样,在首次使用模型的情况下,会先自动下载模型文件,再对音频进行识别
那我们下载的模型会存储在哪里呢?具体位置为
C:\Users[你的用户名].cache\whisper
以本机为例,在以下目录下即可找到所下载的模型文件:
当语音识别完成以后会在相应的目录下生成.vtt .json .str .tsv .txt 文件,其中 .srt 为字幕文件:
对.json .tsv .txt .vtt 文件进行对比:
应用2:识别mp4视频文件,以MV歌曲和英文TED演讲为例进行测试
① whisper识别MV歌曲
识别的操作和命令与.mp3文件的识别无异,命令均为 whisper + [待识别的文件名]
MV:念风及你.mp4识别结果如下:
同样,识别结束后生成了以下文件
② whisper识别TED英文演讲
识别结果可以看出,英文的识别也是毫无压力,识别准确率高:
应用3:whisper识别生成文件.srt字幕的使用
我们对音频识别产生的字幕文件该如何使用呢?
这里借助一个视频软件PotPlayer,该视频软件可以方便的读取.srt文件,在双击文件后就能自动将字幕与原视频对应上。PotPlayer下载地址:
http://potplayer.tv/?lang=zh_CN
PotPlayer安装完成后,接下来只需直接双击.srt文件即可。最后我们来看看字幕效果吧!
爱在天际.mp3
念风及你.mp4
TED演讲:如何有效地学习.mp4
五.结语
从不同的测试结果可以看到,whisper的识别效果还是不错的,最后的字幕的显示结果也讨人欢喜。小伙伴们在使用的过程中也可以尝试使用whisper不同大小的模型进行识别,来提高识别的准确率哦!
当然在具体安装和配置环境的过程中,我还是遇到了不少的问题的,感兴趣的小伙伴可看看我的上一篇博客的踩坑点,希望可以有效的帮助到大家。博客链接我放在下面啦。
最后,特别感谢我同学zeyu对我的帮助!
当然,也感谢大家的大力支持,你们的支持是我前进的最大动力,欢迎大家在评论区积极讨论哦~
更多推荐
所有评论(0)