如何用Fast Whisper搭建自己的语音转录助手

如何用Fast Whisper搭建自己的语音转录助手
本图片由AI生成

 

Whisper是一个用于语音识别和转录的机器学习模型,由OpenAI创建,并于2022年9月首次作为开源软件发布。

它能够转录英语和其他几种语言的语音,并且还能够将几种非英语语言翻译成英语。OpenAI声称,与之前的方法相比,在开发过程中使用的不同训练数据的组合提高了对口音、背景噪音和行话的识别。

faster whisper使用CTranslate2重新实现了OpenAI的Whisper模型,CTranslate2是Transformer模型的快速推理引擎。这种实现比openai/whisper在使用更少内存的情况下达到相同精度的4倍。在CPU和GPU上同时进行8位量化可以进一步提高效率。

fast whisper的好处之一是可以在cpu上运行,这样一来,即使你没有一块好的高端独立显卡,也可以运行fast whisper了。

我尝试了让fast whisper帮我识别了一首mp3歌曲 – 小幸运,识别结果如下图:

如何用Fast Whisper搭建自己的语音转录助手

要求
Python 3.8 或更高版本
与 openai-whisper 不同,系统无需安装 FFmpeg。音频解码使用 Python 库 PyAV,该库的软件包中捆绑了 FFmpeg 库。

图形处理器
GPU 执行需要安装以下英伟达™(NVIDIA®)库:

用于 CUDA 11 的 cuBLAS
用于 CUDA 11 的 cuDNN 8

安装
该模块可从 PyPI 安装:

在git命令行输入pip install faster-whisper,等待安装完成就可以了。

使用:

编写如下代码并命名为test.py

from faster_whisper import WhisperModel

model_size = “large-v3″

# Run on GPU with FP16
#model = WhisperModel(model_size, device=”cuda”, compute_type=”float16″)

# or run on GPU with INT8
# model = WhisperModel(model_size, device=”cuda”, compute_type=”int8_float16″)
# or run on CPU with INT8
model = WhisperModel(model_size, device=”cpu”, compute_type=”int8″)

segments, info = model.transcribe(“audio.mp3”, beam_size=5)

print(“Detected language ‘%s’ with probability %f” % (info.language, info.language_probability))

for segment in segments:
print(“[%.2fs -> %.2fs] %s” % (segment.start, segment.end, segment.text))

然后把mp3文件放在和test.py同一个目录下

在该目录下运行cmd命令行,输入test.py

过一会就会得到运行结果了。

运行文件下载链接

原创文章,作者:清凉油,如若转载,请注明出处:http://www.kzd001.com/971.html

(0)
上一篇 2024年2月6日 下午3:32
下一篇 2024年2月20日 下午4:51

相关推荐