项目介绍
项目名称:Whisper-Youtube
Whisper-Youtube 是一个利用 OpenAI 的 Whisper 模型实现 YouTube 视频转录的项目。Whisper 模型是一个多功能语音识别工具,以大规模多样化的音频数据集进行训练,支持多语言语音识别、语音翻译和语言识别功能。
整体流程
该项目通过一个可操作的 Google Colab 笔记本指导用户如何使用 Whisper 模型将 YouTube 视频的内容转录为文字。用户可以选择探索不同的推理参数,也可以直接使用笔记本的默认设置,将视频的转录文字和音频文件存储到个人的 Google Drive 中。
硬件要求
转录过程依赖于 Google Colab 提供的 GPU。视频转录速度取决于所分配 GPU 的种类和性能指标。即使是 Colab 中性能最低的 GPU 也可以运行任何一种 Whisper 模型。用户需要确保在笔记本中选择了 GPU 作为硬件加速器。
以下是可用的 GPU 类型:
-
T4
- GPU 内存:16 GB
- FP32 teraFLOPS:8.1
- 可用性:免费
-
P100
- GPU 内存:16 GB
- FP32 teraFLOPS:10.6
- 可用性:Colab Pro
-
V100
- GPU 内存:16 GB
- FP32 teraFLOPS:15.7
- 可用性:Colab Pro(稀有)
软件安装
项目会自动下载所需的一系列 Python 库,包括 Whisper 自身。这一过程可能需要一些时间完成。
模型选择
Whisper 提供多个预训练模型,用户可根据需求选择不同的模型进行测试。可选择的模型如下:
- tiny: 39M 参数,~1 GB VRAM,约 32 倍速
- base: 74M 参数,~1 GB VRAM,约 16 倍速
- small: 244M 参数,~2 GB VRAM,约 6 倍速
- medium: 769M 参数,~5 GB VRAM,约 2 倍速
- large: 1550M 参数,~10 GB VRAM,1 倍速
默认提供了一个 'large' 模型供用户选择。
视频选择与转录
用户需要输入想要转录的 YouTube 视频 URL,并可以选择是否将音频文件保存到 Google Drive 中。完成设置后,运行相应的代码单元,系统会开始执行视频的转录。这一过程的耗时取决于视频的长度和所选模型的参数数目。
完成后,项目会生成一个视频转录文件,默认为 .vtt
格式,并将其存储在用户指定的 Google Drive 目录中。
Whisper-Youtube 项目通过上述步骤,提供了一个强大且便捷的工具,帮助用户将 YouTube 视频内容转录为易于分享和保存的文字记录。