whisper-youtube - Whisper模型用于YouTube视频的多语言转录和语言识别

项目介绍

Whisper-Youtube 是一个利用 OpenAI 的 Whisper 模型实现 YouTube 视频转录的项目。Whisper 模型是一个多功能语音识别工具，以大规模多样化的音频数据集进行训练，支持多语言语音识别、语音翻译和语言识别功能。

该项目通过一个可操作的 Google Colab 笔记本指导用户如何使用 Whisper 模型将 YouTube 视频的内容转录为文字。用户可以选择探索不同的推理参数，也可以直接使用笔记本的默认设置，将视频的转录文字和音频文件存储到个人的 Google Drive 中。

转录过程依赖于 Google Colab 提供的 GPU。视频转录速度取决于所分配 GPU 的种类和性能指标。即使是 Colab 中性能最低的 GPU 也可以运行任何一种 Whisper 模型。用户需要确保在笔记本中选择了 GPU 作为硬件加速器。

以下是可用的 GPU 类型：

项目会自动下载所需的一系列 Python 库，包括 Whisper 自身。这一过程可能需要一些时间完成。

Whisper 提供多个预训练模型，用户可根据需求选择不同的模型进行测试。可选择的模型如下：

默认提供了一个 'large' 模型供用户选择。

用户需要输入想要转录的 YouTube 视频 URL，并可以选择是否将音频文件保存到 Google Drive 中。完成设置后，运行相应的代码单元，系统会开始执行视频的转录。这一过程的耗时取决于视频的长度和所选模型的参数数目。

完成后，项目会生成一个视频转录文件，默认为 .vtt 格式，并将其存储在用户指定的 Google Drive 目录中。

Whisper-Youtube 项目通过上述步骤，提供了一个强大且便捷的工具，帮助用户将 YouTube 视频内容转录为易于分享和保存的文字记录。