docker-whisperX
这是社区版WhisperX:具有词级时间戳(和说话人分离)的自动语音识别的docker镜像。
本项目的目标是在GitHub免费运行器上每周高效管理持续集成docker构建工作流程。这包括并行构建175个Docker镜像,每个大小为10GB。为确保顺利运行,我专注于高效利用docker层缓存,最大化层重用,仔细管理缓存读/写顺序以防止任何问题,并优化以最小化镜像大小和构建时间。
此外,出于个人偏好,我致力于尽我所能遵循最佳实践、行业标准和政策。
在GitHub获取Dockerfile,或从ghcr.io拉取镜像。
🚀 为GPU支持准备Docker
Windows
安装Docker Desktop、CUDA Toolkit、NVIDIA Windows驱动程序,并确保Docker使用WSL2运行后,即可开始使用。
以下是官方文档供进一步参考。
https://docs.nvidia.com/cuda/wsl-user-guide/index.html#nvidia-compute-software-support-on-wsl-2
https://docs.docker.com/desktop/wsl/use-wsl/#gpu-support
Linux, OSX
如果尚未安装NVIDIA GPU驱动程序,请先安装。
https://docs.nvidia.com/datacenter/tesla/tesla-installation-notes/index.html
按照此指南安装NVIDIA Container Toolkit。
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
📦 可用的预构建镜像
[!注意]
这些镜像中的WhisperX代码库与git子模块提交哈希一致。
我有一个定期运行的CI工作流程每周针对主分支重建所有docker镜像。
docker run --gpus all -it -v ".:/app" ghcr.io/jim60105/whisperx:base-en -- --output_format srt audio.mp3
docker run --gpus all -it -v ".:/app" ghcr.io/jim60105/whisperx:large-v3-ja -- --output_format srt audio.mp3
docker run --gpus all -it -v ".:/app" ghcr.io/jim60105/whisperx:no_model -- --model tiny --language en --output_format srt audio.mp3
镜像标签格式为WHISPER_MODEL
-LANG
,例如tiny-en
、base-de
或large-v3-zh
。
请注意,whisper模型*.en
和large-v1
已被排除,因为我认为它们不常用。如果你需要这些模型,请参考以下部分自行构建。
你可以在ghcr.io找到所有可用标签。
另外,还有一个no_model
标签,不包含任何预下载的模型,也称为latest
。
⚡️ 处理不同语言时保留对齐模型的下载缓存
你可以挂载/.cache
以在容器间共享对齐模型。
请在此场景下使用no_model
(latest
)标签。
docker run --gpus all -it -v ".:/app" -v whisper_cache:/.cache ghcr.io/jim60105/whisperx:latest -- --model large-v3 --language en --output_format srt audio.mp3
🛠️ 构建Docker镜像
[!重要]
请递归克隆Git仓库以包含子模块:
git clone --recursive https://github.com/jim60105/docker-whisperX.git
构建参数
Dockerfile构建包含模型的镜像。它接受两个构建参数:LANG
和WHISPER_MODEL
。
LANG
:要转录的语言。默认为en
。支持的语言请参见这里。WHISPER_MODEL
:模型名称。默认为base
。支持的模型请参见fast-whisper。
如果需要多种语言对齐,构建镜像时使用空格分隔的语言列表"LANG=pl fr en"
。还要注意,WhisperX在处理同一音频文件中的多种语言时表现不佳。即使你不提供语言参数,它仍会识别语言(或回退到英语)并用于选择对齐模型。对齐模型是特定于语言的。这个说明仅用于将多个对齐模型嵌入到docker镜像中。
构建命令
[!NOTE] 如果您使用的是较早版本的 Docker 客户端,在构建镜像时需要启用 BuildKit 模式。这是因为我使用了
COPY --link
功能,它可以提高构建性能,并在 Buildx v0.8 中引入。 在 Docker Engine 23.0 和 Docker Desktop 4.19 中,Buildx 已成为默认的构建客户端。因此,使用最新版本时您无需担心这一点。
例如,如果您想构建使用 en
语言和 large-v3
模型的镜像:
docker build --build-arg LANG=en --build-arg WHISPER_MODEL=large-v3 -t whisperx:large-v3-en .
如果您想构建不预下载任何模型的镜像:
docker build --target no_model -t whisperx:no_model .
如果您想一次性构建所有镜像,我们提供了一个 Docker bake 文件:
[!WARNING] Bake 目前是一个实验性功能,可能需要额外配置才能正常运行。
docker buildx bake build no_model ubi-no_model
使用命令
将当前目录挂载为 /app
并运行 WhisperX,同时传入额外的输入参数:
docker run --gpus all -it -v ".:/app" whisperx:large-v3-ja -- --output_format srt audio.mp3
[!NOTE] 请记住在参数前加上
--
。--model
和--language
参数已在 Dockerfile 中定义,无需再次指定。
⛑️ 基于 Red Hat UBI 的镜像
我创建了一个替代的 ubi.Dockerfile,它基于 Red Hat Universal Base Image (UBI) 镜像,而不是默认使用的 Python 官方镜像。如果您是 Red Hat 订阅用户,我相信您会发现它的优势。
[!TIP] 随着 Red Hat Universal Base Image (UBI) 的发布,无论您是否是客户,现在都可以在运行 OCI 兼容 Linux 容器的地方利用官方 Red Hat 容器镜像的更高可靠性、安全性和性能。-- Red Hat 博客
需要注意的是,使用 UBI 并不需要从 Red Hat 获得许可,但如果您是订阅用户并在 RHEL/OpenShift 上运行它,您可能会得到 Red Hat 的支持。
尽管我最初有所犹豫,但我决定不将 UBI 版本作为默认镜像。Python 官方镜像 的用户群明显大于 UBI,我认为选择它更符合公众期望。尽管如此,我仍建议您尝试 UBI 版本。
请参考我们扫描工作流程产物中的最新漏洞扫描报告。您可以看到,与 Python 官方镜像 版本相比,UBI 版本的漏洞较少。
您可以在标签 ubi-no_model
获取预构建的镜像。请注意,只有 no_model
可用。您可以根据需要使用 ubi.Dockerfile 自行构建镜像。这个 Dockerfile 支持与默认版本相同的构建参数。
docker run --gpus all -it -v ".:/app" ghcr.io/jim60105/whisperx:ubi-no_model -- --model tiny --language en --output_format srt audio.mp3
[!WARNING] 免责声明: 我已按照 Red Hat 容器认证要求 中规定的规范创建了镜像,但我不会追求实际的认证。
📝 许可证
主程序 WhisperX 是根据 BSD-4 许可证 分发的。 请查阅他们的仓库以获取源代码和许可证。
本仓库中的 Dockerfile 和 CI 工作流程文件根据 MIT 许可证 授权。