stt 项目介绍
stt 是一个离线运行的本地语音识别转文字工具,基于 fast-whisper 开源模型开发。它能够将视频或音频中的人类语音识别并转换为文字,支持输出 JSON 格式、SRT 字幕带时间戳格式以及纯文本格式。
主要特点
-
离线运行:无需联网,可在本地环境中独立运行。
-
多模型支持:内置 tiny 模型,同时支持 base、small、medium 和 large-v3 等多种模型,用户可根据需求选择。
-
多语言支持:支持中文、英语、法语、德语、日语等多种语言的语音识别。
-
多格式输出:可选择输出 JSON、SRT 字幕或纯文本格式。
-
高准确率:识别准确率基本等同于 OpenAI 官方 API 接口。
-
CUDA 加速:支持 NVIDIA GPU 加速,提高处理速度。
使用方法
stt 项目提供了两种使用方式:
-
预编译 Windows 版:用户可直接下载预编译文件,解压后双击 start.exe 运行。
-
源码部署:支持 Linux、Mac 和 Windows 系统,用户需按步骤配置环境并运行源码。
API 接口
stt 还提供了 API 接口,方便开发者集成到自己的项目中。接口支持通过 POST 请求上传音视频文件,并可指定语言、模型和输出格式。
注意事项
- 使用 large 或 large-v3 模型时需注意内存占用。
- 中文识别结果可能包含繁体字。
- CUDA 加速需正确配置 NVIDIA 显卡驱动和 CUDA 环境。
总结
stt 项目为用户提供了一个强大、灵活且易用的语音识别工具。无论是个人用户还是开发者,都可以通过 stt 快速实现高质量的语音转文字功能,为音视频处理、字幕生成等应用提供有力支持。