STT - 强大的离线语音识别转文字工具
STT是一款功能强大的本地语音识别转文字工具,基于fast-whisper开源模型开发,可以将视频和音频中的人声识别并转换为文字。它支持多种输出格式,包括JSON、带时间戳的SRT字幕以及纯文本格式,为用户提供了灵活的选择。
主要特点
- 完全离线运行,保护隐私
- 支持多种语言识别
- 识别准确率高,可媲美OpenAI官方API
- 多种输出格式:JSON、SRT字幕、纯文本
- 内置base模型,可自行下载更大模型提升效果
使用方法
- 从GitHub Releases页面下载预编译版本
- 解压后运行start.exe,等待浏览器自动打开
- 上传音视频文件,选择语言和输出格式
- 点击"立即开始识别"即可获得转换结果
高级功能
- 支持CUDA加速,提高识别速度
- 提供API接口,方便集成到其他系统
- 可自定义模型,balance效果和资源消耗
学习资源
STT为用户提供了一个强大而灵活的离线语音识别解决方案,无论是个人使用还是企业部署,都是一个值得尝试的工具。欢迎大家下载使用,如有问题可在GitHub提issue讨论。