项目介绍:Transcribe
Transcribe 是一款实时语音转文字应用,专为希望简化语音转写和对话响应的用户而设计。通过利用 OpenAI 的 chatGPT 或兼容的 API 提供商,该项目能根据当前对话动态生成建议响应。
项目特色
免费及多语言支持
Transcribe 的大部分功能对用户免费开放,并且支持多种语言。用户可以选择使用 OpenAI 提供的 GPT-4o、4、3.5 模型或其他多种推理模型。项目中整合的 GPT 模型使跨平台开发变得更加无缝,有Windows、Raspberry Pi、Linux Mini PC 和 Mac Mini等支持。
实时流响应
与其他类似应用不同,Transcribe 能够在对话进行时实时生成语言模型(LLM)的响应,用户无需等待完整回复便可获得中途信息。
丰富的输入选择及安装简易性
用户可选择音频输入设备,诸如麦克风或扬声器,甚至可同时选择。使用 Transcribe 无需依赖 python 或其他繁杂的依赖库,其安装简单便捷。
安全性
Transcribe 非常重视安全性,包含多个安全功能,如使用 GitGuardian 做秘钥扫描、Bandit 和 Snyk 做静态代码分析,保障任何网络通信的安全传输,以及通过严格的依赖扫描来保证项目安全。
关键功能
- 多语言支持:支持多种语言的语音实时转写。
- 实时响应生成:使用 GPT 模型提供对话建议。
- 对话总结及历史保存:每次对话都可以生成文字总结,并可保存历史记录。
- 自定义选项:多种自定义选项,让用户根据需要调整响应方式及对话内容。
- 离线和在线语音识别:离线识别免费,在线识别基于 OpenAI Whisper 或 Deepgram 有偿提供,建议首选 OpenAI Whisper。
- 多推理引擎:包括 OpenAI, Together, Perplexity 及 Azure 托管的 OpenAI。部分用户反馈 Azure 支持需要特别代码调整。
安装指南
必备条件
- 操作系统:Windows
- Python 版本:>=3.11.0
- FFmpeg
安装步骤
-
安装 FFmpeg:推荐使用 Chocolatey,Windows 下的包管理工具。管理员模式下打开 PowerShell,运行以下命令:
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
安装完成 Chocolatey 后,运行以下命令安装 FFmpeg:
choco install ffmpeg
-
克隆仓库并运行设置:
git clone https://github.com/vivekuppal/transcribe
然后运行
setup.bat
文件来启动项目环境。 -
(可选)配置 OpenAI API Key:在
transcribe
目录下的override.yaml
文件中添加 OpenAI API Key:OpenAI: api_key: 'API_KEY'
记得将 "API_KEY" 替换为实际的 OpenAI API Key。
-
运行程序:在
app\transcribe\
目录下运行主程序:python main.py
结论
Transcribe 为需要实时语音转写功能的用户提供了一个强大且灵活的工具,其特色功能、易用性、安全性和对 OpenAI 的支持使之成为一个值得信赖的选择。通过社区的贡献,项目得以迅速发展,不断完善。当前,欢迎有兴趣的开发者为项目贡献力量。