项目介绍:OpenAI Whisper API
OpenAI Whisper API 是一个开源的 AI 模型微服务,利用了 OpenAI 的 Whisper API 这一最先进的自动语音识别 (ASR) 系统。这项服务由 Node.js、Bun.sh 和 Typescript 构建,旨在通过 Docker 运行并且无需任何依赖,可为开发者在各种语音和语言相关的应用中提供强大的工具。
功能概述
Whisper API 是一个语音转换为文本的模型,它经过大量的多语言和多任务训练数据训练,包括各种音频文件和录音。这个模型可以处理语言识别、语音翻译等任务,并能够将口语转换为文字。此外,它还能识别语言序列、支持多语言语音识别,并能够在背景噪音存在的情况下工作,非常适合用于视频通话、Zoom会议、YouTube视频以及英文等非聊天应用。
开源与易用性
该 API 的设计简单并易于使用,适合各个水平的开发者使用。作为一个开源项目,它采用 MIT 许可证,这意味着你可以在自己的项目中自由使用。无论是想要转录语音消息、通过一系列系统级优化来提升系统性能,还是想探索 OpenAI Whisper API 的能力,这都是一个值得尝试的起点。
使用方法
OpenAI Whisper API 是一个使用 Node.js、Bun.sh、Typescript 构建的微服务,可以在 Docker 上运行,并且没有任何依赖。它会监听 /transcribe
路由的 MP3 文件并返回文本转录。
本地运行
首先安装 [bun.sh],然后克隆项目目录并执行以下命令:
bun install
bun run dev
完成以上步骤后,访问 http://localhost:3000 或者指定的端口即可。
Docker 部署
你可以通过 Docker Hub 的链接找到相关信息。
Google Cloud Run 部署
克隆项目目录并运行以下命令(替换 PROJECT_ID
为你的 Google Cloud 项目 ID):
docker build --platform linux/amd64 -t gcr.io/PROJECT_ID/whisper-docker .
docker push gcr.io/PROJECT_ID/whisper-docker
gcloud run deploy whisper-docker \
--image gcr.io/PROJECT_ID/whisper-docker \
--region us-central1 \
--allow-unauthenticated \
--project PROJECT_ID
部署成功后,你将获得服务的 URL,可以根据使用部分的说明进行测试。
API 使用说明
你可以通过打开 /ping
端点来测试普通 HTTP 请求。连接 /transcribe
,并发送带有以下内容的 POST 请求:
{
"audio": "BASE64_ENCODED_AUDIO"
}
API 密钥
需要通过 HEADER 传递 OpenAI API 密钥:
Authorization: Bearer OPENAI_KEY
或者通过环境变量设置:
OPENAI_KEY=YOUR_KEY_HERE bun run dev
# 或者
docker run -p 3000:3000 -e OPENAI_KEY=YOUR_KEY_HERE gcr.io/magicbuddy-chat/whisper-docker
# 或在 Cloud Run 中设置环境变量
gcloud run deploy whisper-docker \
--image gcr.io/PROJECT_ID/whisper-docker \
--set-env-vars OPENAI_KEY=YOUR_KEY_HERE \
--region us-central1 \
--allow-unauthenticated \
--project PROJECT_ID
实例应用
我们在 [MagicBuddy,Telegram ChatGPT 机器人] 中使用了 Whisper API。你可以通过以下链接查看 [OpenAI Whisper Docker] 的在线实例:
通过以上信息,你可以更好地理解并使用 OpenAI Whisper API 这个强大的工具进行语音识别和语音处理。