Project Icon

insanely-fast-whisper-api

音频转文字的高速开源API,支持GPU云部署与并发处理

这是一款基于OpenAI Whisper Large v3的API,能够高速将音频转录为文字。此开源项目支持在任意支持GPU的云提供商上部署,内置说话人分离功能,提供易用的Fast API层、异步后台任务和Webhooks,优化了并发处理。支持任务管理、取消与状态查询,拥有安全的管理员认证访问。通过Docker可以轻松部署到包括Fly.io在内的多种VM环境,实现高效的生产用途。

项目介绍:Insanely Fast Whisper API

Insanely Fast Whisper API 是一个音频转文本服务的接口,利用 OpenAI 的 Whisper Large v3 模型进行高效的音频转录。该项目背后使用的是 🤗 Transformers、Optimum 和 flash-attn 技术,以确保快速处理和高性能表现。

功能简介

  • 🎤 极速转录:能够以极快的速度将音频转换为文本。
  • 📖 完全开源:支持在任何支持 GPU 的云服务提供商上进行部署。
  • 🗣️ 内建发言者区分:支持识别不同说话者的声音片段。
  • 简单易用的 API 层:快速的接口调用体验。
  • 📃 异步背景任务和网络钩子:支持异步处理和任务完成后的自动通知。
  • 🔥 并发和并行处理优化:适合大规模的生产环境。
  • 完善的任务管理:任务支持取消和状态查询。
  • 🔒 管理员认证:提供安全的 API 访问。
  • 🧩 完整管理的 API:可在 JigsawStack 上使用,支持云端高扩展性。

背景与技术

该项目基于 Insanely Fast Whisper CLI 项目,旨在通过 Docker 在云基础设施(尤其是在支持 GPU 的服务上)上提供可部署的转录 API。用户可以选择在 Fly.io 上进行部署,该平台近日刚推出了 GPU 相关服务,配置文件的设置使得部署变得极为简单。

性能测试

经过在 Nvidia A100 - 80GB 和 Fly.io 的 GPU 基础设施上的一系列性能测试,该服务在优化条件下,能够在大约2分钟内处理150分钟的音频内容。

Docker 镜像

用户可以通过 Docker Hub 获取最新的镜像使用:

yoeven/insanely-fast-whisper-api:latest

部署指导

在 Fly.io 上部署

  • 确保已经获取 Fly.io 的 GPU 使用权限。
  • 克隆项目并进入项目根目录。
  • 根据需要重命名 fly.toml 文件中的 app 名称。
  • 删除 fly.toml 文件中的镜像配置行来重新构建 Docker 镜像。

初始部署可能会因为镜像较大而耗时较长,但之后的更新会更快。可以通过设置环境变量来配置发言者区分或 API 安全认证。

在其他云提供商上部署

由于项目是 Docker 化应用,只需对配置进行少量调整即可在任何支持 Docker 和 GPU 的云服务上部署。

API 使用说明

认证

设置 ADMIN_KEY 之后,需要在请求头中使用 x-admin-api-key 进行身份认证。

主要 API 接口

  • POST /:用于转录或翻译音频。
  • GET /tasks:获取所有活动中的转录任务。
  • GET /status/{task_id}:查询某一任务的状态。
  • DELETE /cancel/{task_id}:取消异步任务。

本地运行

可以在本地克隆代码库并按照指引配置 Python 环境,运行为局域网提供服务。

补充功能

项目还支持程序化关闭 Fly 机器,以节省云资源费用。当 API 不再需要使用时,可以通过发出一个 POST 请求来关闭机器。

鸣谢

感谢 Vaibhav Srivastav 编写了项目代码的大部分及 CLI 版本,并感谢 OpenAI 提供的 Whisper 模型。

JigsawStack

这是 JigsawStack 项目集的一部分,致力于提供高性价比的强大 API 服务。用户可免费注册使用。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号