#faster-whisper

faster-whisper学习资料汇总 - 快速高效的语音识别模型

2 个月前

faster-whisper CTranslate2 音频转录 OpenAI Whisper模型性能比较 Github 开源项目热门

2 个月前

Wordcab Transcribe: 革新语音识别的开源解决方案

3 个月前

Wordcab Transcribe 语音识别 API 音频转录 faster-whisper Github 开源项目

3 个月前

实时语音转文字技术：基于Faster-Whisper的高效解决方案

3 个月前

faster-whisper Python 实时转录 Silero VAD NVIDIA GeForce RTX 3060 Github 开源项目

3 个月前

Faster-Whisper: 提升语音识别速度和效率的革新性工具

3 个月前

faster-whisper CTranslate2 音频转录 OpenAI Whisper模型性能比较 Github 开源项目热门

3 个月前

相关项目

faster-whisper

faster-whisper是对OpenAI的Whisper模型的重新实现，基于CTranslate2，这是一个针对Transformer模型的高速推理引擎。该实现在保持相同准确率的前提下，速度比openai/whisper快4倍，内存使用也更少。另外，通过在CPU和GPU上使用8位量化，可以进一步提高效率。该项目适用于需要快速、高效语音转写的场景，特别是处理大量语音数据时的实时应用。

speech-to-text

该开源项目使用Silero VAD技术检测静音部分，并结合Faster-Whisper将音频数据转录为文本。支持多种音频格式（如wav、mp3、ogg）和高级设置，如重复惩罚和无重复ngram大小。其HTML界面允许进行详细配置，并能同步显示转录结果，支持CUDA环境运行，兼容最新的Faster-Whisper版本（1.0.3），提升转录速度和准确性。

wordcab-transcribe

Wordcab Transcribe是一个基于FastAPI的开源语音识别API。它使用faster-whisper进行音频转录，自动调谐谱聚类技术实现说话人分离。该项目具有处理速度快、易于部署、支持批量请求等特点，可通过本地开发或Docker部署。API支持音频文件和YouTube视频的转录，适用于商业用途。

faster-whisper-base

faster-whisper-base是将OpenAI的Whisper-base模型转换为CTranslate2格式的项目，支持多语言自动语音识别。模型保留FP16精度，用户可以通过CTranslate2的compute_type选项进行模型类型调整，适合需要高效语音转录的应用。

faster-whisper-large-v3-turbo-ct2

这是一个基于OpenAI Whisper large-v3模型优化的CTranslate2版本，专注于高效的语音识别。该模型支持100多种语言的转录，兼具准确性和速度。通过faster-whisper库，可以便捷地进行音频转录。模型采用FP16格式存储，计算类型可灵活调整。这为语音识别应用的开发提供了一个强大的工具。

faster-distil-whisper-medium.en

该项目将distil-whisper/distil-medium.en模型转换为CTranslate2格式，用于英语语音识别。通过faster-whisper库，实现了高效的音频转录功能。项目提供简洁的Python接口，支持FP16模型权重，并允许灵活选择计算类型。这种优化使得该工具适用于各种需要快速、准确英语语音识别的应用场景。

faster-whisper-small.en

本项目是openai/whisper-small.en模型的CTranslate2格式转换版本，专门用于英语音频转写。它可在CTranslate2或相关项目（如faster-whisper）中使用，通过简单的Python代码实现音频到文本的转换。模型权重采用FP16格式，支持加载时调整计算类型。这一转换模型旨在提供高效、准确的音频转写功能，适用于各种需要快速处理英语音频内容的应用场景。

faster-whisper-medium.en

faster-whisper-medium.en是OpenAI Whisper-medium.en模型的CTranslate2移植版本，专注于英语音频转文本处理。通过CTranslate2框架优化，支持FP16计算类型，提供Python接口实现音频转录功能，输出包含时间戳的文本片段。项目采用MIT许可证开源，主要面向需要语音识别功能的开发场景。

faster-distil-whisper-large-v3

基于distil-whisper/distil-large-v3的CTranslate2转换模型，专注于提升语音识别效率。模型采用FP16格式存储权重，支持多语言转录功能，可灵活调整计算类型。项目提供完整的使用示例和转换文档，方便开发者快速集成和部署。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com