#faster-whisper
faster-whisper - 基于CTranslate2对OpenAI的Whisper模型的重新实现
Github开源项目音频转录faster-whisperCTranslate2OpenAI Whisper模型性能比较热门
faster-whisper是对OpenAI的Whisper模型的重新实现,基于CTranslate2,这是一个针对Transformer模型的高速推理引擎。该实现在保持相同准确率的前提下,速度比openai/whisper快4倍,内存使用也更少。另外,通过在CPU和GPU上使用8位量化,可以进一步提高效率。该项目适用于需要快速、高效语音转写的场景,特别是处理大量语音数据时的实时应用。
speech-to-text - 实时音频转录系统,兼容多种格式,具备高级配置
Github开源项目Pythonfaster-whisper实时转录Silero VADNVIDIA GeForce RTX 3060
该开源项目使用Silero VAD技术检测静音部分,并结合Faster-Whisper将音频数据转录为文本。支持多种音频格式(如wav、mp3、ogg)和高级设置,如重复惩罚和无重复ngram大小。其HTML界面允许进行详细配置,并能同步显示转录结果,支持CUDA环境运行,兼容最新的Faster-Whisper版本(1.0.3),提升转录速度和准确性。
wordcab-transcribe - 开源语音识别与说话人分离API
Github开源项目音频转录语音识别faster-whisperAPIWordcab Transcribe
Wordcab Transcribe是一个基于FastAPI的开源语音识别API。它使用faster-whisper进行音频转录,自动调谐谱聚类技术实现说话人分离。该项目具有处理速度快、易于部署、支持批量请求等特点,可通过本地开发或Docker部署。API支持音频文件和YouTube视频的转录,适用于商业用途。
faster-whisper-base - 多语言自动语音识别与转录效率提升的开源工具
Github开源项目Whisperfaster-whisperCTranslate2模型模型转换Huggingface自动语音识别
faster-whisper-base是将OpenAI的Whisper-base模型转换为CTranslate2格式的项目,支持多语言自动语音识别。模型保留FP16精度,用户可以通过CTranslate2的compute_type选项进行模型类型调整,适合需要高效语音转录的应用。
faster-whisper-large-v3-turbo-ct2 - 基于Whisper large-v3的多语言语音识别模型
Github开源项目多语言支持Whisper语音识别faster-whisperCTranslate2模型Huggingface
这是一个基于OpenAI Whisper large-v3模型优化的CTranslate2版本,专注于高效的语音识别。该模型支持100多种语言的转录,兼具准确性和速度。通过faster-whisper库,可以便捷地进行音频转录。模型采用FP16格式存储,计算类型可灵活调整。这为语音识别应用的开发提供了一个强大的工具。
faster-distil-whisper-medium.en - 基于CTranslate2的Whisper medium.en模型语音识别工具
Github开源项目Whisper语音识别faster-whisperCTranslate2模型模型转换Huggingface
该项目将distil-whisper/distil-medium.en模型转换为CTranslate2格式,用于英语语音识别。通过faster-whisper库,实现了高效的音频转录功能。项目提供简洁的Python接口,支持FP16模型权重,并允许灵活选择计算类型。这种优化使得该工具适用于各种需要快速、准确英语语音识别的应用场景。
faster-whisper-small.en - 基于CTranslate2的Whisper小型英语音频转写模型
Github开源项目Whisperfaster-whisperCTranslate2模型模型转换Huggingface自动语音识别
本项目是openai/whisper-small.en模型的CTranslate2格式转换版本,专门用于英语音频转写。它可在CTranslate2或相关项目(如faster-whisper)中使用,通过简单的Python代码实现音频到文本的转换。模型权重采用FP16格式,支持加载时调整计算类型。这一转换模型旨在提供高效、准确的音频转写功能,适用于各种需要快速处理英语音频内容的应用场景。
faster-whisper-medium.en - 优化版Whisper语音识别模型集成CTranslate2框架
Github开源项目Whisper语音识别faster-whisperCTranslate2模型模型转换Huggingface
faster-whisper-medium.en是OpenAI Whisper-medium.en模型的CTranslate2移植版本,专注于英语音频转文本处理。通过CTranslate2框架优化,支持FP16计算类型,提供Python接口实现音频转录功能,输出包含时间戳的文本片段。项目采用MIT许可证开源,主要面向需要语音识别功能的开发场景。
faster-distil-whisper-large-v3 - 基于CTranslate2的Whisper语音识别优化模型
Github开源项目Whisper语音识别faster-whisperCTranslate2模型模型转换Huggingface
基于distil-whisper/distil-large-v3的CTranslate2转换模型,专注于提升语音识别效率。模型采用FP16格式存储权重,支持多语言转录功能,可灵活调整计算类型。项目提供完整的使用示例和转换文档,方便开发者快速集成和部署。
相关文章