#Whisper

faster-whisper-base - 多语言自动语音识别与转录效率提升的开源工具
CTranslate2自动语音识别faster-whisper模型GithubWhisper开源项目模型转换Huggingface
faster-whisper-base是将OpenAI的Whisper-base模型转换为CTranslate2格式的项目,支持多语言自动语音识别。模型保留FP16精度,用户可以通过CTranslate2的compute_type选项进行模型类型调整,适合需要高效语音转录的应用。
faster-distil-whisper-large-v2 - 通过CTranslate2实现的高效音频转录转换方案
CTranslate2量化自动语音识别模型GithubWhisper开源项目模型转换Huggingface
此项目将distil-whisper/distil-large-v2模型转换为CTranslate2格式,适用于CTranslate2项目如faster-whisper,并支持FP16计算,增强了自动语音识别的性能和效率。
faster-whisper-large-v3-turbo-ct2 - 基于Whisper large-v3的多语言语音识别模型
模型多语言支持faster-whisperWhisper开源项目Huggingface语音识别CTranslate2Github
这是一个基于OpenAI Whisper large-v3模型优化的CTranslate2版本,专注于高效的语音识别。该模型支持100多种语言的转录,兼具准确性和速度。通过faster-whisper库,可以便捷地进行音频转录。模型采用FP16格式存储,计算类型可灵活调整。这为语音识别应用的开发提供了一个强大的工具。
faster-distil-whisper-medium.en - 基于CTranslate2的Whisper medium.en模型语音识别工具
模型faster-whisper模型转换Whisper开源项目Huggingface语音识别CTranslate2Github
该项目将distil-whisper/distil-medium.en模型转换为CTranslate2格式,用于英语语音识别。通过faster-whisper库,实现了高效的音频转录功能。项目提供简洁的Python接口,支持FP16模型权重,并允许灵活选择计算类型。这种优化使得该工具适用于各种需要快速、准确英语语音识别的应用场景。
faster-whisper-small.en - 基于CTranslate2的Whisper小型英语音频转写模型
faster-whisperWhisperHuggingface模型CTranslate2Github自动语音识别开源项目模型转换
本项目是openai/whisper-small.en模型的CTranslate2格式转换版本,专门用于英语音频转写。它可在CTranslate2或相关项目(如faster-whisper)中使用,通过简单的Python代码实现音频到文本的转换。模型权重采用FP16格式,支持加载时调整计算类型。这一转换模型旨在提供高效、准确的音频转写功能,适用于各种需要快速处理英语音频内容的应用场景。
ultravox-v0_3 - 集成语音和文本输入的多模态AI模型
多模态模型WhisperHuggingface模型Llama语音识别Github开源项目Ultravox
Ultravox-v0_3是Fixie.ai开发的多模态语音大语言模型,结合Llama3.1-8B-Instruct和Whisper-small技术。该模型可同时处理语音和文本输入,适用于语音助手、翻译和分析等场景。通过知识蒸馏方法,仅训练多模态适配器,保持基础模型不变。Ultravox在语音识别和翻译任务中展现出优秀性能,为语音交互应用提供了新的可能性。
wav2vec2-large-xlsr-bahasa-indonesia - wav2vec2架构的印尼语语音识别模型
模型印尼语Common VoiceWhisperGithub语音识别Wav2vec2Huggingface开源项目
这是一个开源的印尼语自动语音识别模型,基于wav2vec2-large-xlsr架构。模型使用Common Voice 6.1印尼语数据集训练,测试集词错误率为19.3%。项目提供训练代码仓库和联系方式。值得注意的是,作者已发布新版模型,具有更小体积和更低的5.9% WER。
faster-whisper-tiny.en - 轻量快速的OpenAI Whisper英语语音识别模型
模型Github模型转换Whisper开源项目Huggingface语音识别CTranslate2自然语言处理
faster-whisper-tiny.en是OpenAI Whisper tiny.en模型的CTranslate2优化版本,专门用于英语语音识别。这个模型提供高效的音频转录功能,支持16位浮点量化,可通过faster-whisper库简单集成。它适合需要快速、精确的英语语音转文本解决方案的开发者,特别是在计算资源有限的场景中表现出色。该模型采用MIT许可证,支持音频处理和自动语音识别任务。
whisper-large-v3-turbo - 乌兹别克语语音识别模型的高性能解决方案
WhisperHuggingface模型语音识别模型微调乌兹别克语Github开源项目Common Voice
Whisper Large v3 Turbo是一个针对乌兹别克语优化的语音识别模型,基于OpenAI的Whisper大型模型微调而来。该模型在Common Voice 16.1数据集上训练,在测试集达到28.26%的词错误率,展现了良好的识别能力。模型使用Adam优化器和线性学习率策略,经过1万步训练。这一模型为乌兹别克语自动语音识别应用提供了有效工具。
whisper-tiny.en - Whisper微调的英文语音识别模型
GithubWhisperHuggingface深度学习模型训练数据集语音识别开源项目模型
这是一个基于Whisper-tiny.en模型开发的轻量级语音识别工具,通过Azure数据集训练优化,主要用于英文语音转文本任务。模型采用线性学习率调度和Adam优化器,经过1000步训练后达到44.34%的词错误率。项目采用开源Apache 2.0许可,基于主流深度学习框架开发,便于开发者集成使用。
whisper-tiny.en - 支持时间戳转录的轻量级英语语音识别模型
时间戳开源项目模型Transformers.jsONNX自动语音识别WhisperGithubHuggingface
基于transformers.js开发的轻量级英语语音识别模型,集成ONNX格式权重实现Web端部署。模型支持基础文本转录、时间戳转录及单词级时间戳标记等功能,通过JavaScript可快速实现音频转文本识别。
faster-whisper-medium.en - 优化版Whisper语音识别模型集成CTranslate2框架
语音识别CTranslate2Github模型模型转换faster-whisperWhisperHuggingface开源项目
faster-whisper-medium.en是OpenAI Whisper-medium.en模型的CTranslate2移植版本,专注于英语音频转文本处理。通过CTranslate2框架优化,支持FP16计算类型,提供Python接口实现音频转录功能,输出包含时间戳的文本片段。项目采用MIT许可证开源,主要面向需要语音识别功能的开发场景。
whisper-large-v3-turbo - 精简版Whisper语音识别系统的突破性进展
自动语音识别语音识别Github开源项目模型多语言模型蒸馏HuggingfaceWhisper
Whisper large-v3-turbo通过模型蒸馏技术对原版Whisper进行优化,将解码层从32减少到4层,在仅造成轻微性能损失的情况下显著提升了处理速度。该模型继承了Whisper优秀的多语言处理能力,支持超过100种语言的语音识别和翻译任务,能够适应不同场景的音频输入。基于高效的架构设计,此模型在降低计算资源需求的同时保持了稳定的识别准确率。
faster-whisper-medium - CTranslate2优化的Whisper medium模型支持多语言音频处理
Github模型转换CTranslate2开源项目模型HuggingfaceWhisper机器翻译语音识别
这是OpenAI Whisper medium模型的CTranslate2优化版本,支持100多种语言的音频转录和识别。模型采用float16量化,通过faster-whisper库易于集成。它具有高效的推理速度和较小的内存占用,适合快速、准确处理多语言音频的应用场景。用户可根据需求调整计算类型,平衡性能和资源消耗。该模型为开发者提供了灵活、高效的多语言音频处理解决方案。
faster-distil-whisper-large-v3 - 基于CTranslate2的Whisper语音识别优化模型
语音识别Github开源项目CTranslate2模型模型转换Huggingfacefaster-whisperWhisper
基于distil-whisper/distil-large-v3的CTranslate2转换模型,专注于提升语音识别效率。模型采用FP16格式存储权重,支持多语言转录功能,可灵活调整计算类型。项目提供完整的使用示例和转换文档,方便开发者快速集成和部署。
PhoWhisper-large - 越南语自动语音识别模型PhoWhisper
Github机器学习开源项目越南语模型HuggingfaceWhisperPhoWhisper语音识别
PhoWhisper是一个基于多语言Whisper模型开发的越南语语音识别系统,提供五个不同版本。该模型通过844小时的多方言越南语数据集训练,适用于越南语音转文字、字幕生成等应用场景。在越南语ASR基准测试中表现优异,项目论文已被ICLR 2024收录。
whisper-large-v3-german - 德语语音识别优化模型
自动字幕OpenAI开源项目模型GithubHuggingface德语Whisper语音识别
基于Whisper Large v3,专为德语语音识别优化,在转录、命令识别、字幕生成等方面表现优秀。词错误率为3.002%,字符错误率为0.81%,适合高效使用。