#Whisper

faster-whisper-base - 多语言自动语音识别与转录效率提升的开源工具

CTranslate2自动语音识别faster-whisper模型GithubWhisper开源项目模型转换Huggingface

faster-whisper-base是将OpenAI的Whisper-base模型转换为CTranslate2格式的项目，支持多语言自动语音识别。模型保留FP16精度，用户可以通过CTranslate2的compute_type选项进行模型类型调整，适合需要高效语音转录的应用。

faster-distil-whisper-large-v2 - 通过CTranslate2实现的高效音频转录转换方案

CTranslate2量化自动语音识别模型GithubWhisper开源项目模型转换Huggingface

此项目将distil-whisper/distil-large-v2模型转换为CTranslate2格式，适用于CTranslate2项目如faster-whisper，并支持FP16计算，增强了自动语音识别的性能和效率。

faster-whisper-large-v3-turbo-ct2 - 基于Whisper large-v3的多语言语音识别模型

模型多语言支持faster-whisperWhisper开源项目Huggingface语音识别CTranslate2Github

这是一个基于OpenAI Whisper large-v3模型优化的CTranslate2版本，专注于高效的语音识别。该模型支持100多种语言的转录，兼具准确性和速度。通过faster-whisper库，可以便捷地进行音频转录。模型采用FP16格式存储，计算类型可灵活调整。这为语音识别应用的开发提供了一个强大的工具。

faster-distil-whisper-medium.en - 基于CTranslate2的Whisper medium.en模型语音识别工具

模型faster-whisper模型转换Whisper开源项目Huggingface语音识别CTranslate2Github

该项目将distil-whisper/distil-medium.en模型转换为CTranslate2格式，用于英语语音识别。通过faster-whisper库，实现了高效的音频转录功能。项目提供简洁的Python接口，支持FP16模型权重，并允许灵活选择计算类型。这种优化使得该工具适用于各种需要快速、准确英语语音识别的应用场景。

faster-whisper-small.en - 基于CTranslate2的Whisper小型英语音频转写模型

faster-whisperWhisperHuggingface模型CTranslate2Github自动语音识别开源项目模型转换

本项目是openai/whisper-small.en模型的CTranslate2格式转换版本，专门用于英语音频转写。它可在CTranslate2或相关项目（如faster-whisper）中使用，通过简单的Python代码实现音频到文本的转换。模型权重采用FP16格式，支持加载时调整计算类型。这一转换模型旨在提供高效、准确的音频转写功能，适用于各种需要快速处理英语音频内容的应用场景。

ultravox-v0_3 - 集成语音和文本输入的多模态AI模型

多模态模型WhisperHuggingface模型Llama语音识别Github开源项目Ultravox

Ultravox-v0_3是Fixie.ai开发的多模态语音大语言模型，结合Llama3.1-8B-Instruct和Whisper-small技术。该模型可同时处理语音和文本输入，适用于语音助手、翻译和分析等场景。通过知识蒸馏方法，仅训练多模态适配器，保持基础模型不变。Ultravox在语音识别和翻译任务中展现出优秀性能，为语音交互应用提供了新的可能性。

wav2vec2-large-xlsr-bahasa-indonesia - wav2vec2架构的印尼语语音识别模型

模型印尼语Common VoiceWhisperGithub语音识别Wav2vec2Huggingface开源项目

这是一个开源的印尼语自动语音识别模型，基于wav2vec2-large-xlsr架构。模型使用Common Voice 6.1印尼语数据集训练，测试集词错误率为19.3%。项目提供训练代码仓库和联系方式。值得注意的是，作者已发布新版模型，具有更小体积和更低的5.9% WER。

faster-whisper-tiny.en - 轻量快速的OpenAI Whisper英语语音识别模型

模型Github模型转换Whisper开源项目Huggingface语音识别CTranslate2自然语言处理

faster-whisper-tiny.en是OpenAI Whisper tiny.en模型的CTranslate2优化版本，专门用于英语语音识别。这个模型提供高效的音频转录功能，支持16位浮点量化，可通过faster-whisper库简单集成。它适合需要快速、精确的英语语音转文本解决方案的开发者，特别是在计算资源有限的场景中表现出色。该模型采用MIT许可证，支持音频处理和自动语音识别任务。

whisper-large-v3-turbo - 乌兹别克语语音识别模型的高性能解决方案

WhisperHuggingface模型语音识别模型微调乌兹别克语Github开源项目Common Voice

Whisper Large v3 Turbo是一个针对乌兹别克语优化的语音识别模型，基于OpenAI的Whisper大型模型微调而来。该模型在Common Voice 16.1数据集上训练，在测试集达到28.26%的词错误率，展现了良好的识别能力。模型使用Adam优化器和线性学习率策略，经过1万步训练。这一模型为乌兹别克语自动语音识别应用提供了有效工具。

whisper-tiny.en - Whisper微调的英文语音识别模型

GithubWhisperHuggingface深度学习模型训练数据集语音识别开源项目模型

这是一个基于Whisper-tiny.en模型开发的轻量级语音识别工具，通过Azure数据集训练优化，主要用于英文语音转文本任务。模型采用线性学习率调度和Adam优化器，经过1000步训练后达到44.34%的词错误率。项目采用开源Apache 2.0许可，基于主流深度学习框架开发，便于开发者集成使用。

whisper-tiny.en - 支持时间戳转录的轻量级英语语音识别模型

时间戳开源项目模型Transformers.jsONNX自动语音识别WhisperGithubHuggingface

基于transformers.js开发的轻量级英语语音识别模型，集成ONNX格式权重实现Web端部署。模型支持基础文本转录、时间戳转录及单词级时间戳标记等功能，通过JavaScript可快速实现音频转文本识别。

faster-whisper-medium.en - 优化版Whisper语音识别模型集成CTranslate2框架

语音识别CTranslate2Github模型模型转换faster-whisperWhisperHuggingface开源项目

faster-whisper-medium.en是OpenAI Whisper-medium.en模型的CTranslate2移植版本，专注于英语音频转文本处理。通过CTranslate2框架优化，支持FP16计算类型，提供Python接口实现音频转录功能，输出包含时间戳的文本片段。项目采用MIT许可证开源，主要面向需要语音识别功能的开发场景。

whisper-large-v3-turbo - 精简版Whisper语音识别系统的突破性进展

自动语音识别语音识别Github开源项目模型多语言模型蒸馏HuggingfaceWhisper

Whisper large-v3-turbo通过模型蒸馏技术对原版Whisper进行优化，将解码层从32减少到4层，在仅造成轻微性能损失的情况下显著提升了处理速度。该模型继承了Whisper优秀的多语言处理能力，支持超过100种语言的语音识别和翻译任务，能够适应不同场景的音频输入。基于高效的架构设计，此模型在降低计算资源需求的同时保持了稳定的识别准确率。

faster-whisper-medium - CTranslate2优化的Whisper medium模型支持多语言音频处理

Github模型转换CTranslate2开源项目模型HuggingfaceWhisper机器翻译语音识别

这是OpenAI Whisper medium模型的CTranslate2优化版本，支持100多种语言的音频转录和识别。模型采用float16量化，通过faster-whisper库易于集成。它具有高效的推理速度和较小的内存占用，适合快速、准确处理多语言音频的应用场景。用户可根据需求调整计算类型，平衡性能和资源消耗。该模型为开发者提供了灵活、高效的多语言音频处理解决方案。

faster-distil-whisper-large-v3 - 基于CTranslate2的Whisper语音识别优化模型

语音识别Github开源项目CTranslate2模型模型转换Huggingfacefaster-whisperWhisper

基于distil-whisper/distil-large-v3的CTranslate2转换模型，专注于提升语音识别效率。模型采用FP16格式存储权重，支持多语言转录功能，可灵活调整计算类型。项目提供完整的使用示例和转换文档，方便开发者快速集成和部署。

PhoWhisper-large - 越南语自动语音识别模型PhoWhisper

Github机器学习开源项目越南语模型HuggingfaceWhisperPhoWhisper语音识别

PhoWhisper是一个基于多语言Whisper模型开发的越南语语音识别系统，提供五个不同版本。该模型通过844小时的多方言越南语数据集训练，适用于越南语音转文字、字幕生成等应用场景。在越南语ASR基准测试中表现优异，项目论文已被ICLR 2024收录。

whisper-large-v3-german - 德语语音识别优化模型

自动字幕OpenAI开源项目模型GithubHuggingface德语Whisper语音识别

基于Whisper Large v3，专为德语语音识别优化，在转录、命令识别、字幕生成等方面表现优秀。词错误率为3.002%，字符错误率为0.81%，适合高效使用。

相关文章

Article Cover

OpenAI Whisper: 开源语音识别的革命性突破

Article Cover

LiveWhisper: 基于OpenAI Whisper的实时语音转文字和语音助手项目

Article Cover

Ollama Voice Mac: 本地离线语音助手的革新之作

Article Cover

LLMtuner: 一种简化大型语言模型微调的开源框架

Article Cover

YT-Whisper: 自动生成YouTube字幕的革命性工具

Article Cover

SwiftWhisper: 最简便的Swift音频转录工具

Article Cover

Whisper:开源强大的语音识别工具

Article Cover

Whisper语音转录与说话人识别技术: 实现多人对话的精准文本化

Article Cover

Buzz: 离线音频转录与翻译的革新工具

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号