stt

高效离线本地语音识别工具，基于fast-whisper模型，支持多种输出格式

语音识别 fast-whisper 本地部署 CUDA加速文本输出 Github 开源项目热门

这款语音识别工具可在本地离线运行，基于开源的fast-whisper模型，可将视频和音频中的人声快速转换为文字。支持输出json、srt及纯文本格式，无需联网，确保隐私安全，与openai语音识别接口准确率相当。用户可便捷下载预编译版本，或自行部署源码，支持多种操作系统。此外，还提供API接口，适合开发者使用。支持CUDA加速，优化处理速度。

访问官网

Github

介绍相关项目

distil-whisper - 快速高效的音频转录模型

Distil-WhisperGithub开源项目机器学习模型压缩自然语言处理语音识别

Distil-Whisper是OpenAI Whisper模型的蒸馏版本，速度提升6倍，模型规模缩小49%，同时保持了相近的准确性。该项目支持短语音和长语音转录，提供多个针对英语语音识别的高效模型。Distil-Whisper还可作为Whisper的辅助模型实现推测解码，在保证输出一致性的同时将速度提升2倍。

WhisperLive - 基于OpenAI Whisper模型开发的实时音频转写应用

GithubOpenAI WhisperTensorRTWhisperLive多语言模型实时语音识别开源项目

WhisperLive是基于OpenAI Whisper模型开发的实时音频转写应用，能高效地将直播或预录音频转换成文本。支持多语言和自定义设置，适用于个人、教育及商业场景。项目还提供Docker部署，简化安装和服务部署过程。

superwhisper - 智能语音转文本，为macOS用户打造的私密转录工具

AI工具DockerGPT-4 TurboKubernetesPostgreSQLSaaS

SuperWhisper为macOS用户提供智能语音转文本服务。支持离线使用，确保数据私密性。适用于会议记录、笔记整理等场景，快速将语音转换为文字。采用先进语音识别技术，结合本地处理能力，实现高效、准确的转录。这款工具为macOS用户带来安全、便捷的语音转文本解决方案。

Audio2Text - 多语言音频转文字工具支持多种格式及字幕导出

AI工具OpenAI技术免费使用多语言支持字幕创建语音转文字

Audio2Text是一款基于OpenAI技术的音频转文字工具，支持超过50种语言的高精度转录。利用先进的AI语音识别技术，该服务提供免费使用选项，可导出SRT字幕文件，并支持TXT、PDF等多种格式下载。适用于多种场景，提供快速准确的音频转文字解决方案。免费版有一定限制，用户可通过购买积分包获得更高质量和更快的处理速度。

faster-whisper - 基于CTranslate2对OpenAI的Whisper模型的重新实现

CTranslate2GithubOpenAI Whisper模型faster-whisper开源项目性能比较热门音频转录

faster-whisper是对OpenAI的Whisper模型的重新实现，基于CTranslate2，这是一个针对Transformer模型的高速推理引擎。该实现在保持相同准确率的前提下，速度比openai/whisper快4倍，内存使用也更少。另外，通过在CPU和GPU上使用8位量化，可以进一步提高效率。该项目适用于需要快速、高效语音转写的场景，特别是处理大量语音数据时的实时应用。

faster-whisper-medium - 多语言语音识别与转录的高效开源解决方案

CTranslate2GithubHuggingfaceWhisper多语言开源项目模型模型转换自动语音识别

该项目是基于OpenAI Whisper medium模型转换而来的CTranslate2格式模型，为faster-whisper项目提供支持。支持90多种语言的语音识别和转录功能，性能优异且准确度高。用户可通过faster-whisper轻松实现音频文件的高效转录，获取精确的时间戳和文本输出。模型采用float16量化，计算类型可根据需求灵活调整，适用于多种语音识别应用场景。

awesome-whisper - 开源AI语音识别技术

AIGithubOpenAIWhisper开源项目语音识别音频转录

Whisper是OpenAI开发的开源AI语音识别系统，支持多种语言和平台，具备高精度和实时处理能力，并适用于开发者和企业进行高效集成。

whisper-node - 提升本地转录性能的Node.js绑定

GithubJSONNode.jsOpenAIwhisper-node开源项目转录

Whisper-node是OpenAI Whisper的Node.js绑定，支持本地转录，输出格式包括JSON、.txt、.srt和.vtt。该项目经过CPU优化，支持Apple Silicon ARM，并提供单词级精度的时间戳。通过npm可快速安装，并可选下载模型。未来将增加浏览器兼容性、语言检测和说话者识别等新功能。

whisper_streaming - 基于Whisper的实时语音转录和翻译开源系统

GithubWhisper多语言实时转录开源项目流式处理语音识别

whisper_streaming是基于Whisper模型的实时语音转录和翻译系统。该项目采用本地协议和自适应延迟实现流式转录,在长篇未分段语音测试中实现高质量转录,延迟仅3.3秒。系统提供多种后端选择,支持GPU加速,适用于多语言会议实时转录。项目还提供灵活API,便于开发者集成到不同应用场景。

LiveWhisper - 基于Whisper模型的实时语音转录和语音助手

GithubLiveWhisperWhisper开源项目录音转录语音命令助手语音激活

LiveWhisper项目利用OpenAI的Whisper模型，通过sounddevice库采集声音，实现句子到句子的实时语音转录。该项目可以在一定条件下替代SpeechRecognition工具。它还包括一个语音命令助手，类似于Siri和Alexa，能够执行多种语音命令，如查询天气、时间、讲笑话及执行Wikipedia搜索等。适用于技术爱好者和开发人员，帮助实现高效的语音交互系统。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号