#Whisper

buzz - 离线音频转录与翻译工具，基于OpenAI Whisper技术

Buzz應用商店Whisper音频转录OpenAIGithub开源项目热门

Buzz是一款运行于个人电脑上的离线音频转录与翻译工具，使用OpenAI的Whisper技术，能够高效地转录并翻译音频内容。该应用提供Mac App Store专用版本，具有更清晰的界面和更丰富的功能，如音频回放、拖放导入、转录编辑和搜索等。对于不同操作系统，Buzz提供了简便的安装方式，包括Windows, macOS和Linux。Buzz旨在提供无缝和高效的用户体验，以满足广泛的个人和专业需要。

whisper - 多语种语音识别与翻译解决方案

Whisper语音识别多语言处理OpenAITransformer模型Github开源项目热门

Whisper是一个通用语音识别模型，支持多种语言处理任务，如语音翻译和语言识别。该模型基于大规模多样化音频数据集进行训练，利用Transformer技术实现高效的序列到序列学习。用户可以通过简单的命令或Python代码实现快速准确的语音识别与翻译，是一个适用于多种应用场景的强大工具。支持多个模型大小和语言选项，用户可根据需求选择合适的模型。

ruby-openai - 将 Ruby 与 OpenAI API 无缝集成，助力多功能 AI 应用的快速开发

Ruby OpenAIAPIGPT-4oWhisperDALL·EGithub开源项目

ruby-openai，一款专为 Ruby 开发者设计的开源库，支持 OpenAI API 的多种功能，包括文本生成、语音转写和图像生成。此库使开发者能够简单地集成 GPT、Whisper 等多种模型，无需深入掌握底层技术，便可提升应用程序的智能化程度。适合于快速开发和部署，为现代 Ruby 应用提供强大支持。

ollama-voice-mac - 离线可用的Mac专用语音助手

ollama-voice-macMistral 7bWhisper语音助手离线识别Github开源项目

Ollama-voice-mac是一个离线语音助手，利用Ollama和Whisper语音识别模型工作。通过安装Ollama、Mistral 7b和OpenAI Whisper Model，即可在Mac上运行。该项目基于maudoin的工作进行了改进，兼容Mac，适用于macOS 14 Sonoma及以上版本。通过下载更高质量的系统语音，如'Zoe (Premium)'，可提升语音质量。用户也可以通过修改assistant.yaml文件来支持其他语言，方便多语言使用。

LiveWhisper - 基于Whisper模型的实时语音转录和语音助手

LiveWhisperWhisper语音命令助手录音转录语音激活Github开源项目

LiveWhisper项目利用OpenAI的Whisper模型，通过sounddevice库采集声音，实现句子到句子的实时语音转录。该项目可以在一定条件下替代SpeechRecognition工具。它还包括一个语音命令助手，类似于Siri和Alexa，能够执行多种语音命令，如查询天气、时间、讲笑话及执行Wikipedia搜索等。适用于技术爱好者和开发人员，帮助实现高效的语音交互系统。

awesome-whisper - 开源AI语音识别技术

Whisper语音识别OpenAI音频转录AIGithub开源项目

Whisper是OpenAI开发的开源AI语音识别系统，支持多种语言和平台，具备高精度和实时处理能力，并适用于开发者和企业进行高效集成。

LLMtuner - 使用 LoRA、QLoRA 等最佳实践对 Llama、Whisper 和其他 LLM 进行微调

LLMTunerLLM微调LoRAWhisperLlamaGithub开源项目

LLMTuner 提供类 scikit-learn 接口，让用户便捷微调如 Llama、Whisper 等大型语言模型。通过 LoRA 和 QLoRA 等技术实现高效微调，内置推理功能和一键启动的交互式 UI，简化模型展示和共享。此外，LLMTuner 还支持未来在 AWS 和 GCP 等平台上的部署。欢迎加入 PromptsLab 社区，探索和讨论最新的开源模型调优技术。

local-talking-llm - 本地构建语音助理的教程，集成Whisper、Ollama和Bark技术

WhisperOllamaBark语言模型语音助手Github开源项目

本教程详细介绍如何在本地构建和运行功能齐全的语音助理，集成语音识别（Whisper）、语言模型对话生成（Langchain和Ollama）、语音合成（Bark）等技术。使用Python实现，适合初学者。提供了关键技术堆栈的使用方法及性能优化和用户界面开发建议。

whisper - 跨平台音频转文本开源项目

Whisperopen source音频转文字FFMPEGWhisper.cppGithub开源项目

Whisper是OpenAI开发的开源项目，使用whisper.cpp和FFMPEG将音频转换为WAV格式并提取文本。项目支持客户端和服务器端运行，无需互联网。目前代码和文档正在优化，接受捐赠以支持持续更新。适用于Android、Linux、Windows、iOS和macOS系统，安装和使用便捷，提供详尽文档和丰富资源。

SwiftWhisper - 利用whisper.cpp为应用或软件包添加语音转录功能

SwiftWhisperWhisper转录SwiftAPIGithub开源项目

SwiftWhisper利用whisper.cpp为应用或软件包添加语音转录功能。通过Swift Package Manager或Xcode进行安装，支持多种平台和Swift版本。提供详细的API文档和CoreML支持，通过AudioKit将音频转换成16kHz PCM格式，是高效语音转录的理想选择。

yt-whisper - 使用yt-dlp与OpenAI Whisper生成多语言YouTube字幕

yt-dlpWhisper字幕生成ffmpegPythonGithub开源项目

该项目结合yt-dlp与OpenAI的Whisper技术，能够高效生成各种YouTube视频的字幕文件。通过简单的命令行操作，可生成VTT文件，并且默认使用small模型即可实现高质量的英文转录。对于其他语言，可选用更大型的模型来提升识别效果。项目还支持将字幕翻译成英文。运行需要Python 3.7或以上版本以及ffmpeg安装。此项目基于MIT许可证开源，详情请参考项目仓库的使用指南。

openai - 帮助开发者将OpenAI的AI模型集成到Dart/Flutter应用中的开源客户端包

OpenAIDartChatGPTWhisperAPI集成Github开源项目

这个开源客户端包帮助开发者将OpenAI的AI模型集成到Dart/Flutter应用中。库提供了简便直观的方法来调用OpenAI的API，如GPT-3语言模型、DALL-E图像生成等。它设计轻量且易于使用，使开发者能专注于构建应用，而无需担心HTTP请求的复杂性。主要功能包括与OpenAI文档一致的方法、一次授权、流功能以及丰富的示例代码。

Whisper-transcription_and_diarization-speaker-identification- - 使用OpenAI Whisper进行音频转录和说话人识别的完整教程

WhisperOpenAIdiarization音频转录人工智能Github开源项目

本教程详细介绍如何使用OpenAI Whisper进行音频转录和说话人识别，并结合pyannote-audio进行对话分析。学习如何准备音频、区分说话人，并将结果与转录文本匹配，实现智能音频分析。

whisper-website - 通过Whisper模型实现本地语音转文字

WhisperDocker本地部署语音转文字虚拟环境Github开源项目

本页面介绍了如何通过Whisper模型将语音转换为文字，包括在本地环境和Docker中的部署方法。提供克隆项目代码、配置虚拟环境或Docker镜像的详细步骤，帮助用户快速启动和测试Whisper模型在本地的运行效果。

Stage-Whisper - 跨平台免费开源音频转录工具

Stage-Whisper音频转录Whisper开源应用程序Github开源项目

Stage Whisper是一款免费开源的音频转录应用，基于OpenAI的Whisper模型，提供精确的音频文件转录。它拥有直观的图形界面，用户可以轻松存储和编辑转录内容。该项目旨在让非技术用户也能方便地使用Whisper的强大功能。适用于MacOS、Windows和Linux多平台，目前正进行重大改进，测试版即将发布。

chatgpt-web-application - 简易操作的OpenAI模型交互Web应用

OpenAI Web ApplicationOpenAI APIDALL·EWhisperReact.jsGithub开源项目

这是一款方便易用的Web应用，通过简单界面与OpenAI的模型互动。支持选择Davinci、DALL·E、Whisper模型，生成AI图像、音频转文本及代码语法高亮。适用于展示OpenAI API功能，可能存在一些小问题。

chatty - 结合ChatGPT、DALL·E和Whisper技术的智能聊天助手

ChatGPTDALL·EWhisperOpenAISiriGithub开源项目

Chatty项目整合了ChatGPT、DALL·E和Whisper的技术，为用户提供高级智能聊天功能。只需下载Apple Shortcuts和Chatty Shortcut，并生成OpenAI API密钥，即可将Siri与ChatGPT集成。项目支持多种语言，具有保存聊天记录、生成图像和总结文章等功能。持续的更新和角色增强使其在多个领域和应用场景中都表现出色。

chatgpt-telegram-bot - 支持Azure TTS语音回复、DALL·E图像生成和Whisper语音识别的Telegram机器人

ChatGPT BotTelegramOpenAIDALL·EWhisperGithub开源项目

基于OpenAI ChatGPT API和python-telegram-bot框架的Telegram Bot，支持Azure TTS语音回复、DALL·E图像生成和Whisper语音识别。该Bot可自定义角色和聊天温度，重视隐私保护，适合个人和群组聊天。Docker部署简便，提升用户连接和使用体验。

whisper_android - 介绍在Android应用中如何集成Whisper和Recorder类，进行高效的音频录制和语音识别的指南

WhisperRecorder语音识别离线识别TF LiteGithub开源项目

介绍在Android应用中如何集成Whisper和Recorder类，进行高效的音频录制和语音识别。指南提供了Whisper模型的初始化、配置和转录操作的代码片段，以及Recorder的配置和录音功能。集成过程中需注意权限、错误处理和文件路径管理，以确保应用的平稳运行。使用Whisper ASR提升应用的语音识别功能，为用户提供流畅的体验。

openai-whisper-talk - 多功能语音对话应用

openai-whisper-talkOpenAIWhisperChat CompletionsEmbeddingsGithub开源项目

openai-whisper-talk 是一个集成多项 OpenAI 技术的语音对话应用，组合了 Whisper 自动语音识别、Chat Completions 模拟对话、Text-to-Speech 语音合成功能。最新版本引入了时间表管理与长期记忆功能，能添加、修改、删除和检索事件，并保存信息供未来参考。基于 Vue.js 和 Nuxt 构建，实现了个性化互动，让对话更自然流畅。

openai - 开源实现OpenAI API模型的完整指南与示例

OpenAIAPILLMWhisperLangChainGithub开源项目

此存储库提供了实现OpenAI API的开源模型，包括聊天、音频和图像功能。用户可以通过`openai`或`LangChain`库与这些模型交互。指南详细介绍了依赖项安装、前端获取、环境变量设置、手动下载模型权重以及启动服务等步骤。项目支持多种语言模型、嵌入模型、扩散模型和音频模型，用户可根据需求选择访问所需服务。

whisper-youtube - Whisper模型用于YouTube视频的多语言转录和语言识别

Whisper语音识别YouTube视频转录OpenAIGoogle ColabGithub开源项目

Whisper模型用于YouTube视频的多语言转录和语言识别。教程涵盖从Google Colab安装库到在Google Drive中保存转录文件的全过程，并提供GPU优化建议，适合需要高效、精准进行视频转录的用户。

Whisper-Finetune - 微调与加速Whisper模型

Whisper微调语音识别加速推理OpenAIGithub开源项目

本项目使用Lora技术微调了OpenAI的Whisper语音识别模型，并支持CTranslate2和GGML加速。模型能够进行无时间戳、有时间戳及无语音数据训练，并支持中文和98种其他语言的语音转文本及翻译。开源了多个适用于不同需求的模型，支持Windows、Android和服务器部署。提供详细的安装教程和使用说明，以及AIShell和WenetSpeech数据的评估和推理速度测试表，方便用户快速上手。

ScribeWizard - 使用Groq、Whisper和Llama3生成结构化音频笔记

ScribeWizardGroqWhisperLlama3StreamlitGithub开源项目

ScribeWizard 是一个基于 Streamlit 的应用，通过 Groq 的 Whisper API 转录音频讲座，并利用 Llama3-8b 和 Llama3-70b 模型生成结构化笔记。该应用结合了快速和高质量的文本生成，提供美观的 Markdown 样式笔记，并支持下载为文本或 PDF 文件。用户可以选择在线使用或本地运行，适用于生成讲座和课程的音频笔记，提升学习和复习效率。

tensorflow-speech-recognition - 开源TensorFlow中的语音识别示例

Tensorflow语音识别深度学习WhisperDeepSpeechGithub开源项目

使用谷歌的TensorFlow框架进行语音识别，最初目标是为Linux系统创建独立的语音识别模型。尽管该项目现主要用于教学，开发者展示了使用开源数据和强大模型实现高效语音识别的潜力。推荐查看更新项目如Whisper和Mozilla的DeepSpeech，这两个项目在错误率方面的表现出色。该项目包含示例代码、依赖安装指导及功能扩展，如GPU上的WarpCTC和P2P学习模块。

insanely-fast-whisper - 高效率开源语音转录命令行工具

Whisper语音转录AI模型CLI工具性能优化Github开源项目

Insanely Fast Whisper是一款开源的高性能语音转录命令行工具，基于Transformers、Optimum和Flash Attention技术。该工具支持OpenAI的Whisper Large v3模型，能够在98秒内处理150分钟的音频。通过Flash Attention 2和批处理等优化，大幅提升了转录效率。适用于NVIDIA GPU和Mac设备，用户可通过简单的命令实现快速准确的音频转录。

stable-ts - Whisper语音转录时间戳优化和功能扩展工具

Whisper时间戳语音识别稳定性转录Github开源项目

stable-ts是一个开源的Whisper语音转录优化工具。它通过改进时间戳生成算法，提高了转录结果的时间精确度。该工具扩展了Whisper的功能，增加了语音分离、降噪和时间戳调整等特性。stable-ts支持多种输出格式，并提供API和命令行接口，使语音转录更加稳定和高效。

Whisper-Finetune - 语音识别模型的高效微调与加速

Whisper语音识别模型微调加速推理中文识别Github开源项目

Whisper-Finetune项目致力于优化OpenAI的Whisper语音识别模型。该项目采用Lora技术进行微调，支持多种数据类型的训练，并通过CTranslate2和GGML实现加速推理。此外，项目提供了跨平台应用和服务器部署方案，为语音识别应用开发提供了全面支持。

whisper_streaming - 基于Whisper的实时语音转录和翻译开源系统

Whisper实时转录语音识别多语言流式处理Github开源项目

whisper_streaming是基于Whisper模型的实时语音转录和翻译系统。该项目采用本地协议和自适应延迟实现流式转录,在长篇未分段语音测试中实现高质量转录,延迟仅3.3秒。系统提供多种后端选择,支持GPU加速,适用于多语言会议实时转录。项目还提供灵活API,便于开发者集成到不同应用场景。

TurboScribe - 高效精准的AI音视频转录服务

AI工具语音转文字音频转录视频转录AI转录Whisper

TurboScribe提供高效的AI音视频转录服务，支持98种语言，准确率达99.8%。该工具可快速将音频和视频转换为文本，支持10小时长文件上传，具备说话人识别和字幕生成功能。采用无限制订阅模式，适合需要大量转录的个人和团队。还可将转录或字幕翻译成134种语言，是一个全面的音视频转文字解决方案。

whisper - Graphite项目的高效时间序列数据存储方案

Whisper时间序列数据库Graphite项目数据存储脚本工具Github开源项目

Whisper是Graphite项目的核心组件，专为时间序列数据设计的固定大小数据库。它在RRD基础上进行优化，提供快速可靠的数字数据存储，支持高分辨率的近期数据和低分辨率的长期历史数据。Whisper配备多种实用工具脚本，简化数据库的创建、查询、更新和管理。作为Graphite生态系统的关键部分，Whisper为大规模指标监控和分析提供高效的数据存储解决方案。

graphite-web - 开源时间序列数据可视化与监控工具

Graphite-WebCarbonWhisper时间序列数据库监控系统Github开源项目

Graphite-Web是Graphite项目的核心组件，这个基于Django的Web应用程序用于渲染图表和仪表板。它与Carbon和Whisper协同工作，提供时间序列数据的处理、存储和可视化功能。作为一个在Apache License 2.0下开源的项目，Graphite-Web易于安装和配置，支持自定义图表和仪表板，适合开发者和系统管理员用于数据分析和监控。

WhisperHallu - 实验性音频预处理工具提升Whisper转录准确度

Whisper语音转录噪音去除AI处理音频预处理Github开源项目

WhisperHallu是一个实验性音频预处理项目，通过降噪、静音去除和语音标记等技术优化Whisper转录，减少幻听文本。该工具提供多种处理选项，支持与WhisperTimeSync和karaok-AI等项目集成。项目包含Google Colab笔记本和详细的安装使用说明，为追求高质量音频转录的开发者和研究人员提供了实用解决方案。

lora-svc - 开源AI歌声转换系统，结合Whisper和BigVGAN的先进技术

Singing Voice ConversionWhisperBigVGANLoRA人工智能Github开源项目

lora-svc是一个开源的歌声转换系统，集成了OpenAI的Whisper、Nvidia的BigVGAN和Microsoft的Adapter技术。该项目利用多语言语音识别、反混叠语音生成和高效微调等技术，实现高质量的声音转换。lora-svc提供完整的数据处理、模型训练和推理流程，支持自定义训练和灵活推理，适合研究声音转换技术的开发者和研究人员使用。

whisper-obsidian-plugin - Obsidian语音转文字插件，轻松创建笔记

语音转文字Obsidian插件OpenAIWhisperAPIGithub开源项目

Whisper-obsidian-plugin是一个集成OpenAI Whisper技术的Obsidian插件，可将语音快速转换为文字笔记。该插件支持实时录音和音频文件上传，通过快捷键和命令面板操作。它具有灵活的设置选项，支持多语言识别，允许自定义文件保存路径。这个插件为Obsidian用户提供了一种新的高效笔记创建方式。

whisper-tiny - Whisper-Tiny转Ratchet格式的跨平台语音识别模型

Github模型转换开源项目HuggingfaceRatchetWhisperopenai

Whisper-Tiny通过转换为Ratchet格式，在多平台上提供了一种高效的语音识别解决方案。此项目采用GGML转换技术，增强了模型在不同环境中的适应性和处理效率，对开发者与用户来说更具实用价值。项目遵循Apache-2.0开源许可，适合开发者广泛应用和改进。

相关文章

Article Cover

OpenAI Whisper: 开源语音识别的革命性突破

Article Cover

LiveWhisper: 基于OpenAI Whisper的实时语音转文字和语音助手项目

Article Cover

Ollama Voice Mac: 本地离线语音助手的革新之作

Article Cover

LLMtuner: 一种简化大型语言模型微调的开源框架

Article Cover

YT-Whisper: 自动生成YouTube字幕的革命性工具

Article Cover

SwiftWhisper: 最简便的Swift音频转录工具

Article Cover

Whisper:开源强大的语音识别工具

Article Cover

Whisper语音转录与说话人识别技术: 实现多人对话的精准文本化

Article Cover

Buzz: 离线音频转录与翻译的革新工具

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号