#Whisper
buzz - 离线音频转录与翻译工具,基于OpenAI Whisper技术
Buzz應用商店Whisper音频转录OpenAIGithub开源项目热门
Buzz是一款运行于个人电脑上的离线音频转录与翻译工具,使用OpenAI的Whisper技术,能够高效地转录并翻译音频内容。该应用提供Mac App Store专用版本,具有更清晰的界面和更丰富的功能,如音频回放、拖放导入、转录编辑和搜索等。对于不同操作系统,Buzz提供了简便的安装方式,包括Windows, macOS和Linux。Buzz旨在提供无缝和高效的用户体验,以满足广泛的个人和专业需要。
whisper - 多语种语音识别与翻译解决方案
Whisper语音识别多语言处理OpenAITransformer模型Github开源项目热门
Whisper是一个通用语音识别模型,支持多种语言处理任务,如语音翻译和语言识别。该模型基于大规模多样化音频数据集进行训练,利用Transformer技术实现高效的序列到序列学习。用户可以通过简单的命令或Python代码实现快速准确的语音识别与翻译,是一个适用于多种应用场景的强大工具。支持多个模型大小和语言选项,用户可根据需求选择合适的模型。
ruby-openai - 将 Ruby 与 OpenAI API 无缝集成,助力多功能 AI 应用的快速开发
Ruby OpenAIAPIGPT-4oWhisperDALL·EGithub开源项目
ruby-openai,一款专为 Ruby 开发者设计的开源库,支持 OpenAI API 的多种功能,包括文本生成、语音转写和图像生成。此库使开发者能够简单地集成 GPT、Whisper 等多种模型,无需深入掌握底层技术,便可提升应用程序的智能化程度。适合于快速开发和部署,为现代 Ruby 应用提供强大支持。
ollama-voice-mac - 离线可用的Mac专用语音助手
ollama-voice-macMistral 7bWhisper语音助手离线识别Github开源项目
Ollama-voice-mac是一个离线语音助手,利用Ollama和Whisper语音识别模型工作。通过安装Ollama、Mistral 7b和OpenAI Whisper Model,即可在Mac上运行。该项目基于maudoin的工作进行了改进,兼容Mac,适用于macOS 14 Sonoma及以上版本。通过下载更高质量的系统语音,如'Zoe (Premium)',可提升语音质量。用户也可以通过修改assistant.yaml文件来支持其他语言,方便多语言使用。
LiveWhisper - 基于Whisper模型的实时语音转录和语音助手
LiveWhisperWhisper语音命令助手录音转录语音激活Github开源项目
LiveWhisper项目利用OpenAI的Whisper模型,通过sounddevice库采集声音,实现句子到句子的实时语音转录。该项目可以在一定条件下替代SpeechRecognition工具。它还包括一个语音命令助手,类似于Siri和Alexa,能够执行多种语音命令,如查询天气、时间、讲笑话及执行Wikipedia搜索等。适用于技术爱好者和开发人员,帮助实现高效的语音交互系统。
awesome-whisper - 开源AI语音识别技术
Whisper语音识别OpenAI音频转录AIGithub开源项目
Whisper是OpenAI开发的开源AI语音识别系统,支持多种语言和平台,具备高精度和实时处理能力,并适用于开发者和企业进行高效集成。
LLMtuner - 使用 LoRA、QLoRA 等最佳实践对 Llama、Whisper 和其他 LLM 进行微调
LLMTunerLLM微调LoRAWhisperLlamaGithub开源项目
LLMTuner 提供类 scikit-learn 接口,让用户便捷微调如 Llama、Whisper 等大型语言模型。通过 LoRA 和 QLoRA 等技术实现高效微调,内置推理功能和一键启动的交互式 UI,简化模型展示和共享。此外,LLMTuner 还支持未来在 AWS 和 GCP 等平台上的部署。欢迎加入 PromptsLab 社区,探索和讨论最新的开源模型调优技术。
local-talking-llm - 本地构建语音助理的教程,集成Whisper、Ollama和Bark技术
WhisperOllamaBark语言模型语音助手Github开源项目
本教程详细介绍如何在本地构建和运行功能齐全的语音助理,集成语音识别(Whisper)、语言模型对话生成(Langchain和Ollama)、语音合成(Bark)等技术。使用Python实现,适合初学者。提供了关键技术堆栈的使用方法及性能优化和用户界面开发建议。
whisper - 跨平台音频转文本开源项目
Whisperopen source音频转文字FFMPEGWhisper.cppGithub开源项目
Whisper是OpenAI开发的开源项目,使用whisper.cpp和FFMPEG将音频转换为WAV格式并提取文本。项目支持客户端和服务器端运行,无需互联网。目前代码和文档正在优化,接受捐赠以支持持续更新。适用于Android、Linux、Windows、iOS和macOS系统,安装和使用便捷,提供详尽文档和丰富资源。
SwiftWhisper - 利用whisper.cpp为应用或软件包添加语音转录功能
SwiftWhisperWhisper转录SwiftAPIGithub开源项目
SwiftWhisper利用whisper.cpp为应用或软件包添加语音转录功能。通过Swift Package Manager或Xcode进行安装,支持多种平台和Swift版本。提供详细的API文档和CoreML支持,通过AudioKit将音频转换成16kHz PCM格式,是高效语音转录的理想选择。
yt-whisper - 使用yt-dlp与OpenAI Whisper生成多语言YouTube字幕
yt-dlpWhisper字幕生成ffmpegPythonGithub开源项目
该项目结合yt-dlp与OpenAI的Whisper技术,能够高效生成各种YouTube视频的字幕文件。通过简单的命令行操作,可生成VTT文件,并且默认使用small模型即可实现高质量的英文转录。对于其他语言,可选用更大型的模型来提升识别效果。项目还支持将字幕翻译成英文。运行需要Python 3.7或以上版本以及ffmpeg安装。此项目基于MIT许可证开源,详情请参考项目仓库的使用指南。
openai - 帮助开发者将OpenAI的AI模型集成到Dart/Flutter应用中的开源客户端包
OpenAIDartChatGPTWhisperAPI集成Github开源项目
这个开源客户端包帮助开发者将OpenAI的AI模型集成到Dart/Flutter应用中。库提供了简便直观的方法来调用OpenAI的API,如GPT-3语言模型、DALL-E图像生成等。它设计轻量且易于使用,使开发者能专注于构建应用,而无需担心HTTP请求的复杂性。主要功能包括与OpenAI文档一致的方法、一次授权、流功能以及丰富的示例代码。
Whisper-transcription_and_diarization-speaker-identification- - 使用OpenAI Whisper进行音频转录和说话人识别的完整教程
WhisperOpenAIdiarization音频转录人工智能Github开源项目
本教程详细介绍如何使用OpenAI Whisper进行音频转录和说话人识别,并结合pyannote-audio进行对话分析。学习如何准备音频、区分说话人,并将结果与转录文本匹配,实现智能音频分析。
whisper-website - 通过Whisper模型实现本地语音转文字
WhisperDocker本地部署语音转文字虚拟环境Github开源项目
本页面介绍了如何通过Whisper模型将语音转换为文字,包括在本地环境和Docker中的部署方法。提供克隆项目代码、配置虚拟环境或Docker镜像的详细步骤,帮助用户快速启动和测试Whisper模型在本地的运行效果。
Stage-Whisper - 跨平台免费开源音频转录工具
Stage-Whisper音频转录Whisper开源应用程序Github开源项目
Stage Whisper是一款免费开源的音频转录应用,基于OpenAI的Whisper模型,提供精确的音频文件转录。它拥有直观的图形界面,用户可以轻松存储和编辑转录内容。该项目旨在让非技术用户也能方便地使用Whisper的强大功能。适用于MacOS、Windows和Linux多平台,目前正进行重大改进,测试版即将发布。
chatgpt-web-application - 简易操作的OpenAI模型交互Web应用
OpenAI Web ApplicationOpenAI APIDALL·EWhisperReact.jsGithub开源项目
这是一款方便易用的Web应用,通过简单界面与OpenAI的模型互动。支持选择Davinci、DALL·E、Whisper模型,生成AI图像、音频转文本及代码语法高亮。适用于展示OpenAI API功能,可能存在一些小问题。
chatty - 结合ChatGPT、DALL·E和Whisper技术的智能聊天助手
ChatGPTDALL·EWhisperOpenAISiriGithub开源项目
Chatty项目整合了ChatGPT、DALL·E和Whisper的技术,为用户提供高级智能聊天功能。只需下载Apple Shortcuts和Chatty Shortcut,并生成OpenAI API密钥,即可将Siri与ChatGPT集成。项目支持多种语言,具有保存聊天记录、生成图像和总结文章等功能。持续的更新和角色增强使其在多个领域和应用场景中都表现出色。
chatgpt-telegram-bot - 支持Azure TTS语音回复、DALL·E图像生成和Whisper语音识别的Telegram机器人
ChatGPT BotTelegramOpenAIDALL·EWhisperGithub开源项目
基于OpenAI ChatGPT API和python-telegram-bot框架的Telegram Bot,支持Azure TTS语音回复、DALL·E图像生成和Whisper语音识别。该Bot可自定义角色和聊天温度,重视隐私保护,适合个人和群组聊天。Docker部署简便,提升用户连接和使用体验。
whisper_android - 介绍在Android应用中如何集成Whisper和Recorder类,进行高效的音频录制和语音识别的指南
WhisperRecorder语音识别离线识别TF LiteGithub开源项目
介绍在Android应用中如何集成Whisper和Recorder类,进行高效的音频录制和语音识别。指南提供了Whisper模型的初始化、配置和转录操作的代码片段,以及Recorder的配置和录音功能。集成过程中需注意权限、错误处理和文件路径管理,以确保应用的平稳运行。使用Whisper ASR提升应用的语音识别功能,为用户提供流畅的体验。
openai-whisper-talk - 多功能语音对话应用
openai-whisper-talkOpenAIWhisperChat CompletionsEmbeddingsGithub开源项目
openai-whisper-talk 是一个集成多项 OpenAI 技术的语音对话应用,组合了 Whisper 自动语音识别、Chat Completions 模拟对话、Text-to-Speech 语音合成功能。最新版本引入了时间表管理与长期记忆功能,能添加、修改、删除和检索事件,并保存信息供未来参考。基于 Vue.js 和 Nuxt 构建,实现了个性化互动,让对话更自然流畅。
openai - 开源实现OpenAI API模型的完整指南与示例
OpenAIAPILLMWhisperLangChainGithub开源项目
此存储库提供了实现OpenAI API的开源模型,包括聊天、音频和图像功能。用户可以通过`openai`或`LangChain`库与这些模型交互。指南详细介绍了依赖项安装、前端获取、环境变量设置、手动下载模型权重以及启动服务等步骤。项目支持多种语言模型、嵌入模型、扩散模型和音频模型,用户可根据需求选择访问所需服务。
whisper-youtube - Whisper模型用于YouTube视频的多语言转录和语言识别
Whisper语音识别YouTube视频转录OpenAIGoogle ColabGithub开源项目
Whisper模型用于YouTube视频的多语言转录和语言识别。教程涵盖从Google Colab安装库到在Google Drive中保存转录文件的全过程,并提供GPU优化建议,适合需要高效、精准进行视频转录的用户。
Whisper-Finetune - 微调与加速Whisper模型
Whisper微调语音识别加速推理OpenAIGithub开源项目
本项目使用Lora技术微调了OpenAI的Whisper语音识别模型,并支持CTranslate2和GGML加速。模型能够进行无时间戳、有时间戳及无语音数据训练,并支持中文和98种其他语言的语音转文本及翻译。开源了多个适用于不同需求的模型,支持Windows、Android和服务器部署。提供详细的安装教程和使用说明,以及AIShell和WenetSpeech数据的评估和推理速度测试表,方便用户快速上手。
ScribeWizard - 使用Groq、Whisper和Llama3生成结构化音频笔记
ScribeWizardGroqWhisperLlama3StreamlitGithub开源项目
ScribeWizard 是一个基于 Streamlit 的应用,通过 Groq 的 Whisper API 转录音频讲座,并利用 Llama3-8b 和 Llama3-70b 模型生成结构化笔记。该应用结合了快速和高质量的文本生成,提供美观的 Markdown 样式笔记,并支持下载为文本或 PDF 文件。用户可以选择在线使用或本地运行,适用于生成讲座和课程的音频笔记,提升学习和复习效率。
tensorflow-speech-recognition - 开源TensorFlow中的语音识别示例
Tensorflow语音识别深度学习WhisperDeepSpeechGithub开源项目
使用谷歌的TensorFlow框架进行语音识别,最初目标是为Linux系统创建独立的语音识别模型。尽管该项目现主要用于教学,开发者展示了使用开源数据和强大模型实现高效语音识别的潜力。推荐查看更新项目如Whisper和Mozilla的DeepSpeech,这两个项目在错误率方面的表现出色。该项目包含示例代码、依赖安装指导及功能扩展,如GPU上的WarpCTC和P2P学习模块。
insanely-fast-whisper - 高效率开源语音转录命令行工具
Whisper语音转录AI模型CLI工具性能优化Github开源项目
Insanely Fast Whisper是一款开源的高性能语音转录命令行工具,基于Transformers、Optimum和Flash Attention技术。该工具支持OpenAI的Whisper Large v3模型,能够在98秒内处理150分钟的音频。通过Flash Attention 2和批处理等优化,大幅提升了转录效率。适用于NVIDIA GPU和Mac设备,用户可通过简单的命令实现快速准确的音频转录。
stable-ts - Whisper语音转录时间戳优化和功能扩展工具
Whisper时间戳语音识别稳定性转录Github开源项目
stable-ts是一个开源的Whisper语音转录优化工具。它通过改进时间戳生成算法,提高了转录结果的时间精确度。该工具扩展了Whisper的功能,增加了语音分离、降噪和时间戳调整等特性。stable-ts支持多种输出格式,并提供API和命令行接口,使语音转录更加稳定和高效。
Whisper-Finetune - 语音识别模型的高效微调与加速
Whisper语音识别模型微调加速推理中文识别Github开源项目
Whisper-Finetune项目致力于优化OpenAI的Whisper语音识别模型。该项目采用Lora技术进行微调,支持多种数据类型的训练,并通过CTranslate2和GGML实现加速推理。此外,项目提供了跨平台应用和服务器部署方案,为语音识别应用开发提供了全面支持。
whisper_streaming - 基于Whisper的实时语音转录和翻译开源系统
Whisper实时转录语音识别多语言流式处理Github开源项目
whisper_streaming是基于Whisper模型的实时语音转录和翻译系统。该项目采用本地协议和自适应延迟实现流式转录,在长篇未分段语音测试中实现高质量转录,延迟仅3.3秒。系统提供多种后端选择,支持GPU加速,适用于多语言会议实时转录。项目还提供灵活API,便于开发者集成到不同应用场景。
TurboScribe - 高效精准的AI音视频转录服务
AI工具语音转文字音频转录视频转录AI转录Whisper
TurboScribe提供高效的AI音视频转录服务,支持98种语言,准确率达99.8%。该工具可快速将音频和视频转换为文本,支持10小时长文件上传,具备说话人识别和字幕生成功能。采用无限制订阅模式,适合需要大量转录的个人和团队。还可将转录或字幕翻译成134种语言,是一个全面的音视频转文字解决方案。
whisper - Graphite项目的高效时间序列数据存储方案
Whisper时间序列数据库Graphite项目数据存储脚本工具Github开源项目
Whisper是Graphite项目的核心组件,专为时间序列数据设计的固定大小数据库。它在RRD基础上进行优化,提供快速可靠的数字数据存储,支持高分辨率的近期数据和低分辨率的长期历史数据。Whisper配备多种实用工具脚本,简化数据库的创建、查询、更新和管理。作为Graphite生态系统的关键部分,Whisper为大规模指标监控和分析提供高效的数据存储解决方案。
graphite-web - 开源时间序列数据可视化与监控工具
Graphite-WebCarbonWhisper时间序列数据库监控系统Github开源项目
Graphite-Web是Graphite项目的核心组件,这个基于Django的Web应用程序用于渲染图表和仪表板。它与Carbon和Whisper协同工作,提供时间序列数据的处理、存储和可视化功能。作为一个在Apache License 2.0下开源的项目,Graphite-Web易于安装和配置,支持自定义图表和仪表板,适合开发者和系统管理员用于数据分析和监控。
WhisperHallu - 实验性音频预处理工具提升Whisper转录准确度
Whisper语音转录噪音去除AI处理音频预处理Github开源项目
WhisperHallu是一个实验性音频预处理项目,通过降噪、静音去除和语音标记等技术优化Whisper转录,减少幻听文本。该工具提供多种处理选项,支持与WhisperTimeSync和karaok-AI等项目集成。项目包含Google Colab笔记本和详细的安装使用说明,为追求高质量音频转录的开发者和研究人员提供了实用解决方案。
lora-svc - 开源AI歌声转换系统,结合Whisper和BigVGAN的先进技术
Singing Voice ConversionWhisperBigVGANLoRA人工智能Github开源项目
lora-svc是一个开源的歌声转换系统,集成了OpenAI的Whisper、Nvidia的BigVGAN和Microsoft的Adapter技术。该项目利用多语言语音识别、反混叠语音生成和高效微调等技术,实现高质量的声音转换。lora-svc提供完整的数据处理、模型训练和推理流程,支持自定义训练和灵活推理,适合研究声音转换技术的开发者和研究人员使用。
whisper-obsidian-plugin - Obsidian语音转文字插件,轻松创建笔记
语音转文字Obsidian插件OpenAIWhisperAPIGithub开源项目
Whisper-obsidian-plugin是一个集成OpenAI Whisper技术的Obsidian插件,可将语音快速转换为文字笔记。该插件支持实时录音和音频文件上传,通过快捷键和命令面板操作。它具有灵活的设置选项,支持多语言识别,允许自定义文件保存路径。这个插件为Obsidian用户提供了一种新的高效笔记创建方式。
whisper-tiny - Whisper-Tiny转Ratchet格式的跨平台语音识别模型
Github模型转换开源项目HuggingfaceRatchetWhisperopenai
Whisper-Tiny通过转换为Ratchet格式,在多平台上提供了一种高效的语音识别解决方案。此项目采用GGML转换技术,增强了模型在不同环境中的适应性和处理效率,对开发者与用户来说更具实用价值。项目遵循Apache-2.0开源许可,适合开发者广泛应用和改进。
相关文章
OpenAI Whisper: 开源语音识别的革命性突破
3 个月前
LiveWhisper: 基于OpenAI Whisper的实时语音转文字和语音助手项目
3 个月前
Ollama Voice Mac: 本地离线语音助手的革新之作
3 个月前
LLMtuner: 一种简化大型语言模型微调的开源框架
3 个月前
YT-Whisper: 自动生成YouTube字幕的革命性工具
3 个月前
SwiftWhisper: 最简便的Swift音频转录工具
3 个月前
Whisper:开源强大的语音识别工具
3 个月前
Whisper语音转录与说话人识别技术: 实现多人对话的精准文本化
3 个月前
Buzz: 离线音频转录与翻译的革新工具
3 个月前