#OpenAI Whisper

whisper.cpp: 高性能语音识别的开源实现

3 个月前
Cover of whisper.cpp: 高性能语音识别的开源实现

WhisperLive: 实时语音转文字的革新之作

3 个月前
Cover of WhisperLive: 实时语音转文字的革新之作

Vibe: 开源离线语音转文字工具的新选择

3 个月前
Cover of Vibe: 开源离线语音转文字工具的新选择

OpenAI Whisper实时语音识别:实现近乎实时的语音转文本

3 个月前
Cover of OpenAI Whisper实时语音识别:实现近乎实时的语音转文本

RTranslator:开源实时翻译应用,让跨语言交流无障碍

3 个月前
Cover of RTranslator:开源实时翻译应用,让跨语言交流无障碍

Whisper-Diarization: 基于OpenAI Whisper的自动语音识别与说话人分类技术

3 个月前
Cover of Whisper-Diarization: 基于OpenAI Whisper的自动语音识别与说话人分类技术

whisper.cpp学习资料汇总-OpenAI Whisper模型的高性能C/C++推理实现

2 个月前
Cover of whisper.cpp学习资料汇总-OpenAI Whisper模型的高性能C/C++推理实现

WhisperLive学习资料汇总 - 实时语音转文本的开源项目

2 个月前
Cover of WhisperLive学习资料汇总 - 实时语音转文本的开源项目
相关项目
Project Cover

WhisperLive

WhisperLive是基于OpenAI Whisper模型开发的实时音频转写应用,能高效地将直播或预录音频转换成文本。支持多语言和自定义设置,适用于个人、教育及商业场景。项目还提供Docker部署,简化安装和服务部署过程。

Project Cover

whisper.cpp

whisper.cpp是基于OpenAI Whisper的C/C++自动语音识别(ASR)模型实施,针对Apple Silicon经过优化,并支持多平台部署。该项目以极低的内存消耗和CPU/GPU推理能力,覆盖Mac OS、iOS、Android等主流平台,提供灵活的API与多样的定制模型,使开发者能够轻松地融合语音功能。

Project Cover

multimedia-gpt

Multimedia GPT是一款利用OpenAI GPT和视觉音频相结合的多媒体工具。它支持图片、音频和PDF文件输入,并以文字和图像形式输出结果。这个项目不需要自己准备GPU,实现了语音识别和图像生成,基于微软的Visual ChatGPT架构,未来计划支持视频处理。它兼容多种OpenAI语言模型,包括ChatGPT和GPT-4,用户可以自定义模型并在不同设备上运行。

Project Cover

vibe

Vibe利用开源工具OpenAI Whisper进行离线音视频转录,支持几乎所有语言,保证数据隐私。软件界面友好,支持多种文件格式如SRT、VTT、TXT、HTML、PDF和JSON。Vibe还具备批量转录、多语言翻译和实时预览等功能,适用于Windows、Linux和macOS系统。优化了对CPU和GPU的支持,兼容Nvidia和AMD GPU。用户可以通过命令行接口进行操作,并提供HTTP API文档。其他功能包括系统音频转录、麦克风转录、说话人分割,未来还将支持iOS和Android。

Project Cover

auto-subs

使用OpenAI Whisper和Stable-TS技术进行高精度转录,生成自定义风格的字幕。此工具完全免费并在Davinci Resolve中本地运行,兼容Mac、Linux和Windows系统,支持免费版和Studio版。通过字幕导航器可快速跳转时间线位置,新功能包括将任意语言翻译成英文。提供详细教程与手动设置指南,帮助用户轻松上手。

Project Cover

openai-whisper-realtime

openai-whisper-realtime是一个几乎实时转录音频的实验项目,使用Python和OpenAI Whisper处理音频。该项目依赖高性能CPU或GPU,使用sounddevice、numpy和asyncio等库。当前目标包括提升转录性能、优化断词检测和动态分割。

Project Cover

RTranslator

RTranslator是一款适用于Android系统的免费离线实时翻译应用。其具备三种模式:对话模式支持多设备双向实时翻译;对讲机模式适合快速对话;文本翻译模式提供经典文本翻译。应用内置Meta的NLLB翻译和OpenAI的Whisper语音识别技术,确保高质量翻译和隐私保护。RTranslator还支持后台运行,兼容多种语言,特别适合需要离线功能的用户。了解更多关于功能、安装和更新的信息。

Project Cover

quillman

一个开源项目,提供实时语音转录和自然语音合成的聊天应用,使用Zephyr语言模型和OpenAI Whisper技术。适用于开发和实验自定义语言模型应用,可在Modal平台上无服务器部署。提供在线演示、详细文档和模块化结构,方便本地开发和部署。

Project Cover

whisper-diarization

whisper-diarization项目整合了OpenAI Whisper的语音识别技术和先进的说话人分离方法。该工具首先进行人声提取,然后利用Whisper生成转录文本,并通过WhisperX优化时间戳。结合MarbleNet和TitaNet等技术,它能够准确识别多个说话人,最终输出包含说话人标识的精确转录结果。这一开源解决方案特别适合需要处理多人对话音频的场景,为音频转录和分析提供了强大支持。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号