#实时转录

RealtimeSTT_LLM_TTS：实现实时语音交互的开源项目

3 个月前

RealtimeSTT 语音转文字实时转录 GPU支持唤醒词 Github 开源项目

3 个月前

Whisper Streaming: 将Whisper模型转化为实时语音转录系统

3 个月前

Whisper 实时转录语音识别多语言流式处理 Github 开源项目

3 个月前

猎豹:速度与优雅并存的野生动物之王

3 个月前

Cheetah 语音转文字跨平台实时转录本地处理 Github 开源项目

3 个月前

RealtimeSTT: 实时语音转文本的开源利器

3 个月前

RealtimeSTT 语音转文本实时转录语音助手唤醒词 Github 开源项目

3 个月前

OpenAI Whisper: 革命性的语音识别与转录技术

3 个月前

openai-whisper Next.js 语音识别自动化转录实时转录 Github 开源项目

3 个月前

Transcribe: 智能语音转文字的革命性工具

3 个月前

Transcribe OpenAI 实时转录多语言支持安全功能 Github 开源项目

3 个月前

OpenAI Whisper实时语音识别:实现近乎实时的语音转文本

3 个月前

OpenAI Whisper 实时转录 Python 音频输入依赖项 Github 开源项目

3 个月前

实时语音转文字技术：基于Faster-Whisper的高效解决方案

3 个月前

faster-whisper Python 实时转录 Silero VAD NVIDIA GeForce RTX 3060 Github 开源项目

3 个月前

深入探索 useWhisper：React语音转文本利器

3 个月前

useWhisper React Hook OpenAI 语音识别实时转录 Github 开源项目

3 个月前

相关项目

Otter.ai

Otter.ai—高效的AI会议助理，专业实现会议的实时语音转写和智能总结。支持音频记录与幻灯片同步，并自动提取行动项。适合商务、销售、教育及媒体等多种场景，优化团队合作与决策效率。

use-whisper

useWhisper 是一个为 OpenAI Whisper API 提供的 React Hook，具备语音录制、实时转录和静音消除功能。正在开发的 React Native 版本将使移动应用开发更便捷。用户可以通过 npm 或 yarn 安装，并通过丰富的配置和回调函数实现自定义转录。主要依赖项包括 recordrtc、lamejs、ffmpeg、hark 和 axios，是开发者进行语音处理和转录的理想工具。

speech-to-text

该开源项目使用Silero VAD技术检测静音部分，并结合Faster-Whisper将音频数据转录为文本。支持多种音频格式（如wav、mp3、ogg）和高级设置，如重复惩罚和无重复ngram大小。其HTML界面允许进行详细配置，并能同步显示转录结果，支持CUDA环境运行，兼容最新的Faster-Whisper版本（1.0.3），提升转录速度和准确性。

openai-whisper-realtime

openai-whisper-realtime是一个几乎实时转录音频的实验项目，使用Python和OpenAI Whisper处理音频。该项目依赖高性能CPU或GPU，使用sounddevice、numpy和asyncio等库。当前目标包括提升转录性能、优化断词检测和动态分割。

transcribe

这个开源项目提供多语言实时转录，通过选择OpenAI GPT-4o、GPT-4、GPT-3.5等模型生成对话响应。软件具有最新的OpenAI库支持，无需Python依赖即可安装使用，并提供高安全性功能。支持麦克风和扬声器输入转换，用户可以定制提示、保存聊天记录，并可享受离线免费和在线付费的语音到文本转换服务。该工具在有GPU支持时性能最佳，并提供详细的安装指南和用户支持。

openai-whisper

本项目是基于OpenAI Whisper的自动语音识别系统webapp，使用Next.js框架开发。它能自动录音并上传至服务器进行转录和翻译，然后将结果返回前端。支持录音回放以验证输出效果，同时可通过设置消除背景噪音和调整录音暂停时间。项目仍在开发中，提供多种配置选项，适合需要快速实现语音转录功能的开发者。

RealtimeSTT

RealtimeSTT是一个为实时应用设计的语音转文本库。它集成了语音活动检测、实时转录和唤醒词激活等功能，适合开发语音助手和需要快速精确语音转文本的应用。该库采用WebRTCVAD和SileroVAD进行语音检测，Faster_Whisper执行转录，Porcupine或OpenWakeWord负责唤醒词检测，体现了当前语音识别技术的先进水平。

cheetah

Cheetah是一款本地化实时语音转文字引擎，具有隐私保护、高精度和跨平台特性。该引擎支持Linux、macOS、Windows、Android、iOS和主流浏览器等多种平台。Cheetah为开发者提供多种编程语言的SDK和演示应用，支持实时麦克风输入和音频文件处理，是一个灵活的语音识别解决方案。

whisper_streaming

whisper_streaming是基于Whisper模型的实时语音转录和翻译系统。该项目采用本地协议和自适应延迟实现流式转录,在长篇未分段语音测试中实现高质量转录,延迟仅3.3秒。系统提供多种后端选择,支持GPU加速,适用于多语言会议实时转录。项目还提供灵活API,便于开发者集成到不同应用场景。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com