#实时转录

RealtimeSTT_LLM_TTS:实现实时语音交互的开源项目

3 个月前
Cover of RealtimeSTT_LLM_TTS:实现实时语音交互的开源项目

Whisper Streaming: 将Whisper模型转化为实时语音转录系统

3 个月前
Cover of Whisper Streaming: 将Whisper模型转化为实时语音转录系统

猎豹:速度与优雅并存的野生动物之王

3 个月前
Cover of 猎豹:速度与优雅并存的野生动物之王

RealtimeSTT: 实时语音转文本的开源利器

3 个月前
Cover of RealtimeSTT: 实时语音转文本的开源利器

OpenAI Whisper: 革命性的语音识别与转录技术

3 个月前
Cover of OpenAI Whisper: 革命性的语音识别与转录技术

Transcribe: 智能语音转文字的革命性工具

3 个月前
Cover of Transcribe: 智能语音转文字的革命性工具

OpenAI Whisper实时语音识别:实现近乎实时的语音转文本

3 个月前
Cover of OpenAI Whisper实时语音识别:实现近乎实时的语音转文本

实时语音转文字技术:基于Faster-Whisper的高效解决方案

3 个月前
Cover of 实时语音转文字技术:基于Faster-Whisper的高效解决方案

深入探索 useWhisper:React语音转文本利器

3 个月前
Cover of 深入探索 useWhisper:React语音转文本利器
相关项目
Project Cover

Otter.ai

Otter.ai—高效的AI会议助理,专业实现会议的实时语音转写和智能总结。支持音频记录与幻灯片同步,并自动提取行动项。适合商务、销售、教育及媒体等多种场景,优化团队合作与决策效率。

Project Cover

use-whisper

useWhisper 是一个为 OpenAI Whisper API 提供的 React Hook,具备语音录制、实时转录和静音消除功能。正在开发的 React Native 版本将使移动应用开发更便捷。用户可以通过 npm 或 yarn 安装,并通过丰富的配置和回调函数实现自定义转录。主要依赖项包括 recordrtc、lamejs、ffmpeg、hark 和 axios,是开发者进行语音处理和转录的理想工具。

Project Cover

speech-to-text

该开源项目使用Silero VAD技术检测静音部分,并结合Faster-Whisper将音频数据转录为文本。支持多种音频格式(如wav、mp3、ogg)和高级设置,如重复惩罚和无重复ngram大小。其HTML界面允许进行详细配置,并能同步显示转录结果,支持CUDA环境运行,兼容最新的Faster-Whisper版本(1.0.3),提升转录速度和准确性。

Project Cover

openai-whisper-realtime

openai-whisper-realtime是一个几乎实时转录音频的实验项目,使用Python和OpenAI Whisper处理音频。该项目依赖高性能CPU或GPU,使用sounddevice、numpy和asyncio等库。当前目标包括提升转录性能、优化断词检测和动态分割。

Project Cover

transcribe

这个开源项目提供多语言实时转录,通过选择OpenAI GPT-4o、GPT-4、GPT-3.5等模型生成对话响应。软件具有最新的OpenAI库支持,无需Python依赖即可安装使用,并提供高安全性功能。支持麦克风和扬声器输入转换,用户可以定制提示、保存聊天记录,并可享受离线免费和在线付费的语音到文本转换服务。该工具在有GPU支持时性能最佳,并提供详细的安装指南和用户支持。

Project Cover

openai-whisper

本项目是基于OpenAI Whisper的自动语音识别系统webapp,使用Next.js框架开发。它能自动录音并上传至服务器进行转录和翻译,然后将结果返回前端。支持录音回放以验证输出效果,同时可通过设置消除背景噪音和调整录音暂停时间。项目仍在开发中,提供多种配置选项,适合需要快速实现语音转录功能的开发者。

Project Cover

RealtimeSTT

RealtimeSTT是一个为实时应用设计的语音转文本库。它集成了语音活动检测、实时转录和唤醒词激活等功能,适合开发语音助手和需要快速精确语音转文本的应用。该库采用WebRTCVAD和SileroVAD进行语音检测,Faster_Whisper执行转录,Porcupine或OpenWakeWord负责唤醒词检测,体现了当前语音识别技术的先进水平。

Project Cover

cheetah

Cheetah是一款本地化实时语音转文字引擎,具有隐私保护、高精度和跨平台特性。该引擎支持Linux、macOS、Windows、Android、iOS和主流浏览器等多种平台。Cheetah为开发者提供多种编程语言的SDK和演示应用,支持实时麦克风输入和音频文件处理,是一个灵活的语音识别解决方案。

Project Cover

whisper_streaming

whisper_streaming是基于Whisper模型的实时语音转录和翻译系统。该项目采用本地协议和自适应延迟实现流式转录,在长篇未分段语音测试中实现高质量转录,延迟仅3.3秒。系统提供多种后端选择,支持GPU加速,适用于多语言会议实时转录。项目还提供灵活API,便于开发者集成到不同应用场景。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号