vosk-server

多协议支持的高准确度离线语音识别服务器

语音识别服务器通信协议离线识别 Vosk-API Github 开源项目

vosk-server是一个基于Kaldi和Vosk-API的高准确度离线语音识别服务器。支持MQTT、GRPC、WebRTC和Websocket四种主要通信协议，适用于智能家居、PBX系统以及Web流式语音识别等场景。该服务器可本地部署，也可作为聊天机器人、网站和电话系统的后端。Vosk网站提供详细的文档和使用说明。

访问官网

Github

介绍相关项目

Applio - 基于VITS的高效语音转换

ApplioContentVecGithubRVCTTS模型开源项目语音转换

Applio项目提供高效、优质的语音转换解决方案。基于增强版RVC模型，Applio采用先进的语音处理技术，实现卓越的语音转换效果。用户可通过详细文档、丰富插件和友好界面，轻松安装和使用Applio。支持多平台操作和30多种语言，适用于各种商业用途，确保广泛的应用场景和良好的用户体验。

ASRT_SpeechRecognition - 中文语音识别系统，支持多平台和多种API接口

ASRTGithubPythonTensorFlow开源项目深度学习语音识别

ASRT是一款基于深度学习的中文语音识别系统，采用TensorFlow框架实现。支持数据集包括Thchs30、ST-CMDS、Primewords、aishell-1等，通过DCNN+CTC模型和最大熵隐马尔可夫模型实现汉字拼音识别。该系统跨平台兼容，提供多种API接口和SDK。适用于Linux和Windows系统，最低硬件要求为4核CPU、16GB RAM和NVIDIA GPU。提供详细的安装、训练、部署文档及Demo，适合开发者和研究人员使用。

ChatTTS-Forge - 文本到语音转换平台

API ServerChatTTS-ForgeGithubGradioTTS生成模型WebUI开源项目

ChatTTS-Forge是一个集成API服务和Gradio WebUI的文本到语音转换平台。通过一键Colab启动、Docker部署及本地安装等多样化方式，用户可轻松应用并体验其技术。该项目不仅支持多种语音模型与定制选项，如风格化控制和长文本生成，还适用于多种应用场景，为声音合成、音色调整与语音增强提供了专业的技术支持。

Retrieval-based-Voice-Conversion - 基于VITS的开源语音转换框架

AI语音GithubRVCVITS开源框架开源项目语音转换

Retrieval-based-Voice-Conversion是一个基于VITS的开源语音转换框架。该项目提供库、API和命令行接口，支持标准和自定义设置，允许灵活配置模型和环境。它具有详细的音频推理参数设置功能，并支持Docker部署，使语音转换技术更易于使用和实施。

vocechat-web - 轻量级开源即时通讯解决方案

DockerGithubReactRedux ToolkitVoceChat开源聊天软件开源项目

VoceChat Web是基于React和Redux Toolkit开发的开源即时通讯客户端，支持TypeScript、PWA和Firebase通知。该项目允许用户自托管服务器或使用官方测试服务器，提供文本编辑器和Markdown支持等功能。遵循GPL v3开源协议，VoceChat Web为开发者和用户提供了一个安全、灵活的通讯平台。

Vocol AI - 基于GPT的语音转文字协作平台提升团队效率

AI工具AI转录会议效率团队协作多语言支持语音协作

Vocol AI是一款基于GPT的语音协作平台，能快速将语音转换为文字，自动生成摘要、重点话题和行动项目。支持多语言转录和翻译，适用于会议、访谈、课程等场景。团队成员可轻松捕捉关键信息、实时共享和协作，提高工作效率。该平台帮助团队节省时间，专注于战略性工作，减少繁琐的手工任务。

talk-llama-fast - 开源AI语音对话系统支持多语言实时交互及视频生成

AI对话Githubtalk-llama-fast开源项目视频生成语音合成语音识别

talk-llama-fast是一个开源的AI语音对话系统,支持实时语音识别、自然语言生成和语音合成,可进行多语言交互。系统集成了视频生成功能,能创建与音频同步的唇形动画。采用流式处理和激进VAD等优化技术,实现低延迟响应。提供多种语音命令和中断机制,增强交互体验。适用于开发AI助手、虚拟角色等应用。

aura-voice - 智能低延迟语音助手

AuraEleven Labs TTSGPT-4oGithubVercel Edge FunctionsWhisper Speech Recognition开源项目

Aura是一款高效的智能语音助手，专为低延迟响应优化。结合Vercel Edge Functions、Whisper语音识别、GPT-4o和Eleven Labs TTS流媒体技术，提供流畅的用户体验。用户可以在浏览器中享受类似Siri的功能，并克服了网页语音助手的延迟问题。适合需要构建个人语音助手的用户，支持完整的安装和使用指南，同时提供减少延迟和提升用户体验的方法。

vits2 - 单阶段文本转语音系统的效率与质量提升

GithubSK TelecomVITS2单阶段模型开源项目文本到语音自然语言处理

VITS2项目融合了对抗学习与结构设计，在单阶段文本转语音技术上实现了显著的质量与效率提升。此模型通过结构和训练机制的优化，增强了语音的自然感和多讲者语音特征的匹配度，并提高了训练及推理速度。VITS2的创新技术显著降低了对音素转换的依赖，支持了完整的端到端处理。

AIVoiceChat - 低延迟响应的AI语音交互

AIElevenLabsGithubLinguflexfaster_whisper开源项目语音互动

AIVoiceChat使用户能够体验到无缝和实时的AI语音交互，依托faster_whisper和elevenlabs输入流实现低延迟响应。其功能包括自动语音检测和手动录音模式，操作简便，适用于多种环境。详尽的使用指南涵盖了API密钥设置、依赖库安装与脚本运行步骤，方便用户快速上手。项目欢迎社区贡献与改进，共同推动AI语音技术的发展。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号