vad

JavaScript实时语音活动检测开源库

语音活动检测 JavaScript Silero VAD ONNX Runtime 实时语音处理 Github 开源项目

vad是一个开源的JavaScript语音活动检测库，支持浏览器端运行。该项目基于Silero VAD模型和ONNX Runtime，提供麦克风管理、音频录制和语音段识别功能。通过简洁API，开发者可轻松将其集成到Web、Node.js和React应用中，实现实时语音检测和处理。vad为语音交互应用提供了高效且易用的底层支持。

访问官网

Github

介绍相关项目

speech_course - 全面语音处理技术课程，从信号处理到人工智能应用

GithubYSDA开源项目数字信号处理语音合成语音处理语音识别

这门课程全面涵盖语音处理技术，从数字信号处理基础到先进的语音识别和合成方法。内容包括声音活动检测、语音事件识别、关键词检测、语音生物识别等，并延伸至深度学习在语音领域的应用。课程采用讲座、研讨会和实践作业相结合的方式，辅以详细的幻灯片和视频资料，旨在帮助学习者掌握现代语音处理的理论知识和实际技能。

GPT-SoVITS - 少样本声音克隆模型

GPT-SoVITS-WebUIGithubWebUI工具开源项目文本转语音模型训练热门跨语言支持

GPT-SoVITS-WebUI是一款功能强大的在线语音转换和文本转语音工具，支持跨语言转换与实时语音合成。项目集成了自动训练集分段、中文语音识别和文本标记等工具，能够帮助初学者轻松创建训练数据集和GPT/SoVITS模型。GPT-SoVITS支持零样本和少样本文本转语音，是音频处理领域的创新应用。

stt - 高效离线本地语音识别工具，基于fast-whisper模型，支持多种输出格式

CUDA加速Githubfast-whisper开源项目文本输出本地部署热门语音识别

这款语音识别工具可在本地离线运行，基于开源的fast-whisper模型，可将视频和音频中的人声快速转换为文字。支持输出json、srt及纯文本格式，无需联网，确保隐私安全，与openai语音识别接口准确率相当。用户可便捷下载预编译版本，或自行部署源码，支持多种操作系统。此外，还提供API接口，适合开发者使用。支持CUDA加速，优化处理速度。

face-api - AI人脸检测与识别、年龄性别情感预测，适用于浏览器和NodeJS

FaceAPIGithubNodeJSTensorFlow/JS人脸识别开源项目浏览器

该项目基于TensorFlow/JS，提供高级人脸检测、旋转跟踪、识别人脸、预测年龄、性别和情感功能，适用于浏览器和NodeJS环境。项目提供在线演示、详细文档和教程，以及多种使用场景的示例代码，帮助开发者快速上手和集成。无论是静态图片还是实时摄像头数据处理，均能提供精准高效的结果。

vocechat-web - 轻量级开源即时通讯解决方案

DockerGithubReactRedux ToolkitVoceChat开源聊天软件开源项目

VoceChat Web是基于React和Redux Toolkit开发的开源即时通讯客户端，支持TypeScript、PWA和Firebase通知。该项目允许用户自托管服务器或使用官方测试服务器，提供文本编辑器和Markdown支持等功能。遵循GPL v3开源协议，VoceChat Web为开发者和用户提供了一个安全、灵活的通讯平台。

Shush - WhisperV3模型的全栈语音转文本应用演示

GithubModalNextJSShushWhisperV3开源项目音频转录

Shush是一个开源项目，展示了如何在Modal平台上部署WhisperV3语音识别模型，并通过NextJS应用程序实现交互。该项目集成了Next.js前端和Modal后端，演示了高性能模型运行、可靠API构建和自动扩展功能。开发者可以通过此项目学习如何快速部署AI模型后端，并构建响应式前端应用，实现高效的语音转文本功能。

google-tts - Node.js环境下的文本转语音解决方案

GithubText-To-Speechgoogle-tts-apinode.js开源项目语音合成音频转换

google-tts-api 提供Node.js环境下全面的文本转语音支持，包括多语言选项、语速调整等功能，支持输出URL或Base64编码，适合多种交互场景。

elevenlabs-node - 适用于NodeJS的开源文本转语音API封装

APIEleven LabsGithubNodeJS开源开源项目文本转语音

elevenlabs-node封装了Eleven Labs的文本转语音API,提供了一套简洁的NodeJS接口。开发者可以通过该包轻松实现文本到语音的转换、语音流生成、语音设置调整等功能。它支持自定义语音ID和多种参数配置,便于在NodeJS项目中快速集成高质量的语音合成能力。

ai - AI应用开发的TypeScript工具包，支持Next.js、React等框架

GithubNext.jsNode.jsReactTypeScriptVercel AI SDK开源项目

Vercel AI SDK是一个TypeScript工具包，帮助开发者使用Next.js、React、Svelte、Vue等框架和Node.js运行时构建AI应用。核心模块提供统一API与OpenAI、Anthropic、Google等模型提供商交互。UI模块提供构建聊天机器人和生成界面的钩子，适用于多个框架。RSC模块为支持React服务器组件的框架提供优化API。开发者可以通过社区支持和贡献指南快速上手并进行贡献。

Retrieval-based-Voice-Conversion - 基于VITS的开源语音转换框架

AI语音GithubRVCVITS开源框架开源项目语音转换

Retrieval-based-Voice-Conversion是一个基于VITS的开源语音转换框架。该项目提供库、API和命令行接口，支持标准和自定义设置，允许灵活配置模型和环境。它具有详细的音频推理参数设置功能，并支持Docker部署，使语音转换技术更易于使用和实施。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号