#语音活动检测

silero-vad - 企业级预训练语音活动检测工具，适用于多种平台

Silero VAD音频处理语音活动检测声学模型PyTorchGithub开源项目

Silero VAD 是一种企业级预训练语音活动检测工具，具备高精确度和快速处理能力。支持多种采样率、体积小巧，适用于 IoT、移动设备和电信应用。通过 PyTorch 和 ONNX 实现高度便携，无需注册或密钥，易于集成和广泛使用。

ffsubsync - 自动对齐字幕和视频的开源解决方案

FFsubsync字幕同步语音活动检测音频处理开源项目Github

FFsubsync是一个开源的自动字幕同步工具，适用于各种语言的字幕。它通过分析视频音频和字幕文件，利用快速傅里叶变换算法找出最佳匹配点，从而解决字幕与视频不同步的问题。该工具支持多种文件格式，处理速度快，通常只需20-30秒即可完成同步。FFsubsync特别适用于处理从不同来源获取的视频和字幕文件，如下载的电影、电视剧或在线视频平台的内容。它可以有效解决由于帧率差异、剪辑不一致或时间码错误导致的字幕同步问题，为用户提供更好的观看体验。FFsubsync为提升视频观看体验提供了一个简单有效的解决方案，特别适合需要处理大量视频字幕的用户。

vad - JavaScript实时语音活动检测开源库

语音活动检测JavaScriptSilero VADONNX Runtime实时语音处理Github开源项目

vad是一个开源的JavaScript语音活动检测库，支持浏览器端运行。该项目基于Silero VAD模型和ONNX Runtime，提供麦克风管理、音频录制和语音段识别功能。通过简洁API，开发者可轻松将其集成到Web、Node.js和React应用中，实现实时语音检测和处理。vad为语音交互应用提供了高效且易用的底层支持。

android-vad - Android语音活动检测库支持多种实时离线模型

AndroidVAD语音活动检测音频处理机器学习Github开源项目

Android-vad项目提供语音活动检测库，支持实时音频处理和人声识别。集成了WebRTC、Silero和Yamnet三种VAD模型，分别适用于不同场景。该库可离线运行，适合移动设备上的实时语音检测应用。WebRTC模型轻量快速，Silero模型精度高，Yamnet模型则支持多种音频事件识别。

segmentation-3.0 - 多说话者分段和语音活动检测的开源模型

模型语音活动检测扬声器分割开源项目Huggingface开源模型重叠语音检测Githubpyannote.audio

Powerset编码为核心的开源模型，结合pyannote.audio 3.0，实现多说话者分段以及语音活动和重叠检测，适用于多种语音会议场景。

相关文章

Article Cover

Silero VAD: 先进的语音活动检测技术

Article Cover

语音活动检测技术的创新应用 - VAD.js项目解析

Article Cover

深入解析VAD: 革新语音活动检测技术

Article Cover

Android语音活动检测(VAD)库:实现实时高效的语音识别

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号