Silero VAD
Silero VAD - 预训练的企业级语音活动检测器(另见我们的语音识别模型)。
快速开始
使用 pip:
pip install silero-vad
from silero_vad import load_silero_vad, read_audio, get_speech_timestamps
model = load_silero_vad()
wav = read_audio('path_to_audio_file') # 需要后端支持(sox,soundfile,或 ffmpeg)!
speech_timestamps = get_speech_timestamps(wav, model)
使用 torch.hub:
import torch
torch.set_num_threads(1)
model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad', model='silero_vad')
(get_speech_timestamps, _, read_audio, _, _) = utils
wav = read_audio('path_to_audio_file') # 需要后端支持(sox,soundfile,或 ffmpeg)!
speech_timestamps = get_speech_timestamps(wav, model)
主要特征
-
出色的准确性
Silero VAD 在语音检测任务中具有卓越的结果。
-
快速
单核CPU线程处理一个音频块(30+ 毫秒)的时间少于 1 毫秒。使用批处理或GPU还可以显著提高性能。在某些条件下,ONNX的性能甚至可以提升4-5倍。
-
轻量级
JIT 模型的大小约为两兆字节。
-
通用性
Silero VAD 在涵盖超过6000种语言的大型语料库上进行了训练,在具有不同背景噪音和质量水平的音频中表现优异。
-
灵活的采样率
-
高度便携
Silero VAD 受益于围绕 PyTorch 和 ONNX 构建的丰富生态系统,可以运行在这些运行时可用的任何地方。
-
无需任何附加条件
Silero VAD 在宽松的许可证(MIT)下发布,没有任何附加条件 - 无遥测,无密钥,无注册,无内置过期,无密钥或供应商锁定。
典型用例
- 用于物联网 / 边缘 / 移动用途的语音活动检测
- 数据清理和准备,语音检测
- 电话和呼叫中心自动化,语音机器人
- 语音接口
链接
联系我们
试用我们的模型,创建一个问题,发起一个讨论,加入我们的telegram 聊天,给我们发邮件,阅读我们的新闻。
引用
@misc{Silero VAD,
author = {Silero 团队},
title = {Silero VAD: 预训练的企业级语音活动检测器(VAD)、数字检测器和语言分类器},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/snakers4/silero-vad}},
commit = {插入某个提交},
email = {hello@silero.ai}
}