Silero VAD

Silero VAD - 预训练的企业级语音活动检测器（另见我们的语音识别模型）。

实时示例

https://user-images.githubusercontent.com/36505480/144874384-95f80f6d-a4f1-42cc-9be7-004c891dd481.mp4

快速开始

使用 pip: pip install silero-vad

from silero_vad import load_silero_vad, read_audio, get_speech_timestamps
model = load_silero_vad()
wav = read_audio('path_to_audio_file') # 需要后端支持（sox，soundfile，或 ffmpeg）！
speech_timestamps = get_speech_timestamps(wav, model)

使用 torch.hub:

import torch
torch.set_num_threads(1)

model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad', model='silero_vad')
(get_speech_timestamps, _, read_audio, _, _) = utils

wav = read_audio('path_to_audio_file') # 需要后端支持（sox，soundfile，或 ffmpeg）！
speech_timestamps = get_speech_timestamps(wav, model)

主要特征

出色的准确性

Silero VAD 在语音检测任务中具有卓越的结果。
快速

单核CPU线程处理一个音频块（30+ 毫秒）的时间少于 1 毫秒。使用批处理或GPU还可以显著提高性能。在某些条件下，ONNX的性能甚至可以提升4-5倍。
轻量级

JIT 模型的大小约为两兆字节。
通用性

Silero VAD 在涵盖超过6000种语言的大型语料库上进行了训练，在具有不同背景噪音和质量水平的音频中表现优异。
灵活的采样率

Silero VAD 支持 8000 Hz 和 16000 Hz 采样率。
高度便携

Silero VAD 受益于围绕 PyTorch 和 ONNX 构建的丰富生态系统，可以运行在这些运行时可用的任何地方。
无需任何附加条件

Silero VAD 在宽松的许可证（MIT）下发布，没有任何附加条件 - 无遥测，无密钥，无注册，无内置过期，无密钥或供应商锁定。

典型用例

用于物联网 / 边缘 / 移动用途的语音活动检测
数据清理和准备，语音检测
电话和呼叫中心自动化，语音机器人
语音接口

链接

联系我们

试用我们的模型，创建一个问题，发起一个讨论，加入我们的telegram 聊天，给我们发邮件，阅读我们的新闻。

有关信息，请参阅我们的wiki并直接给我们发邮件。

引用

@misc{Silero VAD,
  author = {Silero 团队},
  title = {Silero VAD: 预训练的企业级语音活动检测器（VAD）、数字检测器和语言分类器},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/snakers4/silero-vad}},
  commit = {插入某个提交},
  email = {hello@silero.ai}
}