3D-Speaker: 多模态说话人验证、识别与分割的开源工具包

3D-Speaker简介

3D-Speaker是由阿里巴巴达摩院语音实验室开发的一个开源工具包,专注于单模态和多模态的说话人验证、说话人识别和说话人分割任务。该项目提供了多种先进模型的训练和推理方法,以及大规模的多模态语音数据集,为语音表示学习研究提供了强大支持。

3D-Speaker Logo

主要特性

3D-Speaker具有以下主要特性:

支持多种说话人验证模型,如CAM++、ERes2Net、ERes2NetV2、ECAPA-TDNN等。
提供自监督说话人验证模型RDINO和SDPN的训练方法。
包含说话人分割模块,集成了语音活动检测、语音分割、说话人嵌入提取和说话人聚类等功能。
支持语言识别任务。
发布了大规模的3D-Speaker数据集,用于语音表示解耦研究。
所有预训练模型都可以在ModelScope平台上获取。

快速开始

安装

要开始使用3D-Speaker,您可以按照以下步骤进行安装:

git clone https://github.com/alibaba-damo-academy/3D-Speaker.git && cd 3D-Speaker
conda create -n 3D-Speaker python=3.8
conda activate 3D-Speaker
pip install -r requirements.txt

运行实验

3D-Speaker提供了多种模型的训练和推理脚本。以下是一些示例:

# 说话人验证: ERes2Net on 3D-Speaker数据集
cd egs/3dspeaker/sv-eres2net/
bash run.sh

# 自监督说话人验证: RDINO on 3D-Speaker数据集 
cd egs/3dspeaker/sv-rdino/
bash run.sh

# 说话人分割:
cd egs/3dspeaker/speaker-diarization/
bash run_audio.sh
bash run_video.sh

使用预训练模型进行推理

您可以使用ModelScope上发布的预训练模型进行推理:

# 安装modelscope
pip install modelscope

# 使用ERes2Net进行推理
model_id = 'iic/speech_eres2net_sv_zh-cn_16k-common'
python speakerlab/bin/infer_sv.py --model_id $model_id

# 批量推理
python speakerlab/bin/infer_sv_batch.py --model_id $model_id --wavs $wav_list