Awesome Speaker Diarization
目录
概述
这是一个精选的优秀说话人分段论文、库、数据集和其他资源的列表。
该仓库的目的是组织世界上所有的说话人分段资源,并使其普遍可访问且有用。
要向此页面添加项目,只需发送拉取请求。(贡献指南)
出版物
特殊主题
评论与综述
- A Review of Speaker Diarization: Recent Advances with Deep Learning, 2021
- A review on speaker diarization systems and approaches, 2012
- Speaker diarization: A review of recent research, 2010
大型语言模型 (LLM)
- DiarizationLM: Speaker Diarization Post-Processing with Large Language Models, 2024
- Enhancing Speaker Diarization with Large Language Models: A Contextual Beam Search Approach, 2023
- Lexical speaker error correction: Leveraging language models for speaker diarization error correction, 2023
有监督的分段
- DiaPer: End-to-End Neural Diarization with Perceiver-Based Attractors, 2023
- TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization, 2023
- Speaker Overlap-aware Neural Diarization for Multi-party Meeting Analysis, 2022
- End-to-End Diarization for Variable Number of Speakers with Local-Global Networks and Discriminative Speaker Embeddings, 2021
- Supervised online diarization with sample mean loss for multi-domain data, 2019
- Discriminative Neural Clustering for Speaker Diarisation, 2019
- End-to-End Neural Speaker Diarization with Permutation-Free Objectives, 2019
- End-to-End Neural Speaker Diarization with Self-attention, 2019
- Fully Supervised Speaker Diarization, 2018
联合分段与自动语音识别
- A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings, 2022
- Turn-to-Diarize: Online Speaker Diarization Constrained by Transformer Transducer Speaker Turn Detection, 2021
- Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number of Speakers using End-to-End Speaker-Attributed ASR, 2021
- Joint Speech Recognition and Speaker Diarization via Sequence Transduction, 2019
- Says who? Deep learning models for joint speech recognition, segmentation and diarization, 2018
在线说话人分段
- Speaker Diarization as a Fully Online Bandit Learning Problem in MiniVox, 2021
- Online Speaker Diarization with Relation Network, 2020
- VoiceID on the Fly: A Speaker Recognition System that Learns from Scratch, 2020
挑战
- M2MeT: The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Challenge, 2022
- The Hitachi-JHU DIHARD III system: Competitive end-to-end neural diarization and x-vector clustering systems combined by DOVER-Lap
- Diarization is Hard: Some Experiences and Lessons Learned for the JHU Team in the Inaugural DIHARD Challenge, 2018
- ODESSA at Albayzin Speaker Diarization Challenge 2018, 2018
- Joint Discriminative Embedding Learning, Speech Activity and Overlap Detection for the DIHARD Challenge, 2018
音频-视觉说话人分段
- AVA-AVD: Audio-Visual Speaker Diarization in the Wild, 2022
- DyViSE: Dynamic Vision-Guided Speaker Embedding for Audio-Visual Speaker Diarization, 2022
- End-to-End Audio-Visual Neural Speaker Diarization, 2022
- MSDWild: Multi-modal Speaker Diarization Dataset in the Wild, 2022
其他
2021
- Overlap-aware low-latency online speaker diarization based on end-to-end local segmentation
- End-to-end speaker segmentation for overlap-aware resegmentation
- DIVE: End-to-end Speech Diarization via Iterative Speaker Embedding
- DOVER-Lap: A method for combining overlap-aware diarization outputs
- Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: Theory, implementation and analysis on standard tasks
- AISHELL-4: An Open Source Dataset for Speech Enhancement, Separation, Recognition and Speaker Diarization in Conference Scenario, 2021
2020
- An End-to-End Speaker Diarization Service for improving Multimedia Content Access
- Spot the conversation: speaker diarisation in the wild
- Speaker Diarization with Region Proposal Network
- Target-Speaker Voice Activity Detection: a Novel Approach for Multi-Speaker Diarization in a Dinner Party Scenario
2019
- Overlap-aware diarization: resegmentation using neural end-to-end overlapped speech detection
- Speaker diarization using latent space clustering in generative adversarial network
- A study of semi-supervised speaker diarization system using gan mixture model
- Learning deep representations by multilayer bootstrap networks for speaker diarization
- Enhancements for Audio-only Diarization Systems
- LSTM based Similarity Measurement with Spectral Clustering for Speaker Diarization
- Meeting Transcription Using Virtual Microphone Arrays
- Speaker diarisation using 2D self-attentive combination of embeddings
- Speaker Diarization with Lexical Information
2018
2017
- 使用LSTM的说话人分离
- 使用深度神经网络嵌入的说话人分离
- 使用卷积神经网络进行统计累积优化的说话人分离
- pyannote.metrics:一个用于可重复评估、诊断和错误分析的工具包
- 使用双向长短期记忆网络进行广播电视中的说话人变更检测
- 使用深度递归卷积神经网络嵌入的说话人分离
2016
2015
2014
2013
2011
2009
2008
2006
软件
框架
<SOURCE_TEXT>
链接 | 语言 | 描述 |
---|---|---|
FunASR | Python 和 PyTorch | FunASR 是一个基于 PyTorch 的开源语音工具包,旨在弥合学术研究与工业应用之间的差距。 |
MiniVox | MATLAB | MiniVox 是一个开源的在线说话人分离(diarization)任务评估系统。 |
SpeechBrain | Python 和 PyTorch | SpeechBrain 是一个基于 PyTorch 的开源全功能语音工具包。 |
SIDEKIT for diarization (s4d) | Python | 一个 SIDEKIT 的开源扩展包,用于说话人分离。 |
pyAudioAnalysis | Python | Python 音频分析库:特征提取、分类、分割和应用。 |
AaltoASR | Python 和 Perl | 基于 AaltoASR 的说话人分离脚本。 |
LIUM SpkDiarization | Java | LIUM_SpkDiarization 是一款专用于说话人分离(即说话人分割和聚类)的软件。它是用 Java 编写的,并包含该领域最新的发展(截至 2013 年)。 |
kaldi-asr | Bash | 用于对 2000 年 NIST 说话人识别评估中使用的一部分 CALLHOME 进行说话人分离的示例脚本。 |
kaldi-speaker-diarization | Bash | 使用 kaldi 进行冰岛语说话人分离的脚本。 |
Alize LIA_SpkSeg | C++ | ALIZÉ 是一个开源的平台用于说话人识别。LIA_SpkSeg 是用于说话人分离的工具。 |
pyannote-audio | Python | 用于说话人分离的神经网络构建模块:语音活动检测、说话人变更检测、说话人嵌入。 |
pyBK | Python | 使用二进制键说话人建模的说话人分离。无需外部训练数据的轻量级计算解决方案。 |
Speaker-Diarization | Python | 使用 uis-rnn 和 GhostVLAD 进行说话人分离。支持开放集说话人的一种更简单的方法。 |
EEND | Python 和 Bash 和 Perl | 端到端神经网络分离。 |
VBx | Python | 基于 x-向量的变分贝叶斯 HMM 分离。x-向量提取器配方 |
RE-VERB | Python 和 JavaScript | RE:VERB 是说话人分离系统,允许用户发送/录制对话音频并接收说话时间戳。 |
StreamingSpeakerDiarization | Python | 流式说话人分离,扩展了 pyannote.audio 以进行在线处理。 |
simple_diarizer | Python | 使用一些预训练模型的简化分离管道。旨在尽可能简单地从输入音频文件到分离段。 |
Picovoice Falcon | C 和 Python | 一个轻量级、准确且快速的说话人分离引擎,用 C 编写并可在 Python 中使用,在 CPU 上运行时具有最低的开销。 |
DiaPer | Python | Pytorch 实现的 DiaPer: End-to-End Neural Diarization with Perceiver-Based Attractors ,包括在免费和公共数据上预训练的模型。 |
</SOURCE_TEXT> | ||
链接 | 语言 | 描述 |
---- | -------- | ----------- |
pyannote-metrics | Python | 一个用于可重复评估、诊断和说话人分离系统错误分析的工具包。 |
SimpleDER | Python | 一个轻量级库,用于计算分离错误率(DER)。 |
DiarizationLM | Python | 实现了单词错误率(WER)、单词分离错误率(WDER)和串联最小排列单词错误率(cpWER)。 |
NIST md-eval | Perl | (1) 修改自 Mary Tai Knox 的 md-eval.pl; (2) jitendra 的 md-eval-v21.pl; (3) nryant 的 md-eval-22.pl |
dscore | Python & Perl | 分离评分工具。 |
Sequence Match Accuracy | Python | 使用匈牙利算法匹配两个序列的准确性。 |
spyder | Python & C++ | 一个简单的Python包,用于快速计算DER。 |
CDER | Python | 来自对话短语说话人分离(CSSD)任务:数据集、评估指标和基线的对话DER。 |
聚类
链接 | 语言 | 描述 |
---|---|---|
uis-rnn | Python & PyTorch | 谷歌的无边界交错状态递归神经网络(UIS-RNN)算法,用于完全监督的说话人分离。这个聚类算法是监督的。 |
uis-rnn-sml | Python & PyTorch | UIS-RNN的一个变体,用于论文《多领域数据的样本均值损失监督在线分离》。 |
DNC | Python & ESPnet | 基于变压器的判别神经聚类(DNC)用于说话人分离。与UIS-RNN类似,它是监督的。 |
SpectralCluster | Python | 带有亲和矩阵细化操作、自调节和说话人转换约束的谱聚类。 |
sklearn.cluster ![Build Status](https://raw.githubusercontent.com/wq2012/awesome-diarization/master/ https://api.travis-ci.org/scikit-learn/scikit-learn.svg?branch=master) | Python | scikit-learn 的聚类算法。 |
PLDA | Python | 使用Python编写的概率线性判别分析及分类。 |
PLDA | C++ | 经典PLDA(概率线性判别分析)的开源实现。 |
Auto-Tuning Spectral Clustering | Python | 不需要开发集和监督调整的自调节谱聚类方法。 |
<SOURCE_TEXT> | ||
Link | 方法 | 语言 |
---- | ------ | -------- |
resemble-ai/Resemblyzer | d-vector | Python 和 PyTorch |
Speaker_Verification | d-vector | Python 和 TensorFlow |
PyTorch_Speaker_Verification | d-vector | Python 和 PyTorch |
Real-Time Voice Cloning | d-vector | Python 和 PyTorch |
deep-speaker | d-vector | Python 和 Keras |
x-vector-kaldi-tf | x-vector | Python 和 TensorFlow 和 Perl |
kaldi-ivector | i-vector | C++ 和 Perl |
voxceleb-ivector | i-vector | Perl |
pytorch_xvectors | x-vector | Python 和 PyTorch |
ASVtorch | i-vector | Python 和 PyTorch |
asv-subtools | i-vector 和 x-vector | Kaldi 和 PyTorch |
WeSpeaker | x-vector 和 r-vector | Python 和 C++ 和 PyTorch |
ReDimNet | improved resnet | Pytorch |
说话人变化检测
链接 | 语言 | 描述 |
---|---|---|
change_detection | Python 和 Keras | 在电视播出中使用双向长短期记忆网络进行说话人变化检测的代码。 |
tidydiarize | Python | OpenAI Whisper 解码器中的语音分割 |
音频特征提取
链接 | 语言 | 描述 |
---|---|---|
LibROSA | Python | 用于音频和音乐分析的 Python 库。https://librosa.github.io/ |
python_speech_features | Python | 该库提供了用于自动语音识别 (ASR) 的常见语音特征,包括 MFCCs 和滤波器能量。https://python-speech-features.readthedocs.io/en/latest/ |
pyAudioAnalysis | Python | Python 音频分析库:特征提取、分类、分割及应用。 |
音频数据增强
链接 | 语言 | 描述 |
---|---|---|
pyroomacoustics | Python | Pyroomacoustics 是一个面向室内应用的音频信号处理包。它被开发为室内场景中的波束成形算法的快速原型设计平台。https://pyroomacoustics.readthedocs.io |
gpuRIR | Python | 用于 GPU 加速的房间脉冲响应 (RIR) 模拟的 Python 库 |
rir_simulator_python | Python | 使用 Python 的房间脉冲响应模拟器 |
WavAugment | Python 和 PyTorch | WavAugment 对音频数据进行数据增强。音频数据表示为 PyTorch 张量 |
EEND_dataprep | Bash 和 Python | 用于生成模拟对话的食谱,用于训练端到端的语音分割模型。 |
其他软件
</SOURCE_TEXT>
链接 | 语言 | 描述 |
---|---|---|
VB Diarization | Python | 使用 Eigenvoice 和 HMM 前置的 VB 分析。 |
DOVER-Lap | Python | 用于组合分段系统输出的Python包 |
数据集
分段数据集
音频 | 分段标注 | 语言 | 价格 | 其他信息 |
---|---|---|---|---|
2000 NIST Speaker Recognition Evaluation | Disk-6 (Switchboard), Disk-8 (CALLHOME) | 多种语言 | $2400.00 | 评估计划 |
2003 NIST Rich Transcription Evaluation Data | 与音频一起 | en, ar, zh | $2000.00 | 电话讲话,广播新闻 |
CALLHOME American English Speech | CALLHOME American English Transcripts | en | $1500.00 + $1000.00 | CH109 白名单 |
The ICSI Meeting Corpus | 与音频一起 | en | 免费 | 许可证 |
The AMI Meeting Corpus | 与音频一起(需要处理) | 多种语言 | 免费 | 许可证 |
Fisher English Training Speech Part 1 Speech | Fisher English Training Speech Part 1 Transcripts | en | $7000.00 + $1000.00 | |
Fisher English Training Part 2, Speech | Fisher English Training Part 2, Transcripts | en | $7000.00 + $1000.00 | |
VoxConverse | 待定 | 待定 | 免费 | VoxConverse 是一个音频视觉分段数据集,由从 YouTube 视频中提取出来的超过 50 小时的多说话者片段组成 |
MiniVox Benchmark | MiniVox Benchmark | en | 免费 | MiniVox 是一个自动框架,可以将任何带有说话者标签的数据集转换为连续的语音数据流,并在每一集揭示标签反馈。 |
The AliMeeting Corpus | 与音频一起 | zh | 免费 |
说话者嵌入训练集
名称 | 话语 | 说话者 | 语言 | 价格 | 其他信息 |
---|---|---|---|---|---|
TIMIT | 6K+ | 630 | en | $250.00 | 发布于1993年,TIMIT语料库是最早的说话者识别数据集之一。 |
VCTK | 43K+ | 109 | en | 免费 | 大多数录音选自报纸、彩虹段落以及一个旨在识别说话者口音的段落。 |
LibriSpeech | 292K | 2K+ | en | 免费 | 大规模(1000小时)的朗读英语语料库。 |
Multilingual LibriSpeech (MLS) | ? | ? | en, de, nl, es, fr, it, pt, po | 免费 | 多语言LibriSpeech(MLS)数据集是一个适用于语音研究的大型多语言语料库。该数据集来源于 LibriVox 的有声读物,共包含8种语言 - 英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语、波兰语。 |
LibriVox | 180K | 9K+ | 多种语言 | 免费 | 免费的公共领域有声读物。LibriSpeech是LibriVox的一个处理过的子集。每个原始的未分割话语都可能非常长。 |
VoxCeleb 1&2 | 1M+ | 7K | 多种语言 | 免费 | VoxCeleb 是一个音视频数据集,由从上传到 YouTube 的采访视频中提取的短片段人类讲话组成。 |
The Spoken Wikipedia Corpora | 5K | 879 | en, de, nl | 免费 | 志愿者朗读维基百科文章。 |
CN-Celeb | 130K+ | 1K | zh | 免费 | 清华大学 CSLT 发布的一个免费的中文说话人识别语料库。 |
BookTubeSpeech | 8K | 8K | en | 免费 | 从BookTube视频中提取的音频样本 - 人们在这些视频中分享他们对书籍的看法 - 来源于 YouTube。可以使用 BookTubeSpeech-download 下载数据集。 |
DeepMine | 540K | 1850 | fa, en | 未知 | 一个波斯语和英语的语音数据库,旨在构建和评估说话者验证以及波斯语自动语音识别系统。 |
NISP-Dataset | ? | 345 | hi, kn, ml, ta, te(所有印度语言) | 免费 | 该数据集包含语音录音以及说话者物理参数(身高、体重,...)以及区域信息和语言信息。 |
VoxBlink2 | 10M | 100K+ | 18种语言(en, pt, es, ru, ar, ...) | CC BY-NC-SA 4.0 | 从 VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark 获取的多语言数据集。 |
增强噪声源
会议
会议/研讨会 | 频率 | 页数限制 | 组织机构 | 盲评 |
---|---|---|---|---|
ICASSP | 每年 | 4 + 1(参考) | IEEE | 否 |
InterSpeech | 每年 | 4 + 1(参考) | ISCA | 否 |
Speaker Odyssey | 每两年 | 8 + 2(参考) | ISCA | 否 |
SLT | 每两年 | 6 + 2(参考) | IEEE | 是 |
ASRU | 每两年 | 6 + 2(参考) | IEEE | 是 |
WASPAA | 每两年 | 4 + 1(参考) | IEEE | 否 |
IJCB | 每年 | 8 | IEEE 和 IAPR TC-4 | 是 |
其他学习资料
在线课程
- Udemy 课程: A Tutorial on Speaker Diarization
书籍
技术博客
- 说话者变化检测文献综述 作者 Halil Erdoğan
- 说话者分段:分离音频文件中的多位说话者 作者 Jaspreet Singh
- 使用Kaldi进行说话者分段 作者 Yoav Ramon
- 谁在什么时候说了话!如何从头构建自己的说话者分段模块 作者 Rahul Saxena
视频教程
- pyannote audio: neural building blocks for speaker diarization by Hervé Bredin
- Google's Diarization System: Speaker Diarization with LSTM by Google
- Fully Supervised Speaker Diarization: Say Goodbye to clustering by Google
- Turn-to-Diarize: Online Speaker Diarization Constrained by Transformer Transducer Speaker Turn Detection by Google
- Speaker Diarization: Optimal Clustering and Learning Speaker Embeddings by Microsoft Research
- Robust Speaker Diarization for Meetings: the ICSI system by Microsoft Research
- 【机器之心&博文视点】入门声纹技术|第二讲:声纹分割聚类与其他应用 by 王权
产品
公司 | 产品 |
---|---|
录音机应用 | |
谷歌云语音识别 API | |
Amazon | Amazon Transcribe |
IBM | Watson 语音转文本 API |
DeepAffects | Speaker Diarization API |
阿里巴巴 | 听悟 |
Microsoft | Azure 对话转录 API |