Project Icon

awesome-diarization

说话者分离和语音分割的数据集

提供全面的说话者分离资源,包括最新的论文、软件工具、数据集和学习材料,旨在推进语音分割和说话者识别技术的发展。这些资源汇集了深度学习的最新进展及其实际应用,帮助研究人员和开发者找到最有效的解决方案。

Awesome Speaker Diarization Awesome Contribution

目录

概述

这是一个精选的优秀说话人分段论文、库、数据集和其他资源的列表。

该仓库的目的是组织世界上所有的说话人分段资源,并使其普遍可访问且有用。

要向此页面添加项目,只需发送拉取请求。(贡献指南)

出版物

特殊主题

评论与综述

大型语言模型 (LLM)

有监督的分段

联合分段与自动语音识别

在线说话人分段

挑战

音频-视觉说话人分段

其他

2021

2020

2019

2018

2017

2016

2015

2014

2013

2011

2009

2008

2006

软件

框架

<SOURCE_TEXT>

链接语言描述
FunASR GitHub starsPython 和 PyTorchFunASR 是一个基于 PyTorch 的开源语音工具包,旨在弥合学术研究与工业应用之间的差距。
MiniVox GitHub starsMATLABMiniVox 是一个开源的在线说话人分离(diarization)任务评估系统。
SpeechBrain GitHub starsPython 和 PyTorchSpeechBrain 是一个基于 PyTorch 的开源全功能语音工具包。
SIDEKIT for diarization (s4d)Python一个 SIDEKIT 的开源扩展包,用于说话人分离。
pyAudioAnalysis GitHub starsPythonPython 音频分析库:特征提取、分类、分割和应用。
AaltoASR GitHub starsPython 和 Perl基于 AaltoASR 的说话人分离脚本。
LIUM SpkDiarizationJavaLIUM_SpkDiarization 是一款专用于说话人分离(即说话人分割和聚类)的软件。它是用 Java 编写的,并包含该领域最新的发展(截至 2013 年)。
kaldi-asr Build StatusBash用于对 2000 年 NIST 说话人识别评估中使用的一部分 CALLHOME 进行说话人分离的示例脚本。
kaldi-speaker-diarization GitHub starsBash使用 kaldi 进行冰岛语说话人分离的脚本。
Alize LIA_SpkSegC++ALIZÉ 是一个开源的平台用于说话人识别。LIA_SpkSeg 是用于说话人分离的工具。
pyannote-audio GitHub starsPython用于说话人分离的神经网络构建模块:语音活动检测、说话人变更检测、说话人嵌入。
pyBK GitHub starsPython使用二进制键说话人建模的说话人分离。无需外部训练数据的轻量级计算解决方案。
Speaker-Diarization GitHub starsPython使用 uis-rnn 和 GhostVLAD 进行说话人分离。支持开放集说话人的一种更简单的方法。
EEND GitHub starsPython 和 Bash 和 Perl端到端神经网络分离。
VBx GitHub starsPython基于 x-向量的变分贝叶斯 HMM 分离。x-向量提取器配方
RE-VERB GitHub starsPython 和 JavaScriptRE:VERB 是说话人分离系统,允许用户发送/录制对话音频并接收说话时间戳。
StreamingSpeakerDiarization GitHub starsPython流式说话人分离,扩展了 pyannote.audio 以进行在线处理。
simple_diarizerPython使用一些预训练模型的简化分离管道。旨在尽可能简单地从输入音频文件到分离段。
Picovoice Falcon GitHub starsC 和 Python一个轻量级、准确且快速的说话人分离引擎,用 C 编写并可在 Python 中使用,在 CPU 上运行时具有最低的开销。
DiaPer GitHub starsPythonPytorch 实现的 DiaPer: End-to-End Neural Diarization with Perceiver-Based Attractors ,包括在免费和公共数据上预训练的模型。
</SOURCE_TEXT>
链接语言描述
-----------------------
pyannote-metrics GitHub stars Build StatusPython一个用于可重复评估、诊断和说话人分离系统错误分析的工具包。
SimpleDER GitHub stars Python packagePython一个轻量级库,用于计算分离错误率(DER)。
DiarizationLM GitHub stars Build StatusPython实现了单词错误率(WER)、单词分离错误率(WDER)和串联最小排列单词错误率(cpWER)。
NIST md-evalPerl(1) 修改自 Mary Tai Knoxmd-eval.pl; (2) jitendramd-eval-v21.pl; (3) nryantmd-eval-22.pl
dscore GitHub starsPython & Perl分离评分工具。
Sequence Match AccuracyPython使用匈牙利算法匹配两个序列的准确性。
spyder GitHub starsPython & C++一个简单的Python包,用于快速计算DER。
CDER GitHub starsPython来自对话短语说话人分离(CSSD)任务:数据集、评估指标和基线的对话DER。

聚类

链接语言描述
uis-rnn GitHub stars Build StatusPython & PyTorch谷歌的无边界交错状态递归神经网络(UIS-RNN)算法,用于完全监督的说话人分离。这个聚类算法是监督的
uis-rnn-sml GitHub starsPython & PyTorchUIS-RNN的一个变体,用于论文《多领域数据的样本均值损失监督在线分离》。
DNC GitHub starsPython & ESPnet基于变压器的判别神经聚类(DNC)用于说话人分离。与UIS-RNN类似,它是监督的
SpectralCluster GitHub stars Build StatusPython带有亲和矩阵细化操作、自调节和说话人转换约束的谱聚类。
sklearn.cluster ![Build Status](https://raw.githubusercontent.com/wq2012/awesome-diarization/master/ https://api.travis-ci.org/scikit-learn/scikit-learn.svg?branch=master)Pythonscikit-learn 的聚类算法。
PLDA GitHub starsPython使用Python编写的概率线性判别分析及分类。
PLDA GitHub starsC++经典PLDA(概率线性判别分析)的开源实现。
Auto-Tuning Spectral Clustering GitHub starsPython不需要开发集和监督调整的自调节谱聚类方法。
<SOURCE_TEXT>
Link方法语言
------------------
resemble-ai/Resemblyzer GitHub starsd-vectorPython 和 PyTorch
Speaker_Verification GitHub starsd-vectorPython 和 TensorFlow
PyTorch_Speaker_Verification GitHub starsd-vectorPython 和 PyTorch
Real-Time Voice Cloning GitHub starsd-vectorPython 和 PyTorch
deep-speaker GitHub starsd-vectorPython 和 Keras
x-vector-kaldi-tf GitHub starsx-vectorPython 和 TensorFlow 和 Perl
kaldi-ivector GitHub starsi-vectorC++ 和 Perl
voxceleb-ivector GitHub starsi-vectorPerl
pytorch_xvectors GitHub starsx-vectorPython 和 PyTorch
ASVtorchi-vectorPython 和 PyTorch
asv-subtools GitHub starsi-vector 和 x-vectorKaldi 和 PyTorch
WeSpeaker GitHub starsx-vector 和 r-vectorPython 和 C++ 和 PyTorch
ReDimNet GitHub starsimproved resnetPytorch

说话人变化检测

链接语言描述
change_detection GitHub starsPython 和 Keras在电视播出中使用双向长短期记忆网络进行说话人变化检测的代码。
tidydiarize GitHub starsPythonOpenAI Whisper 解码器中的语音分割

音频特征提取

链接语言描述
LibROSA GitHub starsPython用于音频和音乐分析的 Python 库。https://librosa.github.io/
python_speech_features GitHub starsPython该库提供了用于自动语音识别 (ASR) 的常见语音特征,包括 MFCCs 和滤波器能量。https://python-speech-features.readthedocs.io/en/latest/
pyAudioAnalysis GitHub starsPythonPython 音频分析库:特征提取、分类、分割及应用。

音频数据增强

链接语言描述
pyroomacoustics GitHub starsPythonPyroomacoustics 是一个面向室内应用的音频信号处理包。它被开发为室内场景中的波束成形算法的快速原型设计平台。https://pyroomacoustics.readthedocs.io
gpuRIR GitHub starsPython用于 GPU 加速的房间脉冲响应 (RIR) 模拟的 Python 库
rir_simulator_python GitHub starsPython使用 Python 的房间脉冲响应模拟器
WavAugment GitHub starsPython 和 PyTorchWavAugment 对音频数据进行数据增强。音频数据表示为 PyTorch 张量
EEND_dataprep GitHub starsBash 和 Python用于生成模拟对话的食谱,用于训练端到端的语音分割模型。

其他软件

</SOURCE_TEXT>

链接语言描述
VB Diarization GitHub stars Build StatusPython使用 Eigenvoice 和 HMM 前置的 VB 分析。
DOVER-Lap GitHub starsPython用于组合分段系统输出的Python包

数据集

分段数据集

音频分段标注语言价格其他信息
2000 NIST Speaker Recognition EvaluationDisk-6 (Switchboard), Disk-8 (CALLHOME)多种语言$2400.00评估计划
2003 NIST Rich Transcription Evaluation Data与音频一起en, ar, zh$2000.00电话讲话,广播新闻
CALLHOME American English SpeechCALLHOME American English Transcriptsen$1500.00 + $1000.00CH109 白名单
The ICSI Meeting Corpus与音频一起en免费许可证
The AMI Meeting Corpus与音频一起(需要处理)多种语言免费许可证
Fisher English Training Speech Part 1 SpeechFisher English Training Speech Part 1 Transcriptsen$7000.00 + $1000.00
Fisher English Training Part 2, SpeechFisher English Training Part 2, Transcriptsen$7000.00 + $1000.00
VoxConverse待定待定免费VoxConverse 是一个音频视觉分段数据集,由从 YouTube 视频中提取出来的超过 50 小时的多说话者片段组成
MiniVox BenchmarkMiniVox Benchmarken免费MiniVox 是一个自动框架,可以将任何带有说话者标签的数据集转换为连续的语音数据流,并在每一集揭示标签反馈。
The AliMeeting Corpus与音频一起zh免费

说话者嵌入训练集

名称话语说话者语言价格其他信息
TIMIT6K+630en$250.00发布于1993年,TIMIT语料库是最早的说话者识别数据集之一。
VCTK43K+109en免费大多数录音选自报纸、彩虹段落以及一个旨在识别说话者口音的段落。
LibriSpeech292K2K+en免费大规模(1000小时)的朗读英语语料库。
Multilingual LibriSpeech (MLS)en, de, nl, es, fr, it, pt, po免费多语言LibriSpeech(MLS)数据集是一个适用于语音研究的大型多语言语料库。该数据集来源于 LibriVox 的有声读物,共包含8种语言 - 英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语、波兰语。
LibriVox180K9K+多种语言免费免费的公共领域有声读物。LibriSpeech是LibriVox的一个处理过的子集。每个原始的未分割话语都可能非常长。
VoxCeleb 1&21M+7K多种语言免费VoxCeleb 是一个音视频数据集,由从上传到 YouTube 的采访视频中提取的短片段人类讲话组成。
The Spoken Wikipedia Corpora5K879en, de, nl免费志愿者朗读维基百科文章。
CN-Celeb130K+1Kzh免费清华大学 CSLT 发布的一个免费的中文说话人识别语料库。
BookTubeSpeech8K8Ken免费从BookTube视频中提取的音频样本 - 人们在这些视频中分享他们对书籍的看法 - 来源于 YouTube。可以使用 BookTubeSpeech-download 下载数据集。
DeepMine540K1850fa, en未知一个波斯语和英语的语音数据库,旨在构建和评估说话者验证以及波斯语自动语音识别系统。
NISP-Dataset345hi, kn, ml, ta, te(所有印度语言)免费该数据集包含语音录音以及说话者物理参数(身高、体重,...)以及区域信息和语言信息。
VoxBlink210M100K+18种语言(en, pt, es, ru, ar, ...)CC BY-NC-SA 4.0VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark 获取的多语言数据集。

增强噪声源

名称话语价格其他信息
AudioSet2M免费一个大规模的手工注释音频事件数据集。
MUSANN/A免费MUSAN 是一个包含音乐、语音和噪声录音的语料库。

会议

会议/研讨会频率页数限制组织机构盲评
ICASSP每年4 + 1(参考)IEEE
InterSpeech每年4 + 1(参考)ISCA
Speaker Odyssey每两年8 + 2(参考)ISCA
SLT每两年6 + 2(参考)IEEE
ASRU每两年6 + 2(参考)IEEE
WASPAA每两年4 + 1(参考)IEEE
IJCB每年8IEEE 和 IAPR TC-4

其他学习资料

在线课程

书籍

技术博客

视频教程

产品

Star History

Star History Chart

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号