#性别识别

inaSpeechSegmenter: 强大的音频分割工具包

2024年09月05日

语音分割性别识别音频处理机器学习开源工具 Github 开源项目

2024年09月05日

相关项目

inaSpeechSegmenter

inaSpeechSegmenter是一个基于CNN的开源音频分割工具包，主要用于语音活动检测和说话人性别分割。该工具能将音频分为语音、音乐和噪音区域，并对语音部分进行男女性别标注。在法语媒体测试中表现出色，已应用于多项性别代表性研究。兼容Python 3.7到3.12版本，提供命令行和API接口，支持pip安装和Docker部署。

wav2vec2-large-robust-24-ft-age-gender

项目采用Wav2vec 2.0架构，构建了24层深度神经网络用于音频年龄和性别识别。通过多数据集微调，模型能准确预测0-100岁年龄段，并区分说话者为儿童、女性或男性。额外功能包括输出最终transformer层的池化状态。支持ONNX格式导出，并提供全面使用指南，为音频分析和语音处理研究提供了有力支持。

wav2vec2-large-xlsr-53-gender-recognition-librispeech

这是一个基于facebook/wav2vec2-xls-r-300m模型在Librispeech-clean-100数据集上微调的音频性别识别模型。模型在评估集上达到0.9993的F1分数，性能表现优异。项目提供了完整的推理代码，包括自定义数据集处理和批量音频处理功能。训练过程采用了Adam优化器和线性学习率调度等策略。该模型为音频性别识别任务提供了一个高效可靠的解决方案。

Gender-Classification

Gender-Classification是一个基于distilbert-base-uncased模型微调的性别分类项目。模型经过5轮训练，在验证集上达到了接近100%的分类准确率。项目采用Adam优化器和线性学习率调度器，学习率为2e-05。模型基于Transformers 4.25.1和PyTorch 1.13.0框架开发，为性别识别任务提供了一个参考实现。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com