inaSpeechSegmenter
inaSpeechSegmenter是一个基于CNN的开源音频分割工具包,主要用于语音活动检测和说话人性别分割。该工具能将音频分为语音、音乐和噪音区域,并对语音部分进行男女性别标注。在法语媒体测试中表现出色,已应用于多项性别代表性研究。兼容Python 3.7到3.12版本,提供命令行和API接口,支持pip安装和Docker部署。
wav2vec2-large-robust-24-ft-age-gender
项目采用Wav2vec 2.0架构,构建了24层深度神经网络用于音频年龄和性别识别。通过多数据集微调,模型能准确预测0-100岁年龄段,并区分说话者为儿童、女性或男性。额外功能包括输出最终transformer层的池化状态。支持ONNX格式导出,并提供全面使用指南,为音频分析和语音处理研究提供了有力支持。
wav2vec2-large-xlsr-53-gender-recognition-librispeech
这是一个基于facebook/wav2vec2-xls-r-300m模型在Librispeech-clean-100数据集上微调的音频性别识别模型。模型在评估集上达到0.9993的F1分数,性能表现优异。项目提供了完整的推理代码,包括自定义数据集处理和批量音频处理功能。训练过程采用了Adam优化器和线性学习率调度等策略。该模型为音频性别识别任务提供了一个高效可靠的解决方案。
Gender-Classification
Gender-Classification是一个基于distilbert-base-uncased模型微调的性别分类项目。模型经过5轮训练,在验证集上达到了接近100%的分类准确率。项目采用Adam优化器和线性学习率调度器,学习率为2e-05。模型基于Transformers 4.25.1和PyTorch 1.13.0框架开发,为性别识别任务提供了一个参考实现。