#Wav2vec 2.0

wav2vec2-large-robust-24-ft-age-gender - Wav2vec 2.0驱动的24层神经网络实现音频年龄性别识别
模型音频分类开源项目Huggingface年龄识别性别识别Wav2vec 2.0语音识别Github
项目采用Wav2vec 2.0架构,构建了24层深度神经网络用于音频年龄和性别识别。通过多数据集微调,模型能准确预测0-100岁年龄段,并区分说话者为儿童、女性或男性。额外功能包括输出最终transformer层的池化状态。支持ONNX格式导出,并提供全面使用指南,为音频分析和语音处理研究提供了有力支持。
wav2vec2-large-voxrex-swedish - 基于Wav2vec 2.0的瑞典语语音识别模型实现低错误率
Wav2vec 2.0Huggingface模型瑞典语语音识别Github开源项目VoxRexCommon Voice
该项目提供了一个基于Wav2vec 2.0 large VoxRex模型微调的瑞典语语音识别模型。模型使用瑞典广播、NST和Common Voice数据集进行训练,在Common Voice测试集上达到8.49%的词错误率,在NST和Common Voice混合测试集上仅为2.5%。模型支持16kHz采样率的语音输入,可直接使用无需额外语言模型。项目还包含详细的使用说明和性能对比分析。
wav2vec2-large-robust-12-ft-emotion-msp-dim - 基于Wav2vec 2.0的多维语音情感识别模型
Wav2vec 2.0Huggingface模型语音情感识别音频分类Github开源项目神经网络模型MSP-Podcast
该模型基于Wav2vec 2.0技术,通过在MSP-Podcast数据集上微调Wav2Vec2-Large-Robust模型实现。它能够处理原始音频信号,识别语音中的唤醒度、支配度和效价三个维度,输出0-1范围内的情感预测结果。此外,模型还提供最后一个transformer层的池化状态,为语音情感分析研究提供了有力支持。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号