#Wav2vec 2.0
wav2vec2-large-voxrex-swedish - 基于Wav2vec 2.0的瑞典语语音识别模型实现低错误率
Wav2vec 2.0Huggingface模型瑞典语语音识别Github开源项目VoxRexCommon Voice
该项目提供了一个基于Wav2vec 2.0 large VoxRex模型微调的瑞典语语音识别模型。模型使用瑞典广播、NST和Common Voice数据集进行训练,在Common Voice测试集上达到8.49%的词错误率,在NST和Common Voice混合测试集上仅为2.5%。模型支持16kHz采样率的语音输入,可直接使用无需额外语言模型。项目还包含详细的使用说明和性能对比分析。
wav2vec2-large-robust-12-ft-emotion-msp-dim - 基于Wav2vec 2.0的多维语音情感识别模型
Wav2vec 2.0Huggingface模型语音情感识别音频分类Github开源项目神经网络模型MSP-Podcast
该模型基于Wav2vec 2.0技术,通过在MSP-Podcast数据集上微调Wav2Vec2-Large-Robust模型实现。它能够处理原始音频信号,识别语音中的唤醒度、支配度和效价三个维度,输出0-1范围内的情感预测结果。此外,模型还提供最后一个transformer层的池化状态,为语音情感分析研究提供了有力支持。