#HuBERT
bark-voice-cloning-HuBERT-quantizer - Python 3.10下的Bark高质量语音克隆,多语言支持
Barkvoice cloningHuBERTquantizerpythonGithub开源项目
该项目提供了一种在Python 3.10环境下,利用Bark进行高质量语音克隆的方法,并兼容多种语言的HuBERT模型和定制量化器模型。通过Huggingface模型页面、音频Web UI和在线交互式笔记本,用户可以获取代码实例和实现语音克隆。项目还包括语音输入要求和训练指南,帮助开发者实现语音克隆功能。
chinese_speech_pretrain - 中文语音预训练模型,wav2vec 2.0和HuBERT的开源实现
语音预训练模型中文语音识别wav2vec 2.0HuBERTWenetSpeechGithub开源项目
chinese_speech_pretrain项目开源了基于WenetSpeech数据集训练的中文语音预训练模型。项目包含wav2vec 2.0和HuBERT的BASE与LARGE版本,均使用1万小时多样化中文语音数据训练。模型在自动语音识别任务中表现优异,尤其适合低资源场景。项目提供模型下载及使用指南,可用于语音识别、语音合成等研究领域。
hubert-large-ls960-ft - Facebook开发的HuBERT大型语音识别模型实现低错误率转录
Huggingface模型机器学习语音识别LibrispeechGithub开源项目HuBERT自监督学习
HuBERT-Large-LS960-FT是Facebook AI开发的大型语音识别模型,在960小时LibriSpeech数据集上微调。该模型处理16kHz采样语音,在LibriSpeech和Libri-light基准测试中表现优异,显著降低词错误率。采用自监督学习方法,结合声学和语言模型,为语音识别、生成和压缩提供强大表示学习能力。
hubert-large-speech-emotion-recognition-russian-dusha-finetuned - HuBERT模型在俄语语音情感识别上的应用与优化
Huggingface模型语音情感识别Github预训练模型开源项目微调俄语HuBERT
该项目利用DUSHA数据集对HuBERT模型进行微调,实现了俄语语音情感识别。经优化后的模型在测试集上表现突出,准确率达0.86,宏F1分数为0.81,超越了数据集基准。模型能够识别中性、愤怒、积极、悲伤等情绪类型。项目还提供了简洁的使用示例代码,便于研究人员和开发者将其集成到语音情感分析任务中。
hubert-base-persian-speech-gender-recognition - HuBERT波斯语语音性别识别模型
模型Wav2Vec2开源项目HuBERTHuggingfaceGithub深度学习波斯语语音性别识别
这是一个基于HuBERT的波斯语语音性别识别模型。该模型利用先进的语音处理技术,能够准确区分男女声音。在测试中,模型表现优异,F1分数达0.98。项目提供了完整的使用指南,涵盖环境设置、模型调用和预测流程。这一工具可广泛应用于语音分析和用户画像等领域。
japanese-hubert-large - 大规模日语语音表示学习模型HuBERT
模型rinna开源项目HuBERT自监督学习Huggingface语音识别Github日语语音模型
rinna公司训练的日语HuBERT Large模型采用24层transformer架构,在19,000小时ReazonSpeech语料库上训练。该模型能够提取1024维日语语音特征表示,为语音识别、合成等任务提供基础。研究人员和开发者可利用此开源模型进行各种日语语音处理应用的开发。模型采用Apache 2.0开源协议,使用方便。可通过Hugging Face transformers库轻松加载使用,支持提取日语语音特征。该项目还提供了fairseq格式的检查点文件,方便研究人员进行深入研究和二次开发。
japanese-hubert-base - 日语HuBERT Base自监督语音学习模型
HuBERT开源项目模型Githubrinna/japanese-hubert-baseHuggingface日语语音模型ReazonSpeech自我监督学习
rinna Co., Ltd.发布的日语HuBERT Base模型,采用与原始HuBERT相同的12层变换器结构,通过ReazonSpeech语料库的19000小时语音数据进行训练,支持自监督语音表示学习。模型提供详尽的训练配置和论文参考,便于研究和应用。使用Transformers库可方便地实现日语语音处理。
hubert-base-superb-ks - 基于HuBERT的语音命令词识别与关键词检测模型
语音识别音频分类HuggingfaceSUPERB关键词检测开源项目模型HuBERTGithub
该语音关键词检测系统基于HuBERT预训练模型开发,可识别Speech Commands数据集中的10类预设命令词、静音和未知类别。模型在测试集达到96.72%准确率,支持16kHz采样率音频输入,集成transformers pipeline接口,便于设备端快速部署和调用。