japanese-hubert-base - 日语HuBERT Base自监督语音学习模型

项目介绍：Japanese HuBERT Base

japanese-hubert-base 是由 rinna 株式会社训练的一个日语 HuBERT 基础模型。这个模型以其独特的训练结构和方法，致力于提升日语语音处理的表现。

模型概述

Japanese HuBERT Base 模型的架构与原始 HuBERT 基础模型相同，包含 12 个 Transformer 层，每层具有 12 个注意力头。这个模型使用来自官方库的代码进行训练，详细的训练配置可以在此库以及原始论文中找到。

训练细节

该模型使用大约 19,000 小时的日文语音语料库 ReazonSpeech v1 进行训练。ReazonSpeech 是一个广泛使用的语料库，提供了丰富的日语语音数据。这确保了模型在处理真实世界任务时能够有较好的表现。

主要贡献者

模型的开发得到了以下几个专家的贡献：

如何使用模型

用户可以通过以下 Python 代码来使用这个模型：

import soundfile as sf
from transformers import AutoFeatureExtractor, AutoModel

model_name = "rinna/japanese-hubert-base"
feature_extractor = AutoFeatureExtractor.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
model.eval()

raw_speech_16kHz, sr = sf.read(audio_file)
inputs = feature_extractor(
    raw_speech_16kHz,
    return_tensors="pt",
    sampling_rate=sr,
)
outputs = model(**inputs)

print(f"Input:  {inputs.input_values.size()}")  # [1, #samples]
print(f"Output: {outputs.last_hidden_state.size()}")  # [1, #frames, 768]

用户还可以通过这个链接获取 fairseq 的 checkpoint 文件。

参考文献

在使用该模型或发表相关研究时，用户可以引用以下文献：

@misc{rinna-japanese-hubert-base,
    title = {rinna/japanese-hubert-base},
    author = {Hono, Yukiya and Mitsui, Kentaro and Sawada, Kei},
    url = {https://huggingface.co/rinna/japanese-hubert-base}
}

@inproceedings{sawada2024release,
    title = {Release of Pre-Trained Models for the {J}apanese Language},
    author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
    booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
    month = {5},
    year = {2024},
    pages = {13898--13905},
    url = {https://aclanthology.org/2024.lrec-main.1213},
    note = {\url{https://arxiv.org/abs/2404.01657}}
}

此外，也可以参考以下论文了解 HuBERT 的详细信息：

@article{hsu2021hubert,
    author = {Hsu, Wei-Ning and Bolte, Benjamin and Tsai, Yao-Hung Hubert and Lakhotia, Kushal and Salakhutdinov, Ruslan and Mohamed, Abdelrahman},
    journal = {IEEE/ACM Transactions on Audio, Speech, and Language Processing},
    title = {HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units},
    year = {2021},
    volume = {29},
    pages = {3451-3460},
    doi = {10.1109/TASLP.2021.3122291}
}

授权许可

该模型以 Apache 2.0 授权发布，用户可以根据许可要求自由使用与分发。