#自我监督学习
japanese-hubert-base - 日语HuBERT Base自监督语音学习模型
HuBERT开源项目模型Githubrinna/japanese-hubert-baseHuggingface日语语音模型ReazonSpeech自我监督学习
rinna Co., Ltd.发布的日语HuBERT Base模型,采用与原始HuBERT相同的12层变换器结构,通过ReazonSpeech语料库的19000小时语音数据进行训练,支持自监督语音表示学习。模型提供详尽的训练配置和论文参考,便于研究和应用。使用Transformers库可方便地实现日语语音处理。
dit-base-finetuned-rvlcdip - 基于自监督学习的文档图像转换模型应用
文档分类自我监督学习视觉编码器Document Image TransformerRVL-CDIPHuggingfaceGithub开源项目模型
Document Image Transformer 是一种基于 Transformer 的模型,专为自监督学习而设计,通过大量文档图像来学习图像的内在表示。经过 RVL-CDIP 数据集的细调,该模型适用于文档图像分类、表格检测和文档布局分析等任务。通过在预训练编码器上添加线性层,可以灵活实现不同任务的目标。模型将图像划分为16x16像素固定块,并使用离散 VAE 编码器的视觉 token 进行预测。该技术解决方案在灰度图像分类中表现出色,尤其是在细分类别的文档图像任务中。