#日语预训练模型

bert-base-japanese-v3 - 日语BERT预训练模型：全词掩码和大规模语料库训练

模型BERTGithub词级别分词开源项目Huggingface机器学习日语预训练模型自然语言处理

bert-base-japanese-v3是基于BERT架构的日语预训练模型，采用Unidic 2.1.2词典分词和全词掩码技术。该模型在CC-100和日语维基百科语料上训练，拥有12层结构和768维隐藏状态。模型适用于各种日语自然语言处理任务，为研究和开发提供了强大支持。

bert-base-japanese-whole-word-masking - 基于日语维基百科的BERT预训练模型采用全词掩码技术

维基百科语料Huggingface模型日语预训练模型BERTGithub开源项目自然语言处理全词掩码

该BERT模型基于日语维基百科数据预训练，采用IPA词典和MeCab进行分词，并引入全词掩码技术。模型架构与BERT base一致，包含12层结构、768维隐藏状态和12个注意力头。训练语料来自2019年9月的日语维基百科，词表规模为32000。模型在Cloud TPUs上训练完成，遵循原始BERT的训练配置，并以CC BY-SA 3.0许可证发布。

bert-base-japanese-char-v3 - BERT-base日语字符级预训练模型

Huggingface模型日语预训练模型BERTGithub开源项目自然语言处理全词掩码字符级分词

bert-base-japanese-char-v3是一个基于BERT架构的日语预训练模型，采用字符级分词和整词掩码策略。模型在CC-100和日语维基百科上训练，具有12层结构和7027词汇量。它使用MeCab和Unidic 2.1.2进行分词，在TPU上训练了200万步，为日语NLP任务提供了有力支持。

bert-base-japanese-v2 - 日语BERT预训练模型：全词屏蔽和Unidic分词

模型维基百科BERTGithub分词全词掩码Huggingface开源项目日语预训练模型

bert-base-japanese-v2是基于日语维基百科预训练的BERT模型，采用unidic-lite词典和全词屏蔽策略。模型架构包含12层、768维隐藏状态和12个注意力头。它结合MeCab和WordPiece算法进行分词，词表大小为32768。模型在512个token实例上进行了100万步训练，耗时约5天。该模型适用于多种日语自然语言处理任务，为研究人员和开发者提供了强大的日语语言理解工具。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号