#日语预训练模型
bert-base-japanese-v3 - 日语BERT预训练模型:全词掩码和大规模语料库训练
模型BERTGithub词级别分词开源项目Huggingface机器学习日语预训练模型自然语言处理
bert-base-japanese-v3是基于BERT架构的日语预训练模型,采用Unidic 2.1.2词典分词和全词掩码技术。该模型在CC-100和日语维基百科语料上训练,拥有12层结构和768维隐藏状态。模型适用于各种日语自然语言处理任务,为研究和开发提供了强大支持。
bert-base-japanese-whole-word-masking - 基于日语维基百科的BERT预训练模型 采用全词掩码技术
维基百科语料Huggingface模型日语预训练模型BERTGithub开源项目自然语言处理全词掩码
该BERT模型基于日语维基百科数据预训练,采用IPA词典和MeCab进行分词,并引入全词掩码技术。模型架构与BERT base一致,包含12层结构、768维隐藏状态和12个注意力头。训练语料来自2019年9月的日语维基百科,词表规模为32000。模型在Cloud TPUs上训练完成,遵循原始BERT的训练配置,并以CC BY-SA 3.0许可证发布。
bert-base-japanese-char-v3 - BERT-base日语字符级预训练模型
Huggingface模型日语预训练模型BERTGithub开源项目自然语言处理全词掩码字符级分词
bert-base-japanese-char-v3是一个基于BERT架构的日语预训练模型,采用字符级分词和整词掩码策略。模型在CC-100和日语维基百科上训练,具有12层结构和7027词汇量。它使用MeCab和Unidic 2.1.2进行分词,在TPU上训练了200万步,为日语NLP任务提供了有力支持。
bert-base-japanese-v2 - 日语BERT预训练模型:全词屏蔽和Unidic分词
模型维基百科BERTGithub分词全词掩码Huggingface开源项目日语预训练模型
bert-base-japanese-v2是基于日语维基百科预训练的BERT模型,采用unidic-lite词典和全词屏蔽策略。模型架构包含12层、768维隐藏状态和12个注意力头。它结合MeCab和WordPiece算法进行分词,词表大小为32768。模型在512个token实例上进行了100万步训练,耗时约5天。该模型适用于多种日语自然语言处理任务,为研究人员和开发者提供了强大的日语语言理解工具。