BERT base Japanese 项目介绍
项目概述
BERT base Japanese (v2) 是一个基于BERT架构的日语预训练模型。该模型采用了日语Wikipedia作为训练语料,使用了词级别和子词级别的分词方法,并引入了全词掩码策略来进行掩码语言建模任务的训练。这个项目旨在为日语自然语言处理任务提供一个强大的预训练模型基础。
模型架构
该模型沿用了原始BERT base模型的架构设计,包括12层Transformer编码器,768维隐藏状态,以及12个注意力头。这种架构设计使得模型具有较强的特征提取和表示学习能力。
训练数据
模型的训练语料来自2020年8月31日的日语Wikipedia Cirrussearch转储文件。经过处理后,训练语料总计约4.0GB,包含大约3000万个句子。研究团队使用MeCab形态素分析器和mecab-ipadic-NEologd词典来进行句子切分,以确保训练数据的质量。
分词方法
BERT base Japanese采用了两阶段的分词策略:
- 首先使用MeCab配合Unidic 2.1.2词典进行词级别分词
- 然后使用WordPiece算法进行子词级别分词
这种分词方法能够很好地处理日语文本的特点,词表大小为32768。研究团队使用了fugashi和unidic-lite这两个Python包来实现分词过程。
训练细节
模型的训练配置与原始BERT保持一致:
- 每个训练实例包含512个token
- 每个批次包含256个实例
- 总共训练100万步
在掩码语言建模任务中,研究团队引入了全词掩码策略,即同时掩盖属于同一个词的所有子词token。这有助于模型学习更好的语义表示。
训练使用了Google Cloud的TPU v3-8实例,整个训练过程持续了约5天。
许可证和致谢
该预训练模型采用了Creative Commons Attribution-ShareAlike 3.0许可证发布,允许在遵守相关条款的情况下自由使用和分享。研究团队对TensorFlow Research Cloud项目提供的Cloud TPU资源表示感谢,这为模型的训练提供了强大的硬件支持。
总结
BERT base Japanese (v2) 项目为日语自然语言处理任务提供了一个强大的预训练模型。通过结合词级别和子词级别的分词,以及全词掩码等创新策略,该模型在日语文本理解和表示学习方面展现出了良好的性能。研究人员和开发者可以基于此模型进行进一步的微调,以应用于各种日语NLP任务。