项目概述
这是一个德语 BERT 模型项目,由巴伐利亚州立图书馆的 MDZ 数字图书团队(dbmdz)开发并开源。该项目主要提供了两个版本的德语 BERT 模型:区分大小写(cased)和不区分大小写(uncased)的版本。
数据来源
该模型的训练数据来自多个语料库,包括:
- 最新的维基百科数据
- 欧盟图书馆语料库
- 开放字幕数据
- CommonCrawl数据
- ParaCrawl数据
- 新闻爬取数据
这些数据总计达到16GB,包含超过23.5亿个标记(tokens)。
技术特点
- 使用spacy工具进行句子分割
- 预处理步骤参考了SciBERT的训练方法
- 初始序列长度设置为512个子词单元
- 模型训练持续了150万步
- 支持PyTorch-Transformers框架
使用方法
在Transformers 2.3及以上版本中,可以通过简单的Python代码加载模型:
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-german-cased")
model = AutoModel.from_pretrained("dbmdz/bert-base-german-cased")
技术支持
- 模型已部署在Huggingface模型仓库中
- 用户可以在项目的GitHub仓库中提出问题和反馈
- 项目得到了Google TensorFlow Research Cloud (TFRC)的云TPU支持
- Hugging Face团队提供了模型的存储支持
应用价值
这个项目为德语自然语言处理任务提供了重要的基础模型,可以用于命名实体识别(NER)、词性标注(PoS tagging)等下游任务。它的开源特性使得研究人员和开发者能够freely使用这些预训练模型来改进他们的德语相关应用。