BERTurk项目介绍
BERTurk是一个社区驱动的土耳其语BERT模型项目。它由巴伐利亚州立图书馆的MDZ数字图书馆团队(dbmdz)开源发布,是一个针对土耳其语的区分大小写的BERT模型。
模型训练
BERTurk模型的训练数据来源丰富,包括:
- 经过过滤和分句处理的土耳其语OSCAR语料库
- 最新的维基百科语料库
- 多个OPUS语料库
- Kemal Oflazer提供的特殊语料库
最终的训练语料库规模达到35GB,包含44,049,766,620个标记。借助Google的TensorFlow Research Cloud (TFRC)提供的TPU v3-8,该模型经过了200万步的训练。
模型使用
BERTurk模型目前提供PyTorch-Transformers兼容的权重。用户可以通过以下代码轻松加载模型:
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("dbmdz/bert-base-turkish-cased")
model = AutoModel.from_pretrained("dbmdz/bert-base-turkish-cased")
模型评估
该项目在GitHub上提供了一个专门的仓库,用于评估BERTurk模型在词性标注和命名实体识别等任务上的性能。感兴趣的用户可以访问该仓库获取详细的评估结果。
模型获取
所有模型都可以在Hugging Face模型仓库中找到,方便用户下载和使用。
项目贡献与支持
该项目得到了土耳其自然语言处理社区的大力支持,包括提供数据集用于预训练和评估。项目名称"BERTurk"也是由社区共同决定的。
此外,项目还要感谢Kemal Oflazer提供的额外大型土耳其语语料库,以及Reyyan Yeniterzi提供的土耳其语命名实体识别数据集。Google的TensorFlow Research Cloud(TFRC)为项目提供了云TPU支持,Hugging Face团队则为模型提供了存储支持。
对于BERTurk模型有任何问题或反馈,用户可以在项目的GitHub仓库中提出issue。项目团队欢迎社区的参与和贡献,共同推动土耳其语自然语言处理技术的发展。