项目概述
DistilBERTurk是一个针对土耳其语的社区驱动的预训练语言模型,它是通过知识蒸馏技术从BERTurk模型中得到的更小更快的版本。该项目由巴伐利亚州立图书馆的MDZ数字图书馆团队(dbmdz)开源发布。
模型特点
- 该模型是一个区分大小写的土耳其语模型
- 使用了7GB的原始BERTurk训练数据进行训练
- 采用了Hugging Face官方的知识蒸馏实现方案
- 在4块RTX 2080 TI显卡上训练了5天
- 基于Sanh等人2019年发表的DistilBERT论文中的蒸馏技术
模型性能
- 在词性标注任务上,DistilBERTurk的表现优于24层的XLM-RoBERTa模型
- 与教师模型BERTurk相比,整体性能只相差约1.18%
- 模型尺寸更小,推理速度更快,资源消耗更少
使用方法
该模型支持通过Transformers库(2.3版本以上)进行加载使用。用户可以通过简单的Python代码来加载模型和分词器:
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("dbmdz/distilbert-base-turkish-cased")
model = AutoModel.from_pretrained("dbmdz/distilbert-base-turkish-cased")
技术支持
- 模型已在Hugging Face模型库中开源
- 用户可以通过GitHub issues提交问题和反馈
- 项目团队提供持续的技术支持和维护
致谢
该项目得到了多方支持:
- Kemal Oflazer提供了大量土耳其语语料
- Reyyan Yeniterzi提供了土耳其语命名实体识别数据集
- Google的TensorFlow Research Cloud(TFRC)提供了云TPU支持
- Hugging Face团队提供了模型存储支持