项目概述
这个项目名为"bert-base-polish-cased-v1",是一个针对波兰语的BERT语言模型。该模型提供了大小写敏感(cased)和大小写不敏感(uncased)两个版本,其中推荐使用大小写敏感版本,因为它能更好地处理波兰语的特殊字符和重音符号。
模型特点
- 基于BERT-base架构,包含12层transformer、768维隐藏层、12个注意力头,总参数量约1.1亿
- 支持完整词遮蔽(Whole Word Masking)技术
- 针对波兰语特点进行了专门优化,能够正确处理波兰语的特殊字符和重音符号
- 使用了经过去重和平衡处理的高质量语料库进行训练
训练数据
该模型使用了多个波兰语语料库进行训练,主要包括:
- 经过去重处理的Open Subtitles波兰语子集
- ParaCrawl波兰语语料库
- 波兰议会语料库
- 波兰维基百科(2020年2月版本) 这些语料库经过句子分割和标记化处理后用于模型训练。
训练过程
模型训练采用了分阶段训练策略:
- 第一阶段:序列长度128,批量大小2048,学习率1e-4,训练10万步
- 第二阶段:序列长度128,批量大小2048,学习率5e-5,训练10万步
- 第三阶段:序列长度512,批量大小256,学习率2e-5,训练10万步
应用场景
该模型主要应用于:
- 波兰语自然语言理解任务
- 文本分类
- 命名实体识别
- 情感分析
- 问答系统
- 文本填充等任务
性能表现
在KLEJ基准测试(波兰语理解任务评估集)中,该模型在9个评估任务上取得了优秀成绩:
- 平均得分达到81.7分
- 在命名实体识别(NKJP-NER)任务上达到93.6分
- 在文本分类等多个任务上均表现出色
使用建议
研究者在使用该模型时需要注意:
- 建议优先使用大小写敏感版本
- 需要注意模型可能存在性别、种族等方面的偏见
- 可以通过HuggingFace Transformers库直接调用使用
- 针对不同任务可能需要进行适当的微调