bcms-bertic-ner

bcms-bertic-ner项目介绍

bcms-bertic-ner是一个专门为波斯尼亚语、克罗地亚语、黑山语和塞尔维亚语（简称BCMS）进行命名实体识别（NER）任务而设计的模型。这个模型是在BERTić基础模型上进行微调得到的。BERTić模型的名称灵感来源于两个事实：一是该模型在克罗地亚的萨格勒布训练，那里流行使用以"-ić"结尾的指小词；二是在使用这些语言的国家中，大多数姓氏都以"-ić"结尾。

模型训练数据

该模型的微调过程使用了以下四个数据集：

hr500k数据集：包含50万个标准克罗地亚语标记
SETimes.SR数据集：包含8.7万个标准塞尔维亚语标记
ReLDI-hr数据集：包含8.9万个来自互联网（Twitter）的克罗地亚语标记
ReLDI-sr数据集：包含9.2万个来自互联网（Twitter）的塞尔维亚语标记

数据增强和模型性能

在训练过程中，研究人员对数据进行了增强处理，包括添加缺失的变音符号，并对标准数据进行了过度表示。在开发数据上（将训练集和测试集合并为训练集），模型achieved了91.38的F1分数。

模型应用

bcms-bertic-ner模型可以识别四种类型的命名实体：人名（PER）、地点（LOC）、组织（ORG）和其他杂项（MISC）。这使得该模型在处理BCMS语言的文本时，能够自动识别和标注这些重要的实体信息。

使用方法

研究人员可以使用simpletransformers库来运行这个模型。在使用时，需要正确设置标签的顺序。示例代码如下：

from simpletransformers.ner import NERModel, NERArgs
model_args = NERArgs()
model_args.labels_list = ['B-LOC','B-MISC','B-ORG','B-PER','I-LOC','I-MISC','I-ORG','I-PER','O']
model = NERModel('electra', 'classla/bcms-bertic-ner', args=model_args)