项目介绍: flair-ner-spanish-judicial
项目背景
flair-ner-spanish-judicial项目是一个面向西班牙语司法领域的命名实体识别模型。这个项目是【Collective.ai】团队在AymurAI项目框架内由DataGenero组织开发的一部分。其目标是改善拉丁美洲关于性别暴力的司法数据的可用性,以增进报告水平、提升司法系统的信任度,并改善女性和LGBTIQ+群体的司法可及性。
AymurAI 及其使用与局限
AymurAI的目的是通过生成与维护基于性别暴力的法律判决的匿名数据集,来帮助政策制定以及支持女权运动。当前,该工具还在概念验证阶段,仅在阿根廷布宜诺斯艾利斯市的第10刑事法庭中使用。AymurAI能够进行半自动化的数据采集与分析,不过受限于数据质量、可获得性、法庭官员的合作程度以及更广泛的文化、政治环境,其效果也可能受到一定影响。
模型说明
flair-ner-spanish-judicial模型使用西班牙语的BERT嵌入(称为BETO嵌入)和BiLSTM-CRF架构进行训练。它是使用阿根廷刑事法院提供的闭源数据集专门训练的,目的是精准识别和提取与性别暴力相关的法院裁决中的重要信息。
模型的使用
该模型需要使用Flair库进行加载和使用。通过以下代码示例,我们可以了解其基本用法:
from flair.data import Sentence
from flair.models import SequenceTagger
# 加载标注器
tagger = SequenceTagger.load("aymurai/flair-ner-spanish-judicial")
# 创建示例句子
sentence = Sentence("1. DECLARAR EXTINGUIDA LA ACCIÓN PENAL en este caso por cumplimiento de la suspensión del proceso a prueba, y SOBRESEER a EZEQUIEL CAMILO MARCONNI, DNI 11.222.333, en orden a los delitos de lesiones leves agravadas, amenazas simples y agravadas por el uso de armas.")
# 预测NER标签
tagger.predict(sentence)
# 打印句子
print(sentence)
# 打印预测的NER范围
print('发现以下NER标签:')
# 迭代实体并打印
for entity in sentence.get_spans('ner'):
print(entity)
运行上述代码后,可以得到针对句子中不同实体的识别结果。
实体及指标
该模型通过1200个来自阿根廷法院的法律裁决数据集进行训练。以下是预测时模型的评价指标,包括精确度(precision)、召回率(recall)和F1得分(f1-score)等。
实体 | 精确度 | 召回率 | F1得分 |
---|---|---|---|
FECHA_DE_NACIMIENTO | 0.98 | 0.99 | 0.99 |
FECHA_RESOLUCION | 0.95 | 0.98 | 0.96 |
NACIONALIDAD | 0.94 | 0.98 | 0.96 |
GENERO | 1.00 | 0.50 | 0.67 |
HORA_DE_INICIO | 0.98 | 0.92 | 0.95 |
NOMBRE | 0.94 | 0.95 | 0.95 |
FRASES_AGRESION | 0.90 | 0.98 | 0.94 |
...... | ..... | ..... | ..... |
其他信息
关于实体的完整描述、项目的更多技术细节以及开发的开源仓库信息,读者可以访问以下链接:
flair-ner-spanish-judicial是一个旨在推动司法系统性别平等改革的有价值的工具,其在特定领域上的准确和全面的数据分析能力为司法与社会学研究提供了坚实的支持。