ner-bert-base-cased-pt-lenerbr项目介绍
项目概述
ner-bert-base-cased-pt-lenerbr是一个专门用于葡萄牙语法律领域的命名实体识别(NER)模型。该模型基于BERT架构,在LeNER-Br数据集上进行了微调,能够识别法律文本中的各类命名实体。
模型特点
- 基于BERT base模型架构
- 针对葡萄牙语法律领域进行了专门训练
- 在LeNER-Br数据集上进行了微调
- 支持识别多种法律领域的命名实体类型
性能指标
该模型在验证集上的主要性能指标如下:
- F1分数: 0.8926
- 精确率: 0.8810
- 召回率: 0.9045
- 准确率: 0.9759
使用方法
用户可以通过Hugging Face Transformers库轻松加载和使用该模型:
from transformers import AutoModelForTokenClassification, AutoTokenizer
model_name = "pierreguillou/ner-bert-base-cased-pt-lenerbr"
model = AutoModelForTokenClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 使用模型进行预测
应用场景
该模型可应用于多种葡萄牙语法律文本分析任务,包括但不限于:
- 法律文件的自动化处理
- 法律信息检索
- 法律文本摘要生成
- 法律实体关系抽取
训练细节
模型训练使用了以下主要超参数:
- 批次大小: 4
- 学习率: 2e-5
- 训练轮数: 10
- 优化器: AdamW
训练过程中采用了评估策略,保存性能最优的模型。
总结
ner-bert-base-cased-pt-lenerbr是一个专门针对葡萄牙语法律领域的高性能NER模型,为相关领域的自然语言处理任务提供了有力的工具支持。
</SOURCE_TEXT>