nerkor-cars-onpp-hubert项目介绍
项目概述
nerkor-cars-onpp-hubert是一个专门为匈牙利语命名实体识别(NER)设计的模型。该模型基于SZTAKI-HLT/hubert-base-cc预训练模型,并在NerKor+CARS-ONPP语料库上进行了微调。这个项目的目标是提供一个高性能的匈牙利语NER工具,能够识别文本中的多种实体类型。
数据集特点
该模型使用的训练数据集是NerKor+CARS-OntoNotes++,这是一个包含约100万个标记的匈牙利语命名实体标注语料库。相比原始的NYTK-NerKor语料库,新版本增加了12,000个与机动车(汽车、公共汽车、摩托车)相关的标记。最显著的特点是,该语料库扩展了实体类型,从原来的4种增加到超过30种,包括OntoNotes 5.0英语NER标注中使用的所有实体类型,以及一些额外的类型。
实体类型
该模型可以识别的实体类型主要分为三类:
-
名称类实体:包括人物(PER)、设施(FAC)、组织(ORG)、地缘政治实体(GPE)、地点(LOC)、产品(PROD)、事件(EVENT)、艺术作品(WORK_OF_ART)和法律(LAW)等。
-
类名称实体:包括国籍或宗教或政治团体(NORP)、语言(LANGUAGE)、日期(DATE)、时间(TIME)、百分比(PERCENT)、货币(MONEY)、数量(QUANTITY)、序数(ORDINAL)和基数(CARDINAL)。
-
额外实体类型:包括奖项(AWARD)、汽车(CAR)、媒体(MEDIA)、社交媒体(SMEDIA)、项目(PROJ)等,以及一些非名称实体如持续时间(DUR)、年龄(AGE)和标识符(ID)。
技术特点
- 模型的最大序列长度为448。
- 使用了first聚合策略进行推理。
- 采用了跨语言迁移学习方法,利用其他语言的NER模型进行预标注,提高了标注效率。
应用价值
这个模型在匈牙利语自然语言处理领域具有重要价值。它不仅可以识别传统的命名实体,还能识别更细粒度的实体类型,包括时间表达式和数值表达式。这使得它在信息提取、文本分析和知识图谱构建等任务中有广泛的应用前景。
局限性
尽管该模型功能强大,但用户应注意其最大序列长度限制为448个标记。对于超过此长度的文本,可能需要进行分段处理。
开源贡献
该项目采用GPL许可证,允许社区自由使用和改进。研究者在使用此模型时,应适当引用相关论文,以支持开源社区的发展。
nerkor-cars-onpp-hubert项目介绍
项目概述
nerkor-cars-onpp-hubert是一个专门为匈牙利语命名实体识别(NER)设计的模型。该模型基于SZTAKI-HLT/hubert-base-cc预训练模型,并在NerKor+CARS-ONPP语料库上进行了微调。这个项目的目标是提供一个高性能的匈牙利语NER工具,能够识别文本中的多种实体类型。
数据集特点
该模型使用的训练数据集是NerKor+CARS-OntoNotes++,这是一个包含约100万个标记的匈牙利语命名实体标注语料库。相比原始的NYTK-NerKor语料库,新版本增加了12,000个与机动车(汽车、公共汽车、摩托车)相关的标记。最显著的特点是,该语料库扩展了实体类型,从原来的4种增加到超过30种,包括OntoNotes 5.0英语NER标注中使用的所有实体类型,以及一些额外的类型。
实体类型
该模型可以识别的实体类型主要分为三类:
-
名称类实体:包括人物(PER)、设施(FAC)、组织(ORG)、地缘政治实体(GPE)、地点(LOC)、产品(PROD)、事件(EVENT)、艺术作品(WORK_OF_ART)和法律(LAW)等。
-
类名称实体:包括国籍或宗教或政治团体(NORP)、语言(LANGUAGE)、日期(DATE)、时间(TIME)、百分比(PERCENT)、货币(MONEY)、数量(QUANTITY)、序数(ORDINAL)和基数(CARDINAL)。
-
额外实体类型:包括奖项(AWARD)、汽车(CAR)、媒体(MEDIA)、社交媒体(SMEDIA)、项目(PROJ)等,以及一些非名称实体如持续时间(DUR)、年龄(AGE)和标识符(ID)。
技术特点
- 模型的最大序列长度为448。
- 使用了first聚合策略进行推理。
- 采用了跨语言迁移学习方法,利用其他语言的NER模型进行预标注,提高了标注效率。
应用价值
这个模型在匈牙利语自然语言处理领域具有重要价值。它不仅可以识别传统的命名实体,还能识别更细粒度的实体类型,包括时间表达式和数值表达式。这使得它在信息提取、文本分析和知识图谱构建等任务中有广泛的应用前景。
局限性
尽管该模型功能强大,但用户应注意其最大序列长度限制为448个标记。对于超过此长度的文本,可能需要进行分段处理。
开源贡献
该项目采用GPL许可证,允许社区自由使用和改进。研究者在使用此模型时,应适当引用相关论文,以支持开源社区的发展。