项目介绍:GLiNER-Large-v1
GLiNER-Large-v1 是一款命名实体识别(NER)模型。该模型旨在识别文本中任何类型的实体,采用类似 BERT 的双向 Transformer 编码器。与传统的 NER 模型相比,GLiNER 在实体识别的灵活性上更胜一筹。虽然大型语言模型(LLMs)提供了很好的灵活性,但它们往往过于庞大且成本较高,难以在资源有限的场景中使用。而 GLiNER 解决了这个问题。
背景与应用
GLiNER-Large-v1 版本使用了 Pile-NER 数据集进行训练,主要用于研究目的。其主要应用场景包括自动信息提取、文本分析、以及其他涉及智能文本处理的领域。通过识别和分类文本中的实体,可以帮助开发者从海量数据中提取有价值的信息。
项目资源与链接
- 论文链接: GLiNER论文
- 代码仓库: GLiNER GitHub
可用模型版本
发布版本 | 模型名称 | 参数数量 | 语言 | 许可证 |
---|---|---|---|---|
v0 | gliner_base gliner_multi | 209M 209M | 英语 多语言 | cc-by-nc-4.0 |
v1 | gliner_small-v1 gliner_medium-v1 gliner_large-v1 | 166M 209M 459M | 英语 英语 英语 | cc-by-nc-4.0 |
v2 | gliner_small-v2 gliner_medium-v2 gliner_large-v2 | 166M 209M 459M | 英语 英语 英语 | apache-2.0 |
v2.1 | gliner_small-v2.1 gliner_medium-v2.1 gliner_large-v2.1 gliner_multi-v2.1 | 166M 209M 459M 209M | 英语 英语 英语 多语言 | apache-2.0 |
如何使用GLiNER
为了使用 GLiNER 模型,首先需要安装 gliner Python 库:
!pip install gliner
安装完成后,可以借助 GLiNER 类来加载预训练的模型并预测文本中的实体。例如:
from gliner import GLiNER
model = GLiNER.from_pretrained("urchade/gliner_large-v1")
text = """
Cristiano Ronaldo dos Santos Aveiro 是一名葡萄牙职业足球运动员,效力于沙特职业联赛和葡萄牙国家队。
"""
labels = ["person", "award", "date", "competitions", "teams"]
entities = model.predict_entities(text, labels)
for entity in entities:
print(entity["text"], "=>", entity["label"])
命名实体识别基准测试结果
GLiNER 在各种基准测试中表现优异,提供了可靠的实体识别能力。用户可以根据自己的需求和场景灵活应用。
项目作者
- Urchade Zaratiana
- Nadi Tomeh
- Pierre Holat
- Thierry Charnois
希望以上信息可以帮助你更好地了解 GLiNER-Large-v1 项目及其应用方式。