#NER

Prodigy OpenAI Recipes:结合零样本和少样本学习提高注释效率

3 个月前

Prodigy spaCy OpenAI NER textcat Github 开源项目

3 个月前

相关项目

prodigy-openai-recipes

该项目展示了如何结合OpenAI大语言模型与本地Prodigy实例，通过零次和少次学习技术，高效构建高质量数据集。用户可以使用该方法进行命名实体识别和文本分类等任务，手动校正模型预测结果以提高数据准确性。项目提供详细的设置指南，帮助用户在本地安装和运行必要的软件，并配置API密钥。通过高效的数据注解流程和灵活的模板设置，用户能够快速获得金标准数据，并训练符合特定需求的监督模型。

entity-recognition-datasets

此库包含多个领域的实体识别和命名实体识别（NER）任务数据集，包括新闻、社交媒体、医学等。项目提供数据目录和转换代码，部分数据因许可证限制无法直接共享。虽然自2020年起更新较少，但仍接受通过issue或pull request添加的数据集，并支持多种语言的NER数据，如德语、西班牙语和荷兰语等。

pytorch-bert-crf-ner

该项目是一个用PyTorch实现的BERT和CRF结合的韩文命名实体识别器，适用于PyTorch v1.2及Python 3.x环境。通过实际案例和详细日志展示该识别器的使用方法及其高效的韩文命名实体识别能力。借助于SKTBrain的KoBERT模型，本项目实现了容易上手的BERT-CRF命名实体识别系统。

xlm-roberta-base-ner-silvanus

该模型基于xlm-roberta-base在印尼NER数据集上微调而来，可从社交媒体文本中提取位置、日期和时间信息。虽然训练数据为印尼语，但通过零样本迁移学习，模型支持英语、西班牙语、意大利语和斯洛伐克语的信息提取。在验证集上，模型展现出91.89%的精确率、92.73%的召回率和92.31%的F1分数，显示了其在多语言命名实体识别任务中的有效性。

roberta-large-ner-english

roberta-large-ner-english是一个基于RoBERTa大型模型微调的英语命名实体识别模型。它在CoNLL-2003数据集上训练，在验证集上实现了97.53%的F1分数。该模型在处理电子邮件、聊天等非正式文本时表现优异，尤其擅长识别不以大写字母开头的实体。相比SpaCy，它在非正式文本上的表现更出色。模型可识别人名、组织、地点和杂项实体，并可通过HuggingFace库轻松集成到NLP项目中。

ner-dutch-large

该项目提供一个荷兰语命名实体识别模型，应用于Flair和XLM-R嵌入，支持识别地点、人物等四类标签，F1得分为95.25。通过Python代码示例，展示实际文本的实体识别过程；同时，项目包含完整的训练脚本，帮助用户创建定制化识别任务。

xlm-roberta-large-wnut2017

xlm-roberta-large-wnut2017是一个微调用于多语言命名实体识别的XLM-RoBERTa模型，具备多语言处理能力。使用者可以轻松地调用该模型以增强语言信息提取的效率。详情请参考TNER官方库。

bert-spanish-cased-finetuned-ner

通过微调，西班牙语BERT cased模型被优化用于命名实体识别任务。使用CONLL Corpora ES数据集，训练数据包含8700条实例，开发数据2200条。在评估集上F1得分为90.17，表现优于其他多语种和TinyBERT模型。采用Huggingface工具包，便于快速应用。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com