#命名实体识别

Introduction-NLP - 《自然语言处理入门》详细解析
自然语言处理HanLP机器学习文本分类命名实体识别Github开源项目
本项目详细解析《自然语言处理入门》,涵盖中文分词、词性标注、命名实体识别等NLP核心技术,为初学者及爱好者提供清晰的学习路径和实用的笔记。
NLP-Interview-Notes - 自然语言处理面试全攻略与实战技巧
NLP命名实体识别信息抽取关系抽取事件抽取Github开源项目
该项目汇总了自然语言处理(NLP)领域的常见面试题和详细解析,包括信息抽取、命名实体识别、关系抽取、事件抽取等方面的内容。项目内容涵盖了对隐马尔科夫模型、最大熵马尔科夫模型、条件随机场以及深度学习结合CRF等算法的详细分析,帮助学习者掌握算法原理和实际应用。此外,还提供了各类实战技巧和常见问题的解决方法,全面助力NLP面试准备。
awesome_Chinese_medical_NLP - 中文医学自然语言处理(NLP)开源资源大全
awesome_Chinese_medical_NLPCBLUE中文医疗信息处理命名实体识别知识图谱Github开源项目
收录中文医学自然语言处理(NLP)各类资源,如术语集、语料库、词向量、预训练模型、知识图谱、命名实体识别、问答系统和信息抽取工具。项目旨在推动中文医学NLP技术发展,提供丰富的开源数据集和工具,包含中文医疗信息处理挑战榜CBLUE数据集、中文电子病历预训练Bert模型及多种医学词汇和知识图谱资源。这些材料涵盖术语标准化、文本分类等领域,为中文医学NLP研究和应用奠定坚实基础。
prodigy-recipes - 精准的自定义数据标注脚本,提升文本和图像模型性能
Prodigy命名实体识别文本分类图像标注脚本工具Github开源项目
本项目提供了一系列自定义的Prodigy脚本食谱,涵盖命名实体识别、文本分类、术语提取和图像标注等任务,旨在帮助提升训练数据的质量和模型性能。这些脚本附有详细注释和简化示例,适合处理各种数据标注需求。使用这些脚本需拥有Prodigy许可。
zshot - 零样本与少样本命名实体和关系识别的开源框架
Zshot命名实体识别零样本学习关系抽取实体链接Github开源项目
Zshot是一个高度可定制的开源框架,支持零样本和少样本的命名实体识别和关系识别。该框架提供提及抽取、维基化和关系抽取等功能,并利用SpaCy进行可视化。适用于研究和工业应用,支持最新的方法和预训练模型,并提供易于扩展的API接口。
AdaSeq - 完善的序列理解模型开发库,涵盖多种高级任务
AdaSeqModelScope序列理解命名实体识别PyTorchGithub开源项目
AdaSeq是由阿里巴巴达摩院开发的一体化序列理解工具库,构建在ModelScope之上。支持词性标注、分块、命名实体识别、实体类型化、关系抽取等多种任务。提供丰富的前沿模型和训练方法,优于许多现有框架。该库使用简便,只需一行命令即可生成模型,支持自定义模型和数据集。适用于研究人员和开发者,项目处于快速开发阶段,并提供多语言、多领域的数据集和在线演示。
Awesome-LLM4IE-Papers - 大型语言模型驱动的信息抽取研究进展综述
LLM信息抽取命名实体识别关系抽取事件抽取Github开源项目
Awesome-LLM4IE-Papers项目收录了大型语言模型在信息抽取领域的前沿论文。涵盖命名实体识别、关系抽取和事件抽取等任务,以及监督微调、少样本和零样本学习等技术。项目还包括特定领域应用、评估分析和相关工具。通过持续更新,为研究人员提供LLM驱动的信息抽取最新进展,促进该领域的学术交流与技术创新。
GLiNER - 通用轻量级命名实体识别模型
GLiNER命名实体识别自然语言处理机器学习BERTGithub开源项目
GLiNER是一个通用轻量级的命名实体识别模型,采用双向转换器编码器架构。它能识别任意类型的实体,填补了传统NER模型和大型语言模型之间的空白。GLiNER具有灵活性高、体积小、效率高的特点,适用于资源受限的场景。该模型支持自定义实体类型,可应用于信息提取、文本分类等多种自然语言处理任务。
presidio-research - 开源PII检测与评估工具包助力隐私保护
PresidioPII检测数据生成模型评估命名实体识别Github开源项目
Presidio-research是一个开源的个人身份信息(PII)检测模型开发和评估工具包。它集成了假数据生成、数据表示、模型评估和训练等功能。研究人员可利用该工具包生成合成数据集、评估PII识别性能,以及训练新的命名实体识别模型。Presidio-research支持spaCy、Flair和CRF等主流NLP框架,为PII检测研究提供了综合性解决方案。
ChineseNER - 多模型支持的中文命名实体识别开源项目
中文NER深度学习模型命名实体识别多任务学习词汇增强Github开源项目
这是一个开源的中文命名实体识别项目,集成了多种深度学习模型。从BiLSTM-CRF到BERT-BiLSTM-CRF,再到多任务学习模型,涵盖了NER领域的主流算法。项目特色包括词汇增强、数据增强和MRC框架等创新功能。同时提供了完整的训练、评估流程和Docker部署方案,便于研究者和开发者使用。项目集成了从BiLSTM-CRF到BERT系列的多种NER模型,并创新性地引入词汇增强、数据增强和MRC框架等技术。不仅提供了详细的模型训练和评估指南,还支持Docker部署,方便研究人员和工程师快速应用到实际场景中。
roberta-large-wnut2017 - Roberta-large模型在WNUT2017数据集上的实体识别能力
开源项目tner/roberta-large-wnut2017命名实体识别模型精度超参数搜索Huggingface召回率Github
Roberta-large在WNUT2017数据集上进行微调,F1得分为0.5375。该模型通过T-NER优化,适用于跨领域和多语言的实体识别任务,支持识别人、组织和地点等多种实体。模型通过简易代码实现实体识别,提升文本解析能力。
nbailab-base-ner-scandi - 斯堪的纳维亚语言的命名实体识别模型
数据集Github开源项目命名实体识别模型性能ScandiNERHuggingface北欧语言模型
这个模型是NbAiLab/nb-bert-base的精调版本,适用于丹麦语、挪威语、瑞典语、冰岛语和法罗语的命名实体识别(NER)。通过整合DaNE、NorNE、SUC 3.0和WikiANN的一些数据集,模型可以提供高精度的NER结果,并支持多种语言包括英语。识别的实体类型包括人名、地名、组织名及其他类别。模型以Micro-F1得分约为89%的表现,以及4.16样本/秒的处理速度表现出色,同时模型体积合理,带来好的准确性和效率平衡。
ner-english-large - 基于FLERT技术的英语命名实体识别开源模型
Huggingface模型深度学习命名实体识别Github开源项目序列标注自然语言处理Flair
ner-english-large是基于Flair框架的英语命名实体识别模型,采用FLERT技术和XLM-R嵌入。该模型可识别人名、地点、组织和其他实体,F1分数为94.36。它易于集成,适用于多种NLP任务,为研究人员和开发者提供了实用的英语文本分析工具。
xlm-roberta-large-finetuned-conll03-english - XLM-RoBERTa基于命名实体识别模型支持百余种语言
XLM-RoBERTaHuggingface模型迁移学习命名实体识别Github开源项目自然语言处理多语言模型
xlm-roberta-large-finetuned-conll03-english是基于XLM-RoBERTa的多语言命名实体识别模型,预训练涵盖百余种语言,并经英语CoNLL-2003数据集微调。适用于命名实体识别、词性标注等标记分类任务,具备出色的多语言处理能力。模型由Facebook AI团队开发,在Hugging Face平台开放使用。使用时需注意潜在偏见和局限性。
xlm-roberta-ner-japanese - 基于XLM-RoBERTa的日语命名实体识别模型
模型GithubXLM-RoBERTa开源项目Huggingface固有表现抽出日语模型命名实体识别自然语言处理
xlm-roberta-ner-japanese是一个基于xlm-roberta-base的日语命名实体识别模型。该模型利用日本维基百科数据集进行训练,能够识别8种实体类型,包括人名、组织和地点等。模型在验证集上实现了0.9864的F1分数。它提供了简洁的使用方法,便于集成到各类自然语言处理应用中,适用于日语文本的实体提取任务。
bert_cased_ner - BERT模型驱动的土耳其语命名实体识别工具
模型GithubMilliyetNER开源项目Huggingface土耳其语命名实体识别BertTurk自然语言处理
项目开发了一个专门用于土耳其语的BERT命名实体识别模型。该模型基于MilliyetNER新闻语料库训练,可识别人名、地点和组织三类实体。模型表现优异,测试集F1得分达0.96。提供简洁的Python接口,方便研究者和开发者在土耳其语自然语言处理任务中应用。
ner-english-fast - 高效识别英语文本中的人名、地点和组织实体
模型LSTM-CRF命名实体识别GithubFlair开源项目Huggingface机器学习自然语言处理
ner-english-fast是基于Flair框架的命名实体识别模型,可识别英语文本中的人名、地点、组织和其他实体。该模型在CoNLL-03数据集上的F1分数为92.92,采用Flair嵌入和LSTM-CRF架构。它易于集成到NLP应用中,适用于文本分析和信息提取任务。模型支持快速部署,可通过简单的Python代码调用。
wikineural-multilingual-ner - 融合神经网络和知识库的多语言命名实体识别模型
模型多语言维基百科命名实体识别GithubWikiNEuRalHuggingface开源项目自然语言处理
WikiNEuRal是一个创新的多语言命名实体识别模型,基于自动生成的高质量数据集训练而成。该模型支持9种语言,通过结合神经网络和知识库方法,在标准NER基准测试中实现了显著突破,F1分数比现有系统提高了6个点。模型集成了Transformers库,便于快速部署和使用。尽管在百科全书类文本上表现出色,但对新闻等其他文体的泛化能力可能有限。
xlm-roberta-large-ner-spanish - 基于XLM-Roberta-large的高性能西班牙语命名实体识别模型
模型西班牙语命名实体识别CoNLL-2002XLM-RoBERTaGithubHuggingface开源项目自然语言处理
xlm-roberta-large-ner-spanish是一个基于XLM-Roberta-large模型微调的西班牙语命名实体识别(NER)模型。该模型在CoNLL-2002数据集的西班牙语部分上训练,在测试集上实现了89.17的F1分数,展现出优秀的性能。此模型能够有效识别文本中的人名、地名、组织机构等命名实体,为西班牙语自然语言处理任务提供了有力工具。
bert-base-NER - 基于BERT的高性能命名实体识别模型用于精准NER任务
模型命名实体识别BERTGithubCoNLL-2003开源项目Huggingface机器学习自然语言处理
bert-base-NER是一个基于BERT的预训练模型,专门用于命名实体识别任务。该模型在CoNLL-2003数据集上进行微调,能够识别地点、组织、人名和杂项四类实体。在NER任务中,bert-base-NER展现出优秀性能,F1分数达92.59%。模型提供简洁接口,可广泛应用于各类自然语言处理场景。
roberta-large-ontonotes5 - RoBERTa-large模型在OntoNotes 5数据集上的高性能命名实体识别微调版本
Huggingface模型T-NER命名实体识别模型微调Github开源项目自然语言处理RoBERTa
这是roberta-large在OntoNotes 5数据集上的微调模型,专门用于命名实体识别任务。在测试集上,该模型达到了0.909的F1分数(微观)、0.905的精确度和0.912的召回率。模型采用CRF层,最大序列长度128,经过15轮训练。用户可通过tner库轻松应用此模型。它在多种实体类型识别中表现优异,尤其擅长识别地缘政治区域、组织和人物。
ner-english - Flair框架英语命名实体识别模型 准确率93%
模型Github序列标注Flair开源项目Huggingface命名实体识别自然语言处理深度学习
该模型是Flair框架的标准英语命名实体识别(NER)模型,能识别人名、地名、组织名和其他名称四类实体。采用Flair嵌入和LSTM-CRF架构,在CoNLL-03数据集上F1分数达93.06%。用户可通过Flair库轻松加载使用。模型提供了详细的训练脚本和引用信息,方便研究人员进一步探索和引用。
ner-french - 法语命名实体识别的开源Flair模型
模型命名实体识别法语GithubFlair开源项目Huggingface机器学习自然语言处理
这是一个基于Flair框架的法语命名实体识别开源模型。它可识别人名、地点、组织和其他四类实体,采用Flair嵌入和LSTM-CRF架构,在WikiNER数据集上F1分数达90.61%。开发者可通过Python和Flair库便捷地使用该模型进行法语文本的命名实体识别。模型支持简单的加载方式,适用于各种法语自然语言处理任务。
Product-Name-NER-model - 繁体中文商品名称属性识别模型
商品名称Huggingface模型属性提取命名实体识别Github繁体中文NER开源项目
这是一个针对繁体中文商品名称的命名实体识别(NER)模型,可识别16种商品属性,如品牌、名称和颜色等。模型在容量、重量和颜色识别方面表现尤为出色,总体F1-score达到0.7807。该工具可应用于电子商务、产品分析和搜索优化等领域,有助于提升相关数据处理的效率。
ner-english-ontonotes - Flair框架英语命名实体识别模型支持18类实体
模型命名实体识别GithubFlair开源项目Huggingface机器学习序列标注自然语言处理
这是一个基于Flair框架的英语命名实体识别模型,能够识别18种实体类型,包括人名、地点和组织等。模型采用Flair embeddings和LSTM-CRF架构,在Ontonotes数据集上的F1分数为89.27%。该模型可应用于多种自然语言处理任务,并且可以通过简单的Python代码实现NER预测。
small - 开源中文自然语言处理平台
模型命名实体识别中文分词LTP词性标注GithubHuggingface开源项目自然语言处理
LTP是哈工大开发的开源中文自然语言处理平台,提供分词、词性标注、命名实体识别等功能。支持Python和Rust接口,最新版本结合深度学习和感知机算法,显著提升处理速度。LTP支持用户自定义训练,在学术和工业领域广泛应用,是中文NLP研究与应用的重要工具。
bert-base-arabic-camelbert-msa-ner - 现代标准阿拉伯语命名实体识别增强
开源项目阿拉伯语模型命名实体识别模型HuggingfaceCamel工具CAMeLBERTGithub预训练语言模型
项目基于CAMeLBERT模型提升现代标准阿拉伯语的命名实体识别性能,使用ANERcorp数据集进行微调以提高精度。可通过CAMeL Tools组件或transformers管道实现多用例应用。
roberta-large-NER - XLM-RoBERTa大型模型用于多语言命名实体识别
模型命名实体识别XLM-RoBERTa人工智能Github多语言模型Huggingface开源项目自然语言处理
XLM-RoBERTa-large模型基础上微调的多语言命名实体识别工具,支持100多种语言。在英语CoNLL-2003数据集上训练,可用于命名实体识别和词性标注等标记分类任务。该模型由Facebook AI研究团队开发,具有强大的跨语言能力,但存在潜在偏见和局限性。作为自然语言处理的重要工具,它为多语言文本分析提供了有力支持。
bert-base-arabic-camelbert-mix-ner - 基于CAMeLBERT Mix的阿拉伯语命名实体识别模型
模型Github预训练模型开源项目CAMeLBERT-MixHuggingface命名实体识别自然语言处理阿拉伯语
这是一个基于CAMeLBERT Mix模型微调的阿拉伯语命名实体识别模型。该模型使用ANERcorp数据集进行训练,能够识别阿拉伯语文本中的地点等命名实体。用户可通过CAMeL Tools或Transformers pipeline轻松调用。模型在多项自然语言处理任务中表现优异,尤其适合处理现代标准阿拉伯语文本。
bert-base-swedish-cased-ner - BERT基础的瑞典语命名实体识别模型
模型BERTGithub瑞典语言模型开源项目HuggingfaceALBERT命名实体识别自然语言处理
bert-base-swedish-cased-ner是瑞典国家图书馆开发的瑞典语命名实体识别模型。该模型基于BERT架构,使用大规模瑞典语语料库训练,并在SUC 3.0数据集上微调。它可识别人名、地点、组织等实体类型,支持瑞典语自然语言处理任务。研究人员可通过Hugging Face Transformers库调用此模型进行命名实体识别。
scibert_scivocab_uncased-finetuned-ner - 采用SciBERT微调的药物和不良反应识别模型
不良反应Huggingface医学SciBERT药物Github模型开源项目命名实体识别
此模型基于SciBERT进行微调,专门用于识别药物名称和其不良反应,能够有效分类输入文本中的药物和不良反应实体,提升医学文本的信息提取效率。通过简单设置NER流水线,该模型可快速部署并用于自动化识别,主要应用于处理与药物和不良反应相关的自然语言处理任务,是处理ade_corpus_v2数据集的有效工具。
bert-large-NER - BERT大型版命名实体识别模型实现最先进性能
Huggingface模型机器学习BERT命名实体识别Github开源项目CoNLL-2003自然语言处理
bert-large-NER是一个基于BERT大型模型的命名实体识别(NER)工具。该模型在CoNLL-2003数据集上训练,可准确识别地点、组织、人名和其他杂项四类实体。模型支持通过Transformers pipeline轻松集成,适用于多种NER应用场景。在测试集上,bert-large-NER的F1分数达到91.7%,展现了卓越的实体识别能力。
NuNER_Zero - 优化GLiNER架构的零样本命名实体识别模型
模型NuNER Zero零样本学习Github开源项目HuggingfaceGLiNER命名实体识别自然语言处理
NuNER Zero是一种基于GLiNER架构的零样本命名实体识别模型,通过NuNER v2.0数据集训练。作为token分类器,它可识别任意长度的实体。在GLiNER基准测试中,NuNER Zero的token级F1分数较GLiNER-large-v2.1提升3.1%,成为当前性能领先的紧凑型零样本NER模型。该模型采用实体类型与文本拼接的输入方式,并具有便捷的安装与使用流程。
bert-fa-base-uncased-ner-peyma - 基于BERT的波斯语命名实体识别模型ParsBERT
TransformerHuggingface模型命名实体识别Github开源项目自然语言处理波斯语ParsBERT
ParsBERT是一个用于波斯语命名实体识别(NER)的开源模型。该模型基于BERT架构,在PEYMA数据集上训练,可识别7类命名实体。在PEYMA测试集上,ParsBERT实现了93.40%的F1分数,超越了此前的模型。研究者可通过Hugging Face Transformers库便捷地应用此模型进行波斯语NER任务。
nb-bert-base-ner - 挪威语BERT命名实体识别模型 适用NorNE数据集
模型BERTGithub开源项目HuggingfaceNorNE挪威语命名实体识别自然语言处理
nb-bert-base-ner是一个基于BERT的挪威语命名实体识别模型,通过NorNE数据集微调而成。此模型能够识别挪威语文本中的人名、地名等命名实体。开发者可借助Hugging Face的transformers库轻松集成和使用,项目还提供了简洁的示例代码,便于快速实现挪威语命名实体识别功能。
ChatIE - 零样本信息抽取的解决方案
ChatIE零样本信息抽取大规模语言模型实体关系三元组抽取命名实体识别Github开源项目
ChatIE项目利用ChatGPT的强大功能,将零样本信息抽取任务转化为多轮问答形式,形成了一个两阶段的创新框架。通过在多个数据集上的广泛评估,该框架在实体关系抽取、命名实体识别和事件抽取任务中表现出色,甚至超越了一些全监督模型,展现了在有限资源下构建信息抽取系统的巨大潜力。