#实体识别

catalyst - 高效跨平台C#自然语言处理库，支持预训练模型与灵活实体识别

Catalyst 是一个C#自然语言处理库，提供预训练模型、实体识别和高效的二进制序列化支持。兼容.NET Standard 2.0 并跨平台运行，支持Windows、Linux和macOS。具备精准的标记化处理和语言检测功能。其特点包括命名实体识别、词性标注、语言检测、词形还原和FastText嵌入训练。通过简单的NuGet包安装和流式模型存储，支持多线程并行文本处理，适合大规模文本分析需求。

DeepKE - 基于深度学习的知识图谱构建工具包

DeepKE知识抽取知识图谱实体识别关系提取Github开源项目

DeepKE是一款支持命名实体识别、关系抽取和属性抽取的知识图谱构建工具。其多功能性使其适用于多模式、低资源和文档级的知识提取场景。用户可以通过DeepKE-LLM和OneKE模型进行大规模语言模型集成，并能快速训练监督模型。工具包提供详细的文档、在线演示和多种模型选择，包括NER、关系抽取和事件抽取。支持Linux环境及Docker镜像配置，确保高效信息抽取。

chatbot_ner - 提供多语言支持的开源聊天机器人实体识别框架

Chatbot NER实体识别Conversational AI印度语言支持API结构Github开源项目

Chatbot NER是一个开放源代码框架，专为会话AI设计，支持在文本中进行实体识别。它目前支持英语、印地语、古吉拉特语、马拉地语、孟加拉语和泰米尔语及其混合形式。通过使用常见模式和NLP技术，能够从语言的稀疏数据中提取必要的实体。Haptik团队正在扩展其支持范围到所有印度语言及其方言。该框架的API结构易于使用，特别适合会话式AI应用，并且提供详尽的文档以便用户设置和操作。

rasa_nlu_gq - 高级中文自然语言理解工具的功能与扩展

Rasa NLU自然语言理解实体识别模型tensorflowGithub开源项目

rasa_nlu_gq是基于最新版本Rasa的改进版，对原有组件进行了优化和扩展。新特性包括双向LSTM和膨胀卷积模型的实体识别、jieba词性标注、实体反向修改意图、BERT模型的词向量特征提取，以及CPU和GPU资源配置优化。此项目还引入了TensorFlow API用于意图分类。详细安装说明及实例请参阅相关链接。

Few-NERD - 大规模精细标注的命名实体识别数据集

Few-NERDBERTfew-shot监督学习实体识别Github开源项目

Few-NERD是一个大规模精细标注的命名实体识别数据集，包含8种粗粒度类型、66种细粒度类型、188,200个句子、491,711个实体和4,601,223个标记。支持监督学习和少样本学习的三种基准任务。了解数据集的关键功能、最新更新，以及如何获取数据和运行模型的详细指南。

Kensho - AI数据分析工具集解锁深度洞察

AI工具AI工具包语音转文字实体识别数据提取概念理解

Kensho开发的AI工具包提供语音转文字、实体识别、公司数据匹配、PDF数据提取和文档概念理解等功能。这套工具能从复杂数据中提取洞察，大幅提升工作效率。Kensho的AI解决方案以高精度、快速处理和安全性著称，广泛应用于金融、研究和数据分析领域。其Scribe语音转文字功能比知名服务准确度提高25%，2分钟音频处理时间不到1秒。目前提供免费试用，让用户亲身体验AI技术如何挖掘数据价值。

Recognizers-Text - 微软开源的多语言实体识别与解析库

Microsoft Recognizers Text实体识别多语言支持开源项目NLPGithub

Recognizers-Text是微软开发的开源工具库，专门用于多语言环境下的实体识别和解析。它支持识别数字、单位、日期和时间等实体，适用于中文、英文等多种语言。该库为LUIS等微软平台提供底层支持，同时提供C#、JavaScript等多种编程语言的独立包。目前该项目正在不断扩展对更多语言的支持。

booknlp - 用于书籍和长文档的全面自然语言处理管道

自然语言处理文本分析实体识别指代消解事件标注Github开源项目

BookNLP是一个专门针对英文书籍和长文档的自然语言处理管道。它集成了多项功能,如词性标注、依存句法分析、实体识别、人物名称聚类、指代消解、引语说话人识别等。系统提供大小两种模型,可根据计算资源和精度需求灵活选择。BookNLP为文学文本分析和大规模文档处理提供了全面的语言学分析支持。

papermage - 统一工具包助力处理表示和操作视觉文档

papermage文档处理PDF解析实体识别数据结构Github开源项目

papermage是一款专门用于处理PDF文档的开源工具包。它能够创建Document对象、解析文档结构、提取文本和元数据。该工具支持多层次文档分割，包括页面、行和句子等，并可在不同层次间自由导航。papermage允许保存和加载Document对象，还支持通过自定义预测器进行功能扩展。这个统一平台为处理、表示和操作视觉丰富的文档提供了便利。

Knowledge-Graph-Tutorials-and-Papers - 知识图谱研究资源与教程综合指南

知识图谱自然语言处理实体识别关系抽取知识融合Github开源项目

该项目汇集了知识图谱领域的综合研究资源，涵盖从知识抽取、图谱构建到应用的各个方面。内容包括子领域论文、教程、工具，并重点关注数据库社区相关工作。此外，项目收录了顶尖学者的教程笔记、实用开源工具和基准数据集。这是知识图谱研究人员和开发者深入学习的一站式资源库。

vert-papers - 微软研发的实体计算开源项目集合

VERT实体识别知识计算微软研究院开源项目Github

vert-papers是微软亚洲研究院知识计算团队开发的开源项目集合,汇集了实体识别、消歧、知识库问答等多个NLP领域的研究成果。项目包含相关论文代码、数据集和链接,开源了Recognizers-Text和LinkingPark等工具,为实体计算技术研究提供丰富资源。

stanza-en - 英文语言处理的高级工具集

语言分析实体识别NLP模型语法分析Stanza模型Github开源项目Huggingface

Stanza提供英文语言的精准高效分析，从文本处理到句法分析与实体识别，均使用先进的NLP模型。了解更多信息，请访问其官方网站和GitHub仓库。

camembert-ner - 基于camemBERT的高性能法语命名实体识别模型

HuggingfacecamemBERTwikiner_fr模型Github实体识别NER开源项目自然语言处理

camembert-ner是一个在wikiner-fr数据集上微调的法语命名实体识别模型。该模型在非正式文本如电子邮件和聊天记录中表现出色，尤其善于识别不以大写字母开头的实体。它能够识别人名、组织、地点和其他杂项实体，并可通过HuggingFace框架轻松集成。模型的整体F1分数为0.8914，其中人名识别准确率最高，达到0.9483。

eds-pseudo-public - 医疗文档身份信息识别与去标识化系统

HuggingfaceEDS-Pseudo模型Github实体识别伪匿名化开源项目自然语言处理医疗数据

EDS-Pseudo是一个用于医疗文档身份信息识别的开源系统,结合规则和深度学习方法识别13种实体类型。该模型在合成数据上训练,真实测试集性能优异,F1值超90%。支持通过HuggingFace下载预训练模型,也可自行训练定制。项目提供完整训练流程和评估脚本,便于研究人员进行改进和应用。

roberta-large-ner-english - 基于RoBERTa的英语命名实体识别模型擅长处理非正式文本

模型Github实体识别开源项目Huggingfaceroberta-largeNER自然语言处理HuggingFace

roberta-large-ner-english是一个基于RoBERTa大型模型微调的英语命名实体识别模型。它在CoNLL-2003数据集上训练，在验证集上实现了97.53%的F1分数。该模型在处理电子邮件、聊天等非正式文本时表现优异，尤其擅长识别不以大写字母开头的实体。相比SpaCy，它在非正式文本上的表现更出色。模型可识别人名、组织、地点和杂项实体，并可通过HuggingFace库轻松集成到NLP项目中。

guwenbert-base - 古文BERT模型专为古文处理而设计助力文本解析

句法分析Huggingface预训练模型GuwenBERTGithub开源项目模型实体识别古代汉语

GuwenBERT是一款基于RoBERTa结构专为古文处理优化的模型。它使用殆知阁古代文献数据集进行训练，该数据集涵盖了佛教、儒学、医学和历史等多种主题文本。GuwenBERT适用于分句、标点符号插入及命名实体识别等任务，并在“古连杯”古籍命名实体识别评估中取得第二名的成绩。

Italian_NER_XXL - 意大利实体识别模型，识别52类实体

BERT更新实体识别Italian_NER_XXL模型Github开源项目自然语言处理Huggingface

该人工智能模型能够识别52类意大利语实体，具备79%的准确率，并基于BERT技术进行持续更新。其在法律、金融和隐私等领域表现出色，提供多功能的实体识别支持。

distilcamembert-base-ner - 法语命名实体识别模型，推理时间减半

开源项目CamemBERT实体识别模型优化法语Huggingface模型DistilCamemBERT-NERGithub

DistilCamemBERT-NER针对法语命名实体识别进行微调，与CamemBERT相比推理时间缩短一半但能耗保持不变。采用wikiner_fr数据集，综合F1得分达98.18%。在PER、LOC、ORG类别上，性能优于多语种与Flair法语模型，提供高效的文本处理解决方案。

NuNER-multilingual-v0.1 - 支持九种以上语言的高性能多语言实体识别系统

GithubNLP开源项目Multilingual BERTNuMindHuggingface实体识别多语言模型模型

NuNER-multilingual-v0.1作为一个多语言实体识别系统，通过对多语言BERT模型进行优化，实现了对英语、法语等9种以上语言的支持。系统基于Oscar数据集训练，具备跨领域和跨语言的实体识别能力。在性能测评中，其F1宏观指标相比基础mBERT有明显提升，单层嵌入达到0.5892，双层嵌入达到0.6231的水平。该系统可直接使用或根据具体需求进行定制化训练。

bcms-bertic - 多语言Transformer模型助力波斯尼亚及周边语言处理

语义标注Huggingface仇恨言论检测开源项目模型GithubBERTić实体识别变压器语言模型

模型通过8亿词训练，优化波斯尼亚、克罗地亚、黑山及塞尔维亚语言处理。在词性标注、命名实体识别等方面表现优于mBERT、cseBERT，且已微调供识别仇恨言论及命名实体。

BookNLP: 一个强大的长文本自然语言处理工具

2024年09月05日

PaperMage: 一个统一的科学文献处理、表示和操作工具包

2024年09月05日

Microsoft Recognizers Text: 多语言实体识别与解析的强大工具

2024年09月05日

知识图谱教程与论文资源汇总：探索知识图谱的前沿进展

2024年09月05日

VERT: 微软亚洲研究院知识计算团队的实体识别与消歧工具包

2024年09月05日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com