#实体识别

catalyst - 高效跨平台C#自然语言处理库,支持预训练模型与灵活实体识别
实体识别净标记Github开源项目CatalystNLP库预训练模型
Catalyst 是一个C#自然语言处理库,提供预训练模型、实体识别和高效的二进制序列化支持。兼容.NET Standard 2.0 并跨平台运行,支持Windows、Linux和macOS。具备精准的标记化处理和语言检测功能。其特点包括命名实体识别、词性标注、语言检测、词形还原和FastText嵌入训练。通过简单的NuGet包安装和流式模型存储,支持多线程并行文本处理,适合大规模文本分析需求。
DeepKE - 基于深度学习的知识图谱构建工具包
DeepKE知识抽取知识图谱实体识别关系提取Github开源项目
DeepKE是一款支持命名实体识别、关系抽取和属性抽取的知识图谱构建工具。其多功能性使其适用于多模式、低资源和文档级的知识提取场景。用户可以通过DeepKE-LLM和OneKE模型进行大规模语言模型集成,并能快速训练监督模型。工具包提供详细的文档、在线演示和多种模型选择,包括NER、关系抽取和事件抽取。支持Linux环境及Docker镜像配置,确保高效信息抽取。
chatbot_ner - 提供多语言支持的开源聊天机器人实体识别框架
Chatbot NER实体识别Conversational AI印度语言支持API结构Github开源项目
Chatbot NER是一个开放源代码框架,专为会话AI设计,支持在文本中进行实体识别。它目前支持英语、印地语、古吉拉特语、马拉地语、孟加拉语和泰米尔语及其混合形式。通过使用常见模式和NLP技术,能够从语言的稀疏数据中提取必要的实体。Haptik团队正在扩展其支持范围到所有印度语言及其方言。该框架的API结构易于使用,特别适合会话式AI应用,并且提供详尽的文档以便用户设置和操作。
rasa_nlu_gq - 高级中文自然语言理解工具的功能与扩展
Rasa NLU自然语言理解实体识别模型tensorflowGithub开源项目
rasa_nlu_gq是基于最新版本Rasa的改进版,对原有组件进行了优化和扩展。新特性包括双向LSTM和膨胀卷积模型的实体识别、jieba词性标注、实体反向修改意图、BERT模型的词向量特征提取,以及CPU和GPU资源配置优化。此项目还引入了TensorFlow API用于意图分类。详细安装说明及实例请参阅相关链接。
Few-NERD - 大规模精细标注的命名实体识别数据集
Few-NERDBERTfew-shot监督学习实体识别Github开源项目
Few-NERD是一个大规模精细标注的命名实体识别数据集,包含8种粗粒度类型、66种细粒度类型、188,200个句子、491,711个实体和4,601,223个标记。支持监督学习和少样本学习的三种基准任务。了解数据集的关键功能、最新更新,以及如何获取数据和运行模型的详细指南。
Kensho - AI数据分析工具集 解锁深度洞察
AI工具AI工具包语音转文字实体识别数据提取概念理解
Kensho开发的AI工具包提供语音转文字、实体识别、公司数据匹配、PDF数据提取和文档概念理解等功能。这套工具能从复杂数据中提取洞察,大幅提升工作效率。Kensho的AI解决方案以高精度、快速处理和安全性著称,广泛应用于金融、研究和数据分析领域。其Scribe语音转文字功能比知名服务准确度提高25%,2分钟音频处理时间不到1秒。目前提供免费试用,让用户亲身体验AI技术如何挖掘数据价值。
Recognizers-Text - 微软开源的多语言实体识别与解析库
Microsoft Recognizers Text实体识别多语言支持开源项目NLPGithub
Recognizers-Text是微软开发的开源工具库,专门用于多语言环境下的实体识别和解析。它支持识别数字、单位、日期和时间等实体,适用于中文、英文等多种语言。该库为LUIS等微软平台提供底层支持,同时提供C#、JavaScript等多种编程语言的独立包。目前该项目正在不断扩展对更多语言的支持。
booknlp - 用于书籍和长文档的全面自然语言处理管道
自然语言处理文本分析实体识别指代消解事件标注Github开源项目
BookNLP是一个专门针对英文书籍和长文档的自然语言处理管道。它集成了多项功能,如词性标注、依存句法分析、实体识别、人物名称聚类、指代消解、引语说话人识别等。系统提供大小两种模型,可根据计算资源和精度需求灵活选择。BookNLP为文学文本分析和大规模文档处理提供了全面的语言学分析支持。
papermage - 统一工具包助力处理表示和操作视觉文档
papermage文档处理PDF解析实体识别数据结构Github开源项目
papermage是一款专门用于处理PDF文档的开源工具包。它能够创建Document对象、解析文档结构、提取文本和元数据。该工具支持多层次文档分割,包括页面、行和句子等,并可在不同层次间自由导航。papermage允许保存和加载Document对象,还支持通过自定义预测器进行功能扩展。这个统一平台为处理、表示和操作视觉丰富的文档提供了便利。
Knowledge-Graph-Tutorials-and-Papers - 知识图谱研究资源与教程综合指南
知识图谱自然语言处理实体识别关系抽取知识融合Github开源项目
该项目汇集了知识图谱领域的综合研究资源,涵盖从知识抽取、图谱构建到应用的各个方面。内容包括子领域论文、教程、工具,并重点关注数据库社区相关工作。此外,项目收录了顶尖学者的教程笔记、实用开源工具和基准数据集。这是知识图谱研究人员和开发者深入学习的一站式资源库。
vert-papers - 微软研发的实体计算开源项目集合
VERT实体识别知识计算微软研究院开源项目Github
vert-papers是微软亚洲研究院知识计算团队开发的开源项目集合,汇集了实体识别、消歧、知识库问答等多个NLP领域的研究成果。项目包含相关论文代码、数据集和链接,开源了Recognizers-Text和LinkingPark等工具,为实体计算技术研究提供丰富资源。
stanza-en - 英文语言处理的高级工具集
语言分析实体识别NLP模型语法分析Stanza模型Github开源项目Huggingface
Stanza提供英文语言的精准高效分析,从文本处理到句法分析与实体识别,均使用先进的NLP模型。了解更多信息,请访问其官方网站和GitHub仓库。
camembert-ner - 基于camemBERT的高性能法语命名实体识别模型
HuggingfacecamemBERTwikiner_fr模型Github实体识别NER开源项目自然语言处理
camembert-ner是一个在wikiner-fr数据集上微调的法语命名实体识别模型。该模型在非正式文本如电子邮件和聊天记录中表现出色,尤其善于识别不以大写字母开头的实体。它能够识别人名、组织、地点和其他杂项实体,并可通过HuggingFace框架轻松集成。模型的整体F1分数为0.8914,其中人名识别准确率最高,达到0.9483。
eds-pseudo-public - 医疗文档身份信息识别与去标识化系统
HuggingfaceEDS-Pseudo模型Github实体识别伪匿名化开源项目自然语言处理医疗数据
EDS-Pseudo是一个用于医疗文档身份信息识别的开源系统,结合规则和深度学习方法识别13种实体类型。该模型在合成数据上训练,真实测试集性能优异,F1值超90%。支持通过HuggingFace下载预训练模型,也可自行训练定制。项目提供完整训练流程和评估脚本,便于研究人员进行改进和应用。
roberta-large-ner-english - 基于RoBERTa的英语命名实体识别模型 擅长处理非正式文本
模型Github实体识别开源项目Huggingfaceroberta-largeNER自然语言处理HuggingFace
roberta-large-ner-english是一个基于RoBERTa大型模型微调的英语命名实体识别模型。它在CoNLL-2003数据集上训练,在验证集上实现了97.53%的F1分数。该模型在处理电子邮件、聊天等非正式文本时表现优异,尤其擅长识别不以大写字母开头的实体。相比SpaCy,它在非正式文本上的表现更出色。模型可识别人名、组织、地点和杂项实体,并可通过HuggingFace库轻松集成到NLP项目中。
guwenbert-base - 古文BERT模型 专为古文处理而设计助力文本解析
句法分析Huggingface预训练模型GuwenBERTGithub开源项目模型实体识别古代汉语
GuwenBERT是一款基于RoBERTa结构专为古文处理优化的模型。它使用殆知阁古代文献数据集进行训练,该数据集涵盖了佛教、儒学、医学和历史等多种主题文本。GuwenBERT适用于分句、标点符号插入及命名实体识别等任务,并在“古连杯”古籍命名实体识别评估中取得第二名的成绩。
Italian_NER_XXL - 意大利实体识别模型,识别52类实体
BERT更新实体识别Italian_NER_XXL模型Github开源项目自然语言处理Huggingface
该人工智能模型能够识别52类意大利语实体,具备79%的准确率,并基于BERT技术进行持续更新。其在法律、金融和隐私等领域表现出色,提供多功能的实体识别支持。
distilcamembert-base-ner - 法语命名实体识别模型,推理时间减半
开源项目CamemBERT实体识别模型优化法语Huggingface模型DistilCamemBERT-NERGithub
DistilCamemBERT-NER针对法语命名实体识别进行微调,与CamemBERT相比推理时间缩短一半但能耗保持不变。采用wikiner_fr数据集,综合F1得分达98.18%。在PER、LOC、ORG类别上,性能优于多语种与Flair法语模型,提供高效的文本处理解决方案。
NuNER-multilingual-v0.1 - 支持九种以上语言的高性能多语言实体识别系统
GithubNLP开源项目Multilingual BERTNuMindHuggingface实体识别多语言模型模型
NuNER-multilingual-v0.1作为一个多语言实体识别系统,通过对多语言BERT模型进行优化,实现了对英语、法语等9种以上语言的支持。系统基于Oscar数据集训练,具备跨领域和跨语言的实体识别能力。在性能测评中,其F1宏观指标相比基础mBERT有明显提升,单层嵌入达到0.5892,双层嵌入达到0.6231的水平。该系统可直接使用或根据具体需求进行定制化训练。
bcms-bertic - 多语言Transformer模型助力波斯尼亚及周边语言处理
语义标注Huggingface仇恨言论检测开源项目模型GithubBERTić实体识别变压器语言模型
模型通过8亿词训练,优化波斯尼亚、克罗地亚、黑山及塞尔维亚语言处理。在词性标注、命名实体识别等方面表现优于mBERT、cseBERT,且已微调供识别仇恨言论及命名实体。