entity-recognition-datasets

多领域实体识别和命名实体识别任务数据集

Entity Recognition Named Entity Recognition Datasets NER Annotations Github 开源项目

此库包含多个领域的实体识别和命名实体识别（NER）任务数据集，包括新闻、社交媒体、医学等。项目提供数据目录和转换代码，部分数据因许可证限制无法直接共享。虽然自2020年起更新较少，但仍接受通过issue或pull request添加的数据集，并支持多种语言的NER数据，如德语、西班牙语和荷兰语等。

文档

distilbert-NER - 一个精简、高效的命名实体识别模型

AI模型CoNLL-2003DistilBERTGithubHuggingfacedistilbert-NER命名实体识别开源项目模型

distilbert-NER是DistilBERT的精简版本，专为命名实体识别（NER）任务优化，能够识别地点、组织、人物等实体。相比BERT，参数更少，具备更小的模型体积和更高的速度，并在CoNLL-2003数据集上精细调优，具备良好的精度和性能。

Awesome-LLMs-Datasets - 完整收录大型语言模型数据集的多维度分类概览

GithubLLMs数据集大语言模型开源项目指令微调数据集评估数据集预训练语料库

这个项目全面收集和分类了大型语言模型(LLM)数据集，包括预训练语料库、指令微调数据集、偏好数据集、评估数据集和传统NLP数据集五大类别。新增的内容涵盖多模态大语言模型数据集和检索增强生成数据集。项目统计了444个数据集的详细信息，覆盖8种语言和32个领域，为LLM研究提供了全面参考资源。

xlm-roberta-large-ner-hrl - 十种多语言命名实体识别模型，覆盖高资源语言

GithubHuggingfacexlm-roberta-large-ner-hrl命名实体识别多语言开源项目数据集模型模型训练

此模型是基于xlm-roberta-large微调的命名实体识别模型，支持十大高资源语言：阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文。具备识别地点、组织和人物三类实体的功能。通过Transformers库的pipeline，可便捷地应用于NER任务。训练数据来自特定时间段的新闻文章，虽然适用于多种场景，但在不同领域的推广性有限。

NLP-Natural-Language-Processing - 全面的自然语言处理资源与工具库

GithubNatural Language Processing开源项目数据科学机器学习深度学习计算机视觉

提供全面的自然语言处理（NLP）资源，涵盖数据集、前沿技术、课程、书籍推荐、GitHub代码示例及流行工具。涉及数据分析、知识图谱、模型与算法、情感分析、主题建模等任务的详细资料与学习路径。了解最新NLP动态，探索自然语言处理的应用潜力。

tner-xlm-roberta-base-ontonotes5 - XLM-RoBERTa多语言命名实体识别模型实现高精度实体标注

GithubHuggingfaceXLM-RoBERTa命名实体识别开源项目标记分类模型深度学习自然语言处理

该命名实体识别模型基于XLM-RoBERTa预训练模型微调，专用于令牌分类任务。模型支持识别组织、人名、地点等多种实体类型，采用12层注意力头结构，词汇表包含250002个词。项目提供完整训练数据集和评估指标，并通过tner库实现简单集成。其开源特性和易用API使其成为构建高性能多语言NER应用的理想选择。

NuNER-multilingual-v0.1 - 支持九种以上语言的高性能多语言实体识别系统

GithubHuggingfaceMultilingual BERTNLPNuMind多语言模型实体识别开源项目模型

NuNER-multilingual-v0.1作为一个多语言实体识别系统，通过对多语言BERT模型进行优化，实现了对英语、法语等9种以上语言的支持。系统基于Oscar数据集训练，具备跨领域和跨语言的实体识别能力。在性能测评中，其F1宏观指标相比基础mBERT有明显提升，单层嵌入达到0.5892，双层嵌入达到0.6231的水平。该系统可直接使用或根据具体需求进行定制化训练。

ner-english-ontonotes - Flair框架英语命名实体识别模型支持18类实体

FlairGithubHuggingface命名实体识别序列标注开源项目机器学习模型自然语言处理

这是一个基于Flair框架的英语命名实体识别模型，能够识别18种实体类型，包括人名、地点和组织等。模型采用Flair embeddings和LSTM-CRF架构，在Ontonotes数据集上的F1分数为89.27%。该模型可应用于多种自然语言处理任务，并且可以通过简单的Python代码实现NER预测。

biomedical-ner-all - 基于英语的生物医学实体识别AI模型

AIGithubHuggingfaceMaccrobatNamed Entity Recognitiontransformers库开源项目模型生物医学

该AI模型基于Maccrobat数据集训练，可以识别107种生物医学实体，适用于案例报告等文本工作。通过distilbert-base-uncased构建，拥有低碳排放（0.0279千克）和30.17分钟的训练时间。通过Huggingface API或transformers库，可便捷应用于生物医学领域；教程视频提供详细使用说明。

bert-large-NER - BERT大型版命名实体识别模型实现最先进性能

BERTCoNLL-2003GithubHuggingface命名实体识别开源项目机器学习模型自然语言处理

bert-large-NER是一个基于BERT大型模型的命名实体识别(NER)工具。该模型在CoNLL-2003数据集上训练，可准确识别地点、组织、人名和其他杂项四类实体。模型支持通过Transformers pipeline轻松集成，适用于多种NER应用场景。在测试集上，bert-large-NER的F1分数达到91.7%，展现了卓越的实体识别能力。

RecSysDatasets - 推荐系统公开数据集汇总及处理工具

GithubRecBole开源项目推荐系统数据处理数据集模型评估

RecSysDatasets是一个汇总公开推荐系统数据集的开源项目。该项目收集了电商、广告、电影等多个领域的数据集,并提供将数据集转换为统一格式的工具。这有助于研究人员更便捷地获取和使用各类推荐系统数据集,为算法开发和评估提供支持。项目与RecBole推荐系统库集成,便于进行算法测试。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com