#命名实体识别
Introduction-NLP
本项目详细解析《自然语言处理入门》,涵盖中文分词、词性标注、命名实体识别等NLP核心技术,为初学者及爱好者提供清晰的学习路径和实用的笔记。
NLP-Interview-Notes
该项目汇总了自然语言处理(NLP)领域的常见面试题和详细解析,包括信息抽取、命名实体识别、关系抽取、事件抽取等方面的内容。项目内容涵盖了对隐马尔科夫模型、最大熵马尔科夫模型、条件随机场以及深度学习结合CRF等算法的详细分析,帮助学习者掌握算法原理和实际应用。此外,还提供了各类实战技巧和常见问题的解决方法,全面助力NLP面试准备。
awesome_Chinese_medical_NLP
收录中文医学自然语言处理(NLP)各类资源,如术语集、语料库、词向量、预训练模型、知识图谱、命名实体识别、问答系统和信息抽取工具。项目旨在推动中文医学NLP技术发展,提供丰富的开源数据集和工具,包含中文医疗信息处理挑战榜CBLUE数据集、中文电子病历预训练Bert模型及多种医学词汇和知识图谱资源。这些材料涵盖术语标准化、文本分类等领域,为中文医学NLP研究和应用奠定坚实基础。
prodigy-recipes
本项目提供了一系列自定义的Prodigy脚本食谱,涵盖命名实体识别、文本分类、术语提取和图像标注等任务,旨在帮助提升训练数据的质量和模型性能。这些脚本附有详细注释和简化示例,适合处理各种数据标注需求。使用这些脚本需拥有Prodigy许可。
zshot
Zshot是一个高度可定制的开源框架,支持零样本和少样本的命名实体识别和关系识别。该框架提供提及抽取、维基化和关系抽取等功能,并利用SpaCy进行可视化。适用于研究和工业应用,支持最新的方法和预训练模型,并提供易于扩展的API接口。
AdaSeq
AdaSeq是由阿里巴巴达摩院开发的一体化序列理解工具库,构建在ModelScope之上。支持词性标注、分块、命名实体识别、实体类型化、关系抽取等多种任务。提供丰富的前沿模型和训练方法,优于许多现有框架。该库使用简便,只需一行命令即可生成模型,支持自定义模型和数据集。适用于研究人员和开发者,项目处于快速开发阶段,并提供多语言、多领域的数据集和在线演示。
Awesome-LLM4IE-Papers
Awesome-LLM4IE-Papers项目收录了大型语言模型在信息抽取领域的前沿论文。涵盖命名实体识别、关系抽取和事件抽取等任务,以及监督微调、少样本和零样本学习等技术。项目还包括特定领域应用、评估分析和相关工具。通过持续更新,为研究人员提供LLM驱动的信息抽取最新进展,促进该领域的学术交流与技术创新。
GLiNER
GLiNER是一个通用轻量级的命名实体识别模型,采用双向转换器编码器架构。它能识别任意类型的实体,填补了传统NER模型和大型语言模型之间的空白。GLiNER具有灵活性高、体积小、效率高的特点,适用于资源受限的场景。该模型支持自定义实体类型,可应用于信息提取、文本分类等多种自然语言处理任务。
ChatIE
ChatIE项目利用ChatGPT的强大功能,将零样本信息抽取任务转化为多轮问答形式,形成了一个两阶段的创新框架。通过在多个数据集上的广泛评估,该框架在实体关系抽取、命名实体识别和事件抽取任务中表现出色,甚至超越了一些全监督模型,展现了在有限资源下构建信息抽取系统的巨大潜力。