#信息抽取

GoLLIE - 适用于信息抽取的先进大规模语言模型

GoLLIE语言模型信息抽取零样本HiTZGithub开源项目

GoLLIE是一种遵循注释指南进行信息抽取的大规模语言模型，在零样本信息抽取方面优于以往方法。它允许用户根据即时定义的注释模式进行推断，不仅依赖已编码知识。GoLLIE的代码和模型公开发布，适用于各种任务，并提供了开箱即用的实例笔记本和定制任务支持。

NLP-Interview-Notes - 自然语言处理面试全攻略与实战技巧

NLP命名实体识别信息抽取关系抽取事件抽取Github开源项目

该项目汇总了自然语言处理（NLP）领域的常见面试题和详细解析，包括信息抽取、命名实体识别、关系抽取、事件抽取等方面的内容。项目内容涵盖了对隐马尔科夫模型、最大熵马尔科夫模型、条件随机场以及深度学习结合CRF等算法的详细分析，帮助学习者掌握算法原理和实际应用。此外，还提供了各类实战技巧和常见问题的解决方法，全面助力NLP面试准备。

transformers_tasks - 多种集成NLP任务的高效开源工具

huggingface transformersNLP文本匹配信息抽取强化学习Github开源项目

transformers_tasks提供了多种NLP任务的实现，基于Huggingface transformers库，用户可以便捷加载及训练模型，并根据自己数据集进行微调。包括文本匹配、信息抽取、Prompt任务等多种功能，适用于Python 3.6+和多种操作系统，满足不同NLP应用需求。

rebel - 关系抽取的高效端到端语言生成新方法

REBEL关系抽取seq2seq模型数据集信息抽取Github开源项目

此项目引入了一种新型线性化方法，将关系抽取重新定义为序列到序列任务。通过BART模型，实现了超200种关系类型的端到端抽取，简化传统多步骤流程并减少错误传播。该模型在多个关系抽取和分类基准上表现出色，并提供多语言版本mREBEL和数据集支持，适用于各种信息抽取应用。

Awesome-LLM4IE-Papers - 大型语言模型驱动的信息抽取研究进展综述

LLM信息抽取命名实体识别关系抽取事件抽取Github开源项目

Awesome-LLM4IE-Papers项目收录了大型语言模型在信息抽取领域的前沿论文。涵盖命名实体识别、关系抽取和事件抽取等任务，以及监督微调、少样本和零样本学习等技术。项目还包括特定领域应用、评估分析和相关工具。通过持续更新，为研究人员提供LLM驱动的信息抽取最新进展，促进该领域的学术交流与技术创新。

AwesomeNLP - 从基础到前沿的NLP实战教程与学习资源

自然语言处理NLP大模型信息抽取知识图谱Github开源项目

这个开源项目提供了全面的NLP学习资源，涵盖文本分类、信息抽取、知识图谱、机器翻译等多个领域的理论和实战教程。项目为NLP初学者设计了详细的学习路径，同时也包含了大模型应用等前沿内容。资源丰富且实用，适合希望深入学习自然语言处理的人员参考。

nlp_paper_study - NLP论文学习和实战资源库

NLP论文研究知识图谱预训练模型信息抽取Github开源项目

nlp_paper_study项目是一个综合性NLP学习资源库，涵盖论文阅读方法、经典会议论文解读、理论学习和实战经验。内容包括transformer、预训练模型、信息抽取、知识图谱等多个NLP主题，从基础到前沿。项目还提供竞赛经验和实用工具介绍，帮助研究者和工程师系统掌握NLP知识，提升科研与应用能力。

IEPile - 双语大规模信息抽取数据集构建及模型优化

IEPile信息抽取大规模数据集指令微调双语Github开源项目

IEPile是一个包含0.32B tokens的双语信息抽取指令数据集,整合了26个英文和7个中文信息抽取数据集。采用基于模式的分批指令生成策略,IEPile支持多种信息抽取任务。研究者利用IEPile对Baichuan2-13B-Chat和LLaMA2-13B-Chat模型进行微调,在全监督和零样本信息抽取任务中均实现了显著性能提升。项目提供了详细的数据格式说明和模型训练指南。

YAYI-UIE - 多领域信息抽取统一模型

YAYI-UIE信息抽取大模型指令微调开源Github开源项目

YAYI-UIE是一个信息抽取统一大模型，基于百万级高质量数据训练而成。该模型支持命名实体识别、关系抽取和事件抽取等任务，涵盖通用、安全、金融、生物、医疗等多个领域。YAYI-UIE在多个中英文数据集上展现出优秀的零样本性能，为信息抽取研究和应用提供了有力工具。作为开源项目，YAYI-UIE促进了中文预训练大模型社区的发展，推动了开放人工智能生态系统的建设。

practical-nlp-code - 实用自然语言处理系统构建指南

自然语言处理NLP系统文本分类信息抽取聊天机器人Github开源项目

该代码仓库提供了全面的实用自然语言处理内容,从基础到高级应用。涵盖文本表示、分类、信息提取等核心主题,并探讨社交媒体、电商、医疗等领域的NLP应用。仓库包含丰富的Python代码示例,有助于构建实际NLP系统。正在更新以支持最新Ubuntu系统和TensorFlow 2.x。

Evaluation-of-ChatGPT-on-Information-Extraction - 将ChatGPT应用于信息抽取任务的全面评估研究

ChatGPT信息抽取性能评估鲁棒性分析错误分析Github开源项目

本研究评估了ChatGPT在信息抽取领域的性能，包括命名实体识别、关系抽取、事件抽取和基于方面的情感分析等任务。结果显示ChatGPT与当前最优模型存在显著差距。研究提出软匹配评估策略，并深入分析了ChatGPT的鲁棒性和错误类型。这些发现为信息抽取领域的未来研究提供了宝贵参考。项目相关代码和数据集已在GitHub公开。

relik - 高效实体链接与关系抽取的开源解决方案

ReLiK实体链接关系抽取信息抽取预训练模型Github开源项目

ReLiK是一个开源的轻量级信息抽取模型,专注于实体链接和关系抽取任务。它采用检索-阅读架构,能高效处理大规模文档并提取关键信息。ReLiK支持预训练模型快速加载,适用于多种NLP场景。该项目在保证准确性的同时大幅提升了处理速度,为自然语言处理研究提供了实用的工具。

NuExtract-v1.5 - 基于AI的多语言结构化信息提取工具

Huggingface模型信息抽取长文本处理Github开源项目NuExtract多语言支持文本提取

NuExtract-v1.5是一款基于Phi-3.5-mini-instruct模型优化的结构化信息提取工具。该工具支持处理长文档，兼容英、法、西、德、葡、意等多种语言。在多项基准测试中，NuExtract-v1.5的表现超越了同类13B和34B参数的模型。使用时，只需输入文本和JSON模板即可提取所需信息。此外，NuExtract-v1.5还提供了参数量仅为0.5B的轻量级版本，以满足不同应用场景的需求。

matscibert - 材料科学领域的专用文本挖掘与信息提取语言模型

开源项目预训练模型信息抽取Github模型Huggingface文本挖掘材料科学MatSciBERT

MatSciBERT是应用于材料科学领域的预训练语言模型，旨在提高文本挖掘与信息提取的效果。该模型基于BERT技术，在合金、玻璃、金属玻璃等类型的材料科学文献上训练，资料来源于ScienceDirect。研究人员可以从GitHub获取相关代码，用以在科研过程中实现更精确的信息抽取和深入分析。

相关文章

Article Cover

大型语言模型在信息抽取中的应用与进展

Article Cover

NLP菜鸟逆袭记 - 自然语言处理入门实践项目

Article Cover

NLP论文学习指南：100篇重要论文及研究方向详解

Article Cover

IEPile: 一个大规模信息抽取语料库的突破性进展

Article Cover

ChatGPT在信息抽取任务中的表现评估:性能、鲁棒性与错误类型分析

Article Cover

YAYI-UIE: 中科闻歌研发的先进信息抽取大模型

Article Cover

ReLiK:一个快速轻量级的实体链接和关系抽取模型

Article Cover

Practical-NLP-Code: 构建实用自然语言处理系统的综合指南

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号