#信息抽取

GoLLIE - 适用于信息抽取的先进大规模语言模型
GoLLIE语言模型信息抽取零样本HiTZGithub开源项目
GoLLIE是一种遵循注释指南进行信息抽取的大规模语言模型,在零样本信息抽取方面优于以往方法。它允许用户根据即时定义的注释模式进行推断,不仅依赖已编码知识。GoLLIE的代码和模型公开发布,适用于各种任务,并提供了开箱即用的实例笔记本和定制任务支持。
NLP-Interview-Notes - 自然语言处理面试全攻略与实战技巧
NLP命名实体识别信息抽取关系抽取事件抽取Github开源项目
该项目汇总了自然语言处理(NLP)领域的常见面试题和详细解析,包括信息抽取、命名实体识别、关系抽取、事件抽取等方面的内容。项目内容涵盖了对隐马尔科夫模型、最大熵马尔科夫模型、条件随机场以及深度学习结合CRF等算法的详细分析,帮助学习者掌握算法原理和实际应用。此外,还提供了各类实战技巧和常见问题的解决方法,全面助力NLP面试准备。
transformers_tasks - 多种集成NLP任务的高效开源工具
huggingface transformersNLP文本匹配信息抽取强化学习Github开源项目
transformers_tasks提供了多种NLP任务的实现,基于Huggingface transformers库,用户可以便捷加载及训练模型,并根据自己数据集进行微调。包括文本匹配、信息抽取、Prompt任务等多种功能,适用于Python 3.6+和多种操作系统,满足不同NLP应用需求。
rebel - 关系抽取的高效端到端语言生成新方法
REBEL关系抽取seq2seq模型数据集信息抽取Github开源项目
此项目引入了一种新型线性化方法,将关系抽取重新定义为序列到序列任务。通过BART模型,实现了超200种关系类型的端到端抽取,简化传统多步骤流程并减少错误传播。该模型在多个关系抽取和分类基准上表现出色,并提供多语言版本mREBEL和数据集支持,适用于各种信息抽取应用。
Awesome-LLM4IE-Papers - 大型语言模型驱动的信息抽取研究进展综述
LLM信息抽取命名实体识别关系抽取事件抽取Github开源项目
Awesome-LLM4IE-Papers项目收录了大型语言模型在信息抽取领域的前沿论文。涵盖命名实体识别、关系抽取和事件抽取等任务,以及监督微调、少样本和零样本学习等技术。项目还包括特定领域应用、评估分析和相关工具。通过持续更新,为研究人员提供LLM驱动的信息抽取最新进展,促进该领域的学术交流与技术创新。
AwesomeNLP - 从基础到前沿的NLP实战教程与学习资源
自然语言处理NLP大模型信息抽取知识图谱Github开源项目
这个开源项目提供了全面的NLP学习资源,涵盖文本分类、信息抽取、知识图谱、机器翻译等多个领域的理论和实战教程。项目为NLP初学者设计了详细的学习路径,同时也包含了大模型应用等前沿内容。资源丰富且实用,适合希望深入学习自然语言处理的人员参考。
nlp_paper_study - NLP论文学习和实战资源库
NLP论文研究知识图谱预训练模型信息抽取Github开源项目
nlp_paper_study项目是一个综合性NLP学习资源库,涵盖论文阅读方法、经典会议论文解读、理论学习和实战经验。内容包括transformer、预训练模型、信息抽取、知识图谱等多个NLP主题,从基础到前沿。项目还提供竞赛经验和实用工具介绍,帮助研究者和工程师系统掌握NLP知识,提升科研与应用能力。
IEPile - 双语大规模信息抽取数据集构建及模型优化
IEPile信息抽取大规模数据集指令微调双语Github开源项目
IEPile是一个包含0.32B tokens的双语信息抽取指令数据集,整合了26个英文和7个中文信息抽取数据集。采用基于模式的分批指令生成策略,IEPile支持多种信息抽取任务。研究者利用IEPile对Baichuan2-13B-Chat和LLaMA2-13B-Chat模型进行微调,在全监督和零样本信息抽取任务中均实现了显著性能提升。项目提供了详细的数据格式说明和模型训练指南。
YAYI-UIE - 多领域信息抽取统一模型
YAYI-UIE信息抽取大模型指令微调开源Github开源项目
YAYI-UIE是一个信息抽取统一大模型,基于百万级高质量数据训练而成。该模型支持命名实体识别、关系抽取和事件抽取等任务,涵盖通用、安全、金融、生物、医疗等多个领域。YAYI-UIE在多个中英文数据集上展现出优秀的零样本性能,为信息抽取研究和应用提供了有力工具。作为开源项目,YAYI-UIE促进了中文预训练大模型社区的发展,推动了开放人工智能生态系统的建设。
practical-nlp-code - 实用自然语言处理系统构建指南
自然语言处理NLP系统文本分类信息抽取聊天机器人Github开源项目
该代码仓库提供了全面的实用自然语言处理内容,从基础到高级应用。涵盖文本表示、分类、信息提取等核心主题,并探讨社交媒体、电商、医疗等领域的NLP应用。仓库包含丰富的Python代码示例,有助于构建实际NLP系统。正在更新以支持最新Ubuntu系统和TensorFlow 2.x。
Evaluation-of-ChatGPT-on-Information-Extraction - 将ChatGPT应用于信息抽取任务的全面评估研究
ChatGPT信息抽取性能评估鲁棒性分析错误分析Github开源项目
本研究评估了ChatGPT在信息抽取领域的性能,包括命名实体识别、关系抽取、事件抽取和基于方面的情感分析等任务。结果显示ChatGPT与当前最优模型存在显著差距。研究提出软匹配评估策略,并深入分析了ChatGPT的鲁棒性和错误类型。这些发现为信息抽取领域的未来研究提供了宝贵参考。项目相关代码和数据集已在GitHub公开。
relik - 高效实体链接与关系抽取的开源解决方案
ReLiK实体链接关系抽取信息抽取预训练模型Github开源项目
ReLiK是一个开源的轻量级信息抽取模型,专注于实体链接和关系抽取任务。它采用检索-阅读架构,能高效处理大规模文档并提取关键信息。ReLiK支持预训练模型快速加载,适用于多种NLP场景。该项目在保证准确性的同时大幅提升了处理速度,为自然语言处理研究提供了实用的工具。
NuExtract-v1.5 - 基于AI的多语言结构化信息提取工具
Huggingface模型信息抽取长文本处理Github开源项目NuExtract多语言支持文本提取
NuExtract-v1.5是一款基于Phi-3.5-mini-instruct模型优化的结构化信息提取工具。该工具支持处理长文档,兼容英、法、西、德、葡、意等多种语言。在多项基准测试中,NuExtract-v1.5的表现超越了同类13B和34B参数的模型。使用时,只需输入文本和JSON模板即可提取所需信息。此外,NuExtract-v1.5还提供了参数量仅为0.5B的轻量级版本,以满足不同应用场景的需求。
matscibert - 材料科学领域的专用文本挖掘与信息提取语言模型
开源项目预训练模型信息抽取Github模型Huggingface文本挖掘材料科学MatSciBERT
MatSciBERT是应用于材料科学领域的预训练语言模型,旨在提高文本挖掘与信息提取的效果。该模型基于BERT技术,在合金、玻璃、金属玻璃等类型的材料科学文献上训练,资料来源于ScienceDirect。研究人员可以从GitHub获取相关代码,用以在科研过程中实现更精确的信息抽取和深入分析。