#信息提取

ontogpt - 基于大语言模型的结构化信息提取Python包
OntoGPT信息提取Python包大语言模型本体论Github开源项目
OntoGPT是一款Python包,通过大语言模型、指令提示和本体定位从文本中提取结构化信息。OntoGPT支持命令行和基本的网络应用接口,并可以与多种API(如OpenAI)进行交互。该工具适用于多种环境,只需设置相关API密钥即可使用多种模型进行信息提取。详细信息请参阅完整文档,提供高效的信息处理解决方案。
knowledge-gpt - 利用多种信息源进行准确知识提取的工具
knowledgegptGPT-3信息提取OpenAIembeddingGithub开源项目
knowledge-gpt可从互联网及本地数据源采集信息,包括网站、PDF、PPTX、文档、YouTube字幕和音频。该工具通过OpenAI GPT-3生成提示,提供多种信息提取功能,支持API密钥配置和RESTful API使用示例,并适用于各种查询需求,精准生成答案并存储以供将来参考。
pyresparser - 简历解析器:支持PDF和DOCx格式文件
pyresparser简历解析信息提取Python库NLPGithub开源项目
pyresparser是一个简易的简历解析工具,可以从简历中提取姓名、电子邮件、手机号码、技能、工作经验、学校名称、学位和职位等信息。支持PDF和DOCx文件,易于集成到Python项目中。该工具使用spaCy和nltk进行自然语言处理,并提供便捷的命令行界面。更多信息和安装指南,请参阅官方文档。
stanford-openie-python - Stanford OpenIE的Python封装库
Stanford OpenIECoreNLP信息提取自然语言处理PythonGithub开源项目
这个项目是Stanford OpenIE的Python封装库,支持从文本中提取结构化的关系三元组,并与最新的CoreNLP库兼容。用户只需安装Python3和Java即可使用,通过简单的Python代码调用实现文本的结构化信息提取,包括生成GraphViz图示等功能。项目提供详细的安装和使用指南,适用于MacOS和Linux系统。更多信息请访问项目主页。
InvoiceNet - 深度神经网络,从发票文档中提取智能信息
InvoiceNet深度神经网络信息提取发票数据集预训练模型Github开源项目
InvoiceNet是一个通过深度神经网络从PDF、JPG、PNG格式的发票中提取智能信息的工具。它提供一个便捷的用户界面供用户查看和提取发票信息,并支持自定义模型的训练。用户可以根据需求添加或删除发票字段,并将提取的信息一键保存到系统中。详细的安装指南支持Ubuntu和Windows,并包含数据准备、字段添加以及使用GUI和CLI的说明。
wiseflow - 基于LLM的轻量级信息提取与分类工具
WiseFlow信息提取LLM应用智能分类PocketBaseGithub开源项目
WiseFlow是一个开源的信息提取和分类工具,利用大型语言模型从网站、微信公众号和社交媒体中提取关键信息。它具有轻量级设计,无需GPU即可运行。该工具特别适合处理微信公众号文章,可集成到Agent项目中作为动态知识库。WiseFlow使用Pocketbase数据库,并提供多种编程语言的SDK支持,实现高效的信息过滤和关键点组织。
InstructUIE - 基于Flan T5的统一信息抽取指令微调框架
InstructUIE信息提取模型训练深度学习自然语言处理Github开源项目
InstructUIE是一个基于Flan T5预训练模型的指令微调框架,致力于统一信息抽取。该项目通过自定义数据集微调,实现多种信息抽取任务的统一处理。InstructUIE提供完整的训练和评估脚本,并开放预训练模型下载,为自然语言处理研究和应用提供有力支持。
NuMind - 专注于信息提取任务,支持用户创建高质量轻量级AI模型
AI工具NuMind信息提取自然语言处理人工智能模型数据分析
NuMind平台专注于信息提取任务,支持用户创建高质量轻量级AI模型。这些模型适用于分类、实体识别和结构化提取等多种场景,比通用模型更高效经济。平台特点包括隐私保护、低成本推理、快速NLP开发和完全模型所有权。NuMind可应用于保险、医疗等行业,实现从索赔分析到健康记录提取的多样化应用。
AskYourPDF - AI PDF文档交互与管理平台
AI工具AskYourPDFPDF处理AI助手文档管理信息提取
AskYourPDF是一个AI驱动的PDF文档处理平台,提供智能交互、快速摘要和高效管理功能。用户可通过智能聊天提取文档洞见,提升信息获取效率。支持多平台访问,包括移动应用、浏览器扩展和Zotero插件。符合GDPR标准,确保数据安全。该平台适用于学术研究、商业分析等需要深入理解和管理PDF文档的场景。
Summarize This - 多媒体内容智能摘要工具助力高效信息获取
AI工具AI摘要内容总结信息提取Chrome扩展iOS应用
Summarize This是一款AI驱动的多媒体内容智能摘要工具,能够快速提取文本、PDF、网页和YouTube视频的核心信息。通过Chrome扩展和iOS应用,用户可以一键生成准确简洁的摘要,显著提升信息获取效率。这款工具已获得超过15,000名用户的认可,为需要快速洞察各类内容的用户提供便捷的AI解决方案,助力高效学习和工作。
Nex - 视频和文章内容智能分析与摘要工具
AI工具Nex信息提取视频摘要文章摘要效率工具
Nex是一款Chrome扩展程序,运用AI技术分析YouTube视频和文章内容。这款智能摘要工具能快速生成摘要和重点,提取关键信息,显著提高阅读效率。针对长视频,Nex提供AI内容分析功能,包括要点概览和时间轴,便于快速定位感兴趣内容。对于长文,它会突出核心段落并生成概要。Nex还支持一键保存重要句子,并将其转换为卡片形式,方便日后回顾和灵感记录。这款免费的AI驱动工具为用户提供了高效的信息处理和学习体验。
PDFChat - 智能PDF文档交互系统
AI工具PDF聊天AI助手文档分析多语言支持信息提取
PDFChat是一款AI驱动的文档处理工具,支持与PDF文件进行智能对话交互。系统具备多语言处理能力,可快速提取分析文档内容、生成摘要并回答问题。适用于学生、专业人士和企业,有效提升文档处理效率,减少人工搜索时间。用户只需上传文档即可开始自然语言对话,便捷获取所需信息。
tldr - AI驱动的长文自动摘要生成工具
AI工具文章摘要网页总结阅读效率内容概括信息提取
tldr是一款智能AI文章摘要工具,能够迅速概括长文和网页内容的核心要点。通过输入URL,用户可获取准确简洁的自动总结,有效节省阅读时间。这一工具特别适合需要快速把握文章主旨的人群,是提升信息获取效率的理想选择。tldr采用简洁的界面设计,操作便捷,支持多语言处理,为用户提供流畅高效的使用体验。无论是学生、研究人员还是忙碌的专业人士,tldr都是您提高阅读效率的得力助手。
Brevity - 智能长文本摘要工具
AI工具内容总结文本简化长文本处理信息提取
Brevity是一款智能文本摘要工具,可将冗长内容转化为清晰易读的摘要。这款工具能快速提取核心要点,提高阅读效率和信息处理能力。面对信息过载或需要快速理解大量文本时,Brevity能提供简洁明了的内容概括,有助于提升工作效率和优化数字化沟通。
layoutlm-large-uncased - 微软开发的多模态文档理解大型预训练模型
Huggingface模型多模态学习Github预训练模型信息提取开源项目文档理解LayoutLM
LayoutLM-large-uncased是微软开发的大型多模态文档理解预训练模型。该模型融合文本、版面布局和图像信息,在表单和收据理解等文档AI任务中表现出色。模型架构包括24层、1024隐藏单元、16个注意力头,总计3.43亿参数。经过1100万份文档的2轮预训练,LayoutLM为文档图像理解和信息提取任务提供了高效解决方案。
NuExtract-tiny - 基于Qwen1.5-0.5B的高效结构化信息提取模型
NuExtract-tinyHuggingface模型Qwen1.5-0.5B模型微调GithubJSON模板信息提取开源项目
NuExtract-tiny是一款基于Qwen1.5-0.5B模型微调的结构化信息提取工具。该模型经过高质量合成数据集训练,可从2000个token以内的文本中提取信息。用户通过提供JSON模板即可获得所需的结构化数据。NuExtract-tiny具备零样本学习能力,同时支持针对特定任务进行微调。作为NuMind公司开发的NLP模型系列之一,NuExtract-tiny为信息提取任务提供了高效解决方案。
rebel-large - 基于BART的端到端关系抽取模型
序列到序列模型Github关系抽取开源项目信息提取自然语言处理HuggingfaceREBEL模型
REBEL是一个创新的关系抽取模型,基于BART架构,将关系抽取转化为序列生成任务。该模型支持200多种关系类型识别,采用端到端设计避免了多步骤处理的错误累积。在多个基准测试中表现优异,其多语言版本mREBEL进一步扩展了语言和实体类型支持范围。
markuplm-base - 结合文本与标记语言的文档理解预训练模型
Github模型MarkupLM文档AI信息提取开源项目网页问答Huggingface多模态预训练
MarkupLM是一个文本和标记语言的多模态预训练模型,主要应用于网页问答和信息提取等文档理解任务。通过简单高效的预训练方法,该模型在多个文档理解数据集上取得了领先成果,为文档智能处理提供了新的技术方案。