#PDF解析

Talk2Arxiv入门指南 - 通过ChatGPT与任何ArXiv论文对话的开源项目

1 个月前

Talk2Arxiv是一个创新的开源项目,允许用户通过ChatGPT与ArXiv上的任何学术论文进行互动对话。本文介绍了项目的主要功能、使用方法和技术细节,帮助读者快速了解和使用这一强大的学术研究工具。

Talk2Arxiv PDF解析文本嵌入向量数据库集成 GROBID Github 开源项目

1 个月前

OpenChatPaper: 基于ChatGPT API的开源论文阅读助手

2 个月前

OpenChatPaper是一个基于OpenAI ChatGPT API的开源论文阅读助手,旨在重新实现ChatPDF的功能,为研究人员提供智能化的论文阅读和分析工具。

ChatGPT 论文阅读助手 OpenAI API PDF解析对话式AI Github 开源项目

2 个月前

nlm-ingestor: 一款强大的文档解析工具

2 个月前

nlm-ingestor是一个为llmsherpa API提供服务端代码的仓库，它包含了多种文件格式的自定义RAG友好解析器，可以有效提升大语言模型的检索增强生成能力。

nlm-ingestor PDF解析 HTML解析 RAG Apache Tika Github 开源项目

2 个月前

CBook-150K: 复旦大学NLP实验室推出的大规模中文图书语料库

2 个月前

CBook-150K是由复旦大学自然语言处理实验室推出的一个包含约15万本中文电子图书的大规模语料库,旨在为中文自然语言处理研究提供高质量的语料资源。该项目提供了图书的MD5链接,并介绍了下载和解析图书内容的方法。

中文图书语料 MD5链接百度云盘 PDF解析 EPUB解析 Github 开源项目

2 个月前

CBook-150K：复旦大学自然语言处理实验室的中文图书语料库

2 个月前

CBook-150K是由复旦大学自然语言处理实验室开发的大规模中文图书语料库,包含约15万本中文图书的MD5链接,为自然语言处理研究提供了丰富的中文文本资源。

中文图书语料 MD5链接百度云盘 PDF解析 EPUB解析 Github 开源项目

2 个月前

paper-qa学习资料汇总 - 基于文档的问答工具

1 个月前

paper-qa是一个强大的文档问答工具,可以从PDF或文本文件中提取信息并回答问题,本文汇总了该项目的各种学习资源。

PaperQA OpenAI langchain LLM PDF解析 Github 开源项目

1 个月前

PaperMage: 一个统一的科学文献处理、表示和操作工具包

2 个月前

PaperMage是一个开源的Python工具包,用于分析和处理富含视觉信息的结构化科学文献。它提供了清晰直观的抽象,可以无缝地表示和操作文档的文本和视觉元素。通过集成最先进的自然语言处理和计算机视觉模型,PaperMage为科学文献处理提供了一个统一的框架。

papermage 文档处理 PDF解析实体识别数据结构 Github 开源项目

2 个月前

LLM Sherpa: 智能PDF解析助手加速大语言模型应用开发

2 个月前

LLM Sherpa是一款强大的PDF解析工具,可以智能识别文档结构和布局,为大语言模型应用开发提供关键支持。本文深入介绍了LLM Sherpa的主要功能、使用方法及其在LLM项目中的应用价值。

LLM Sherpa LayoutPDFReader PDF解析向量搜索文档结构分析 Github 开源项目

2 个月前

GPTPDF: 革新PDF解析的智能工具

2 个月前

GPTPDF是一款基于GPT技术的开源工具，旨在将PDF文件智能转换为Markdown格式，实现对排版、数学公式、表格、图片和图表的高精度解析。本文深入探讨了GPTPDF的功能特性、工作原理、使用方法及其在文档处理领域的重要意义。

gptpdf PDF解析 markdown转换大型视觉模型 OpenAI API Github 开源项目

2 个月前

GPTPDF：利用GPT技术解析PDF文件的创新工具

2 个月前

GPTPDF是一个开源项目，旨在利用先进的GPT模型技术将PDF文件转换为易于理解和操作的Markdown格式。本文将深入探讨GPTPDF的功能特点、工作原理以及使用方法，为读者提供一个全面的项目概览。

gptpdf PDF解析 markdown转换大型视觉模型 OpenAI API Github 开源项目

2 个月前

相关项目

paper-qa

PaperQA是一款轻量级工具，专为从PDF和文本文件中进行问答设计，通过内嵌引用确保答案准确。默认使用OpenAI Embeddings，支持与langchain和开源模型结合。其流程包括文档向量化、查询向量化、文档搜索、摘要生成、相关摘要选择，并生成最终答案。PaperQA支持异步操作，兼容多种LLM，并提供多种自定义和扩展选项，如本地向量存储和Zotero数据库集成，是科研人员高效处理文档问答的理想选择。

talk2arxiv

Talk2Arxiv是一款专为学术论文PDF设计的开源响应式RAG（检索增强生成）系统，利用GROBID进行高效文本提取，并使用Cohere的EmbedV3模型进行精准文本嵌入。该系统不仅能缓存研究论文，减少重复处理，还通过Qdrant进行存储和查询，确保内容的相关性和准确性。前端采用Typescript, ReactJS等技术搭建，后端依赖Flask, Gunicorn实现，为学术研究提供流畅高效的在线阅读体验。

nlm-ingestor

nlm-ingestor是一个开源的文档解析工具，专门针对RAG(检索增强生成)进行了优化。它支持PDF、HTML和文本等多种格式，提供章节划分、段落链接和表格识别等精确的内容结构化功能。该项目整合了改进版Apache Tika和OCR技术，能够高效处理大型文档。nlm-ingestor不依赖特殊硬件，为开发者提供了强大的基础设施，有助于提高LLM项目的检索和生成性能。

llmsherpa

LLM Sherpa是一个开源项目，提供LayoutPDFReader工具用于智能解析PDF文档结构，包括章节、段落和表格。该工具支持精确分块并保留上下文信息，适用于向量搜索和生成式AI应用。项目提供API接口，便于集成到各类大语言模型应用中，如问答系统和文本摘要。LLM Sherpa简化了PDF处理流程，为开发者提供了高效的大语言模型应用开发框架。

officeParser

officeParser是一个Node.js库，用于从多种办公文档格式中提取文本内容。支持docx、pptx、xlsx、odt、odp、ods和pdf等文件类型，提供API和命令行接口。该库可配置性强，支持文件路径和缓冲区输入，提供回调和Promise两种使用方式。officeParser能高效解析并保持文档结构和顺序，适用于各种办公文档处理需求。

CBook-150K

CBook-150K是一个包含约15万本中文图书的语料集合，基于开源MD5图书链接构建。项目支持PDF、EPUB和MOBI格式解析，提供MD5链接目录结构和快速转存方法。介绍了各种电子书格式的解析技术，为自然语言处理研究提供中文文本资源。该语料集合仅供科研用途。

gptpdf

gptpdf是一个基于VLLM技术的PDF解析工具，可将PDF文件转换为Markdown格式。该工具能够处理复杂排版、数学公式、表格和图表，保持原文档的格式和结构。gptpdf代码简洁，支持本地使用和Google Colab环境，并提供API接口以适应不同需求。它适用于文档处理和学术研究等场景，能够提高工作效率。

pdfminer.six

pdfminer.six是一个开源Python库，用于从PDF文档中提取和分析文本数据。该库能够提取文本内容及其位置、字体和颜色信息，支持PDF-1.7规范、CJK语言和垂直书写。pdfminer.six还可提取图像、目录和交互式表单，支持多种压缩和加密方式。其模块化设计便于扩展，适用于多种PDF分析场景。该项目是PDFMiner的社区维护分支，提供了全面的PDF文档分析功能。

papermage

papermage是一款专门用于处理PDF文档的开源工具包。它能够创建Document对象、解析文档结构、提取文本和元数据。该工具支持多层次文档分割，包括页面、行和句子等，并可在不同层次间自由导航。papermage允许保存和加载Document对象，还支持通过自定义预测器进行功能扩展。这个统一平台为处理、表示和操作视觉丰富的文档提供了便利。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com