Logo

#PDF解析

Talk2Arxiv入门指南 - 通过ChatGPT与任何ArXiv论文对话的开源项目

1 个月前
Cover of Talk2Arxiv入门指南 - 通过ChatGPT与任何ArXiv论文对话的开源项目

OpenChatPaper: 基于ChatGPT API的开源论文阅读助手

2 个月前
Cover of OpenChatPaper: 基于ChatGPT API的开源论文阅读助手

nlm-ingestor: 一款强大的文档解析工具

2 个月前
Cover of nlm-ingestor: 一款强大的文档解析工具

CBook-150K: 复旦大学NLP实验室推出的大规模中文图书语料库

2 个月前
Cover of CBook-150K: 复旦大学NLP实验室推出的大规模中文图书语料库

CBook-150K:复旦大学自然语言处理实验室的中文图书语料库

2 个月前
Cover of CBook-150K:复旦大学自然语言处理实验室的中文图书语料库

paper-qa学习资料汇总 - 基于文档的问答工具

1 个月前
Cover of paper-qa学习资料汇总 - 基于文档的问答工具

PaperMage: 一个统一的科学文献处理、表示和操作工具包

2 个月前
Cover of PaperMage: 一个统一的科学文献处理、表示和操作工具包

LLM Sherpa: 智能PDF解析助手加速大语言模型应用开发

2 个月前
Cover of LLM Sherpa: 智能PDF解析助手加速大语言模型应用开发

GPTPDF: 革新PDF解析的智能工具

2 个月前
Cover of GPTPDF: 革新PDF解析的智能工具

GPTPDF:利用GPT技术解析PDF文件的创新工具

2 个月前
Cover of GPTPDF:利用GPT技术解析PDF文件的创新工具

相关项目

Project Cover
paper-qa
PaperQA是一款轻量级工具,专为从PDF和文本文件中进行问答设计,通过内嵌引用确保答案准确。默认使用OpenAI Embeddings,支持与langchain和开源模型结合。其流程包括文档向量化、查询向量化、文档搜索、摘要生成、相关摘要选择,并生成最终答案。PaperQA支持异步操作,兼容多种LLM,并提供多种自定义和扩展选项,如本地向量存储和Zotero数据库集成,是科研人员高效处理文档问答的理想选择。
Project Cover
talk2arxiv
Talk2Arxiv是一款专为学术论文PDF设计的开源响应式RAG(检索增强生成)系统,利用GROBID进行高效文本提取,并使用Cohere的EmbedV3模型进行精准文本嵌入。该系统不仅能缓存研究论文,减少重复处理,还通过Qdrant进行存储和查询,确保内容的相关性和准确性。前端采用Typescript, ReactJS等技术搭建,后端依赖Flask, Gunicorn实现,为学术研究提供流畅高效的在线阅读体验。
Project Cover
nlm-ingestor
nlm-ingestor是一个开源的文档解析工具,专门针对RAG(检索增强生成)进行了优化。它支持PDF、HTML和文本等多种格式,提供章节划分、段落链接和表格识别等精确的内容结构化功能。该项目整合了改进版Apache Tika和OCR技术,能够高效处理大型文档。nlm-ingestor不依赖特殊硬件,为开发者提供了强大的基础设施,有助于提高LLM项目的检索和生成性能。
Project Cover
llmsherpa
LLM Sherpa是一个开源项目,提供LayoutPDFReader工具用于智能解析PDF文档结构,包括章节、段落和表格。该工具支持精确分块并保留上下文信息,适用于向量搜索和生成式AI应用。项目提供API接口,便于集成到各类大语言模型应用中,如问答系统和文本摘要。LLM Sherpa简化了PDF处理流程,为开发者提供了高效的大语言模型应用开发框架。
Project Cover
officeParser
officeParser是一个Node.js库,用于从多种办公文档格式中提取文本内容。支持docx、pptx、xlsx、odt、odp、ods和pdf等文件类型,提供API和命令行接口。该库可配置性强,支持文件路径和缓冲区输入,提供回调和Promise两种使用方式。officeParser能高效解析并保持文档结构和顺序,适用于各种办公文档处理需求。
Project Cover
CBook-150K
CBook-150K是一个包含约15万本中文图书的语料集合,基于开源MD5图书链接构建。项目支持PDF、EPUB和MOBI格式解析,提供MD5链接目录结构和快速转存方法。介绍了各种电子书格式的解析技术,为自然语言处理研究提供中文文本资源。该语料集合仅供科研用途。
Project Cover
gptpdf
gptpdf是一个基于VLLM技术的PDF解析工具,可将PDF文件转换为Markdown格式。该工具能够处理复杂排版、数学公式、表格和图表,保持原文档的格式和结构。gptpdf代码简洁,支持本地使用和Google Colab环境,并提供API接口以适应不同需求。它适用于文档处理和学术研究等场景,能够提高工作效率。
Project Cover
pdfminer.six
pdfminer.six是一个开源Python库,用于从PDF文档中提取和分析文本数据。该库能够提取文本内容及其位置、字体和颜色信息,支持PDF-1.7规范、CJK语言和垂直书写。pdfminer.six还可提取图像、目录和交互式表单,支持多种压缩和加密方式。其模块化设计便于扩展,适用于多种PDF分析场景。该项目是PDFMiner的社区维护分支,提供了全面的PDF文档分析功能。
Project Cover
papermage
papermage是一款专门用于处理PDF文档的开源工具包。它能够创建Document对象、解析文档结构、提取文本和元数据。该工具支持多层次文档分割,包括页面、行和句子等,并可在不同层次间自由导航。papermage允许保存和加载Document对象,还支持通过自定义预测器进行功能扩展。这个统一平台为处理、表示和操作视觉丰富的文档提供了便利。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号