#文本提取

PyMuPDF-Utilities: 强大的PDF处理工具箱

3 个月前

PyMuPDF PDF处理文本提取 OCR 文档处理 Github 开源项目

3 个月前

Receipt Parser Legacy：一个基于Python和Tesseract OCR的开源收据解析工具

3 个月前

Python receipt parser 图像处理文本提取开源项目 Github

3 个月前

TRex：让文本捕捉变得简单而强大的macOS工具

3 个月前

TRex OCR 文本提取菜单栏应用 macOS Github 开源项目

3 个月前

textract: 提取任何文档中的文本，简单易用的开源工具

3 个月前

textract 文本提取文档处理 Python库开源项目 Github

3 个月前

Text Grab: 一款强大的OCR文字识别工具

3 个月前

文本提取 OCR Windows应用文本编辑快速查找 Github 开源项目

3 个月前

jusText: 基于启发式算法的网页样板内容删除工具

3 个月前

jusText 文本提取网页清理 Python库开源项目 Github

3 个月前

MinerU：一站式开源高质量数据提取工具

3 个月前

MinerU PDF处理文本提取机器学习开源工具 Github 开源项目

3 个月前

相关项目

trafilatura

Trafilatura是一款先进的Python包及命令行工具，专为简化网页文本收集和处理设计，涵盖网页抓取、下载、解析和关键内容提取等功能。无需数据库支持，该工具支持输出多种格式，如TXT、CSV和JSON，具备并行处理、高效爬行和智能URL管理功能。广泛应用于自然语言处理、计算社会科学及信息安全领域。活跃的开源社区及定期更新使其在文本提取领域表现优异，效率和准确度俱佳。

readability

Readability.js是一个源自Firefox阅读器视图的JavaScript库，用于从复杂HTML文档中提取主要内容、标题和元数据。它为开发者提供了创建清晰、易读文章视图的简便方法。该库支持Node.js环境，具有灵活的配置选项，并强调安全性，建议与DOMPurify等安全库结合使用。

MinerU

MinerU是一个开源的PDF转换工具，专注于科研文献处理。它能将PDF转换为markdown和JSON等机器可读格式，同时保留原文档结构和语义连贯性。该工具支持移除页眉页脚，处理多列布局，提取图像和表格，以及将公式转换为LaTeX格式。MinerU兼容多种操作系统和硬件环境，可在CPU或GPU上运行，为大规模语言模型的发展提供数据支持。

jusText

jusText是一个开源的网页内容提取工具，专注于保留网页中的核心文本信息。该工具可自动移除导航栏、页眉页脚等非核心内容，仅保留完整句子组成的主体文本。jusText广泛应用于语言资源构建和网络语料库创建。它支持Python、C++、Go和Java等多种编程语言，并为用户提供简洁的命令行接口和Python API，便于快速集成到现有项目中。

pdfminer.six

pdfminer.six是一个开源Python库，用于从PDF文档中提取和分析文本数据。该库能够提取文本内容及其位置、字体和颜色信息，支持PDF-1.7规范、CJK语言和垂直书写。pdfminer.six还可提取图像、目录和交互式表单，支持多种压缩和加密方式。其模块化设计便于扩展，适用于多种PDF分析场景。该项目是PDFMiner的社区维护分支，提供了全面的PDF文档分析功能。

Picture to Text

Picture to Text是一款在线图片文字提取工具,采用OCR技术支持多种图片格式和语言。可快速将图片文字转换为可编辑文本,支持批量处理提高效率。工具操作简单,免费无需注册,适合学生、职场人士和研究人员使用。

Snippai

Snippai提供多样化的AI图像处理功能。该平台能够识别公式并转换为LaTeX格式，提取文本内容，将表格转换为Markdown格式，分析图像内容，解决图像中的问题，解释代码片段，以及提取主要颜色。这些功能旨在提高用户的图像处理效率，为各类图像识别和转换需求提供全面解决方案。

Commabot

Commabot是一款集成AI助手的在线CSV编辑器和智能数据处理平台。该工具提供清晰的数据视图和熟悉的电子表格界面，方便用户打开、浏览和编辑CSV文件。内置的AI助手能执行自动化批量编辑任务，大幅提高数据处理效率。用户可以通过自然语言与CSV数据对话，实现智能化的数据分析和处理。Commabot还具备从非结构化文本提取有意义信息的功能，并配有护眼深色模式，优化用户体验。这款创新的'chat with csv'和'ai csv'工具，适合需要高效处理CSV数据的专业人士和团队使用。

textract

textract是一个开源文本提取工具，支持从多种格式文档（如PDF、Word、Excel等）中提取文本。该项目最初由Dean Malmgren创建，现由Jazzband社区维护。textract提供简单接口，具备全面的文档支持，旨在简化文本提取流程。它适用于需要从不同类型文档中批量提取文本的场景，为用户提供高效的文本提取解决方案。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com