#文本提取

trafilatura - 优化网页内容抓取和提取，简化数据处理流程

Github开源项目Python自然语言处理网页抓取Trafilatura文本提取

Trafilatura是一款先进的Python包及命令行工具，专为简化网页文本收集和处理设计，涵盖网页抓取、下载、解析和关键内容提取等功能。无需数据库支持，该工具支持输出多种格式，如TXT、CSV和JSON，具备并行处理、高效爬行和智能URL管理功能。广泛应用于自然语言处理、计算社会科学及信息安全领域。活跃的开源社区及定期更新使其在文本提取领域表现优异，效率和准确度俱佳。

readability - 用于提取和简化网页内容的JavaScript库

Github开源项目JavaScript库内容阅读文本提取Readability.jsDOM解析

Readability.js是一个源自Firefox阅读器视图的JavaScript库，用于从复杂HTML文档中提取主要内容、标题和元数据。它为开发者提供了创建清晰、易读文章视图的简便方法。该库支持Node.js环境，具有灵活的配置选项，并强调安全性，建议与DOMPurify等安全库结合使用。

MinerU - 开源工具实现PDF到机器可读格式的高效转换

Github开源项目机器学习开源工具PDF处理文本提取MinerU

MinerU是一个开源的PDF转换工具，专注于科研文献处理。它能将PDF转换为markdown和JSON等机器可读格式，同时保留原文档结构和语义连贯性。该工具支持移除页眉页脚，处理多列布局，提取图像和表格，以及将公式转换为LaTeX格式。MinerU兼容多种操作系统和硬件环境，可在CPU或GPU上运行，为大规模语言模型的发展提供数据支持。

jusText - 智能网页正文提取工具保留核心内容

Github开源项目Python库文本提取jusText网页清理

jusText是一个开源的网页内容提取工具，专注于保留网页中的核心文本信息。该工具可自动移除导航栏、页眉页脚等非核心内容，仅保留完整句子组成的主体文本。jusText广泛应用于语言资源构建和网络语料库创建。它支持Python、C++、Go和Java等多种编程语言，并为用户提供简洁的命令行接口和Python API，便于快速集成到现有项目中。

pdfminer.six - Python开源PDF文本提取与分析库

Github开源项目PDF解析Python库文本提取文档分析pdfminer.six

pdfminer.six是一个开源Python库，用于从PDF文档中提取和分析文本数据。该库能够提取文本内容及其位置、字体和颜色信息，支持PDF-1.7规范、CJK语言和垂直书写。pdfminer.six还可提取图像、目录和交互式表单，支持多种压缩和加密方式。其模块化设计便于扩展，适用于多种PDF分析场景。该项目是PDFMiner的社区维护分支，提供了全面的PDF文档分析功能。

Picture to Text - 智能OCR技术实现在线图片文字快速提取

多语言支持AI工具文本提取OCR技术图像转文字文档数字化

Picture to Text是一款在线图片文字提取工具,采用OCR技术支持多种图片格式和语言。可快速将图片文字转换为可编辑文本,支持批量处理提高效率。工具操作简单,免费无需注册,适合学生、职场人士和研究人员使用。

Snippai - AI多功能图像识别与处理平台

AI工具图像识别文本提取表格转换问题求解公式转换

Snippai提供多样化的AI图像处理功能。该平台能够识别公式并转换为LaTeX格式，提取文本内容，将表格转换为Markdown格式，分析图像内容，解决图像中的问题，解释代码片段，以及提取主要颜色。这些功能旨在提高用户的图像处理效率，为各类图像识别和转换需求提供全面解决方案。

Commabot - 在线CSV编辑器与AI助手集成的智能数据处理平台

自动化AI助手AI工具暗黑模式文本提取数据编辑

Commabot是一款集成AI助手的在线CSV编辑器和智能数据处理平台。该工具提供清晰的数据视图和熟悉的电子表格界面，方便用户打开、浏览和编辑CSV文件。内置的AI助手能执行自动化批量编辑任务，大幅提高数据处理效率。用户可以通过自然语言与CSV数据对话，实现智能化的数据分析和处理。Commabot还具备从非结构化文本提取有意义信息的功能，并配有护眼深色模式，优化用户体验。这款创新的'chat with csv'和'ai csv'工具，适合需要高效处理CSV数据的专业人士和团队使用。

textract - 多格式文档文本提取工具

Github开源项目文档处理Python库文本提取textract

textract是一个开源文本提取工具，支持从多种格式文档（如PDF、Word、Excel等）中提取文本。该项目最初由Dean Malmgren创建，现由Jazzband社区维护。textract提供简单接口，具备全面的文档支持，旨在简化文本提取流程。它适用于需要从不同类型文档中批量提取文本的场景，为用户提供高效的文本提取解决方案。

ScantextAI - 多语言支持的在线图像文字识别转换平台

多语言支持AI工具文本提取PDF转换OCR技术图像转文字

ScantextAI是一个多语言在线OCR平台，支持从多种图像格式中提取文字并转换为可编辑文档。适用于各行业，提供免费服务，注重文件安全和隐私保护。

Text-Grab - 多功能OCR工具实现屏幕文本快速提取与编辑

Github开源项目OCRWindows应用文本提取文本编辑快速查找

Text Grab是一款Windows平台的OCR工具，可从屏幕、图像和视频中提取文本。它提供全屏抓取、框选抓取、文本编辑和快速查找等功能，支持本地OCR识别，无需后台运行。该工具还具备文本处理、正则提取和批量图像OCR等功能，适用于提高文字工作效率。

TRex - 高效屏幕文本识别与提取工具

Github开源项目OCRmacOS文本提取菜单栏应用TRex

TRex是一款功能强大的OCR工具，可从屏幕上的任何内容中提取文字。支持PDF、截图和视频等多种格式，无需网络连接即可使用。该工具提供菜单栏快捷访问、全局快捷键和自定义词库等功能，并支持自动化操作和URL scheme集成。TRex适用于各种工作和学习场景，能够快速、准确地获取文本信息。

PyMuPDF-Utilities - 全面的PDF和电子文档处理开发工具集

Github开源项目OCR文档处理PDF处理文本提取PyMuPDF

PyMuPDF-Utilities是一个开源项目，提供多种工具和示例，用于PDF、XPS、电子书和纯文本文件处理。项目包含OCR支持、目录处理、字体替换、文本标记和提取等功能。此外，还提供Jupyter笔记本、表格分析工具和布局保留的文本提取脚本。该项目旨在为开发者提供资源，以便于处理各种电子文档格式。

receipt-parser-legacy - Python实现的模糊收据信息提取工具

Github开源项目Python图像处理文本提取receipt parser

receipt-parser-legacy是一个Python编写的模糊收据解析工具，可从扫描收据中提取店铺、日期和总额等关键信息。此项目既可独立运行，也可集成到iOS和Android应用中。支持Docker部署，使用方便。项目源于黑客马拉松，目前已在PyPi上发布，方便开发者使用和扩展。

NuExtract-v1.5 - 基于AI的多语言结构化信息提取工具

Github开源项目多语言支持模型信息抽取Huggingface长文本处理文本提取NuExtract

NuExtract-v1.5是一款基于Phi-3.5-mini-instruct模型优化的结构化信息提取工具。该工具支持处理长文档，兼容英、法、西、德、葡、意等多种语言。在多项基准测试中，NuExtract-v1.5的表现超越了同类13B和34B参数的模型。使用时，只需输入文本和JSON模板即可提取所需信息。此外，NuExtract-v1.5还提供了参数量仅为0.5B的轻量级版本，以满足不同应用场景的需求。

t5-base-finetuned-span-sentiment-extraction - 基于T5的文本情感关键词提取模型

Github开源项目自然语言处理机器学习模型情感分析Huggingface文本提取T5

基于Google T5模型的情感跨度提取(Sentiment Span Extraction)微调项目，通过识别文本中表达情感的关键词或短语，实现社交媒体文本分析。项目使用Tweet Sentiment Extraction数据集训练，支持提取积极、消极或中性情感判断的文本片段，可应用于品牌监测和情感分析场景。

相关文章

Article Cover

MinerU：一站式开源高质量数据提取工具

Article Cover

jusText: 基于启发式算法的网页样板内容删除工具

Article Cover

Text Grab: 一款强大的OCR文字识别工具

Article Cover

textract: 提取任何文档中的文本，简单易用的开源工具

Article Cover

TRex：让文本捕捉变得简单而强大的macOS工具

Article Cover

Receipt Parser Legacy：一个基于Python和Tesseract OCR的开源收据解析工具

Article Cover

PyMuPDF-Utilities: 强大的PDF处理工具箱

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号