#文本提取

trafilatura - 优化网页内容抓取和提取,简化数据处理流程
Github开源项目Python自然语言处理网页抓取Trafilatura文本提取
Trafilatura是一款先进的Python包及命令行工具,专为简化网页文本收集和处理设计,涵盖网页抓取、下载、解析和关键内容提取等功能。无需数据库支持,该工具支持输出多种格式,如TXT、CSV和JSON,具备并行处理、高效爬行和智能URL管理功能。广泛应用于自然语言处理、计算社会科学及信息安全领域。活跃的开源社区及定期更新使其在文本提取领域表现优异,效率和准确度俱佳。
readability - 用于提取和简化网页内容的JavaScript库
Github开源项目JavaScript库内容阅读文本提取Readability.jsDOM解析
Readability.js是一个源自Firefox阅读器视图的JavaScript库,用于从复杂HTML文档中提取主要内容、标题和元数据。它为开发者提供了创建清晰、易读文章视图的简便方法。该库支持Node.js环境,具有灵活的配置选项,并强调安全性,建议与DOMPurify等安全库结合使用。
MinerU - 开源工具实现PDF到机器可读格式的高效转换
Github开源项目机器学习开源工具PDF处理文本提取MinerU
MinerU是一个开源的PDF转换工具,专注于科研文献处理。它能将PDF转换为markdown和JSON等机器可读格式,同时保留原文档结构和语义连贯性。该工具支持移除页眉页脚,处理多列布局,提取图像和表格,以及将公式转换为LaTeX格式。MinerU兼容多种操作系统和硬件环境,可在CPU或GPU上运行,为大规模语言模型的发展提供数据支持。
jusText - 智能网页正文提取工具 保留核心内容
Github开源项目Python库文本提取jusText网页清理
jusText是一个开源的网页内容提取工具,专注于保留网页中的核心文本信息。该工具可自动移除导航栏、页眉页脚等非核心内容,仅保留完整句子组成的主体文本。jusText广泛应用于语言资源构建和网络语料库创建。它支持Python、C++、Go和Java等多种编程语言,并为用户提供简洁的命令行接口和Python API,便于快速集成到现有项目中。
pdfminer.six - Python开源PDF文本提取与分析库
Github开源项目PDF解析Python库文本提取文档分析pdfminer.six
pdfminer.six是一个开源Python库,用于从PDF文档中提取和分析文本数据。该库能够提取文本内容及其位置、字体和颜色信息,支持PDF-1.7规范、CJK语言和垂直书写。pdfminer.six还可提取图像、目录和交互式表单,支持多种压缩和加密方式。其模块化设计便于扩展,适用于多种PDF分析场景。该项目是PDFMiner的社区维护分支,提供了全面的PDF文档分析功能。
Picture to Text - 智能OCR技术实现在线图片文字快速提取
多语言支持AI工具文本提取OCR技术图像转文字文档数字化
Picture to Text是一款在线图片文字提取工具,采用OCR技术支持多种图片格式和语言。可快速将图片文字转换为可编辑文本,支持批量处理提高效率。工具操作简单,免费无需注册,适合学生、职场人士和研究人员使用。
Snippai - AI多功能图像识别与处理平台
AI工具图像识别文本提取表格转换问题求解公式转换
Snippai提供多样化的AI图像处理功能。该平台能够识别公式并转换为LaTeX格式,提取文本内容,将表格转换为Markdown格式,分析图像内容,解决图像中的问题,解释代码片段,以及提取主要颜色。这些功能旨在提高用户的图像处理效率,为各类图像识别和转换需求提供全面解决方案。
Commabot - 在线CSV编辑器与AI助手集成的智能数据处理平台
自动化AI助手AI工具暗黑模式文本提取数据编辑
Commabot是一款集成AI助手的在线CSV编辑器和智能数据处理平台。该工具提供清晰的数据视图和熟悉的电子表格界面,方便用户打开、浏览和编辑CSV文件。内置的AI助手能执行自动化批量编辑任务,大幅提高数据处理效率。用户可以通过自然语言与CSV数据对话,实现智能化的数据分析和处理。Commabot还具备从非结构化文本提取有意义信息的功能,并配有护眼深色模式,优化用户体验。这款创新的'chat with csv'和'ai csv'工具,适合需要高效处理CSV数据的专业人士和团队使用。
textract - 多格式文档文本提取工具
Github开源项目文档处理Python库文本提取textract
textract是一个开源文本提取工具,支持从多种格式文档(如PDF、Word、Excel等)中提取文本。该项目最初由Dean Malmgren创建,现由Jazzband社区维护。textract提供简单接口,具备全面的文档支持,旨在简化文本提取流程。它适用于需要从不同类型文档中批量提取文本的场景,为用户提供高效的文本提取解决方案。
ScantextAI - 多语言支持的在线图像文字识别转换平台
多语言支持AI工具文本提取PDF转换OCR技术图像转文字
ScantextAI是一个多语言在线OCR平台,支持从多种图像格式中提取文字并转换为可编辑文档。适用于各行业,提供免费服务,注重文件安全和隐私保护。
Text-Grab - 多功能OCR工具实现屏幕文本快速提取与编辑
Github开源项目OCRWindows应用文本提取文本编辑快速查找
Text Grab是一款Windows平台的OCR工具,可从屏幕、图像和视频中提取文本。它提供全屏抓取、框选抓取、文本编辑和快速查找等功能,支持本地OCR识别,无需后台运行。该工具还具备文本处理、正则提取和批量图像OCR等功能,适用于提高文字工作效率。
TRex - 高效屏幕文本识别与提取工具
Github开源项目OCRmacOS文本提取菜单栏应用TRex
TRex是一款功能强大的OCR工具,可从屏幕上的任何内容中提取文字。支持PDF、截图和视频等多种格式,无需网络连接即可使用。该工具提供菜单栏快捷访问、全局快捷键和自定义词库等功能,并支持自动化操作和URL scheme集成。TRex适用于各种工作和学习场景,能够快速、准确地获取文本信息。
PyMuPDF-Utilities - 全面的PDF和电子文档处理开发工具集
Github开源项目OCR文档处理PDF处理文本提取PyMuPDF
PyMuPDF-Utilities是一个开源项目,提供多种工具和示例,用于PDF、XPS、电子书和纯文本文件处理。项目包含OCR支持、目录处理、字体替换、文本标记和提取等功能。此外,还提供Jupyter笔记本、表格分析工具和布局保留的文本提取脚本。该项目旨在为开发者提供资源,以便于处理各种电子文档格式。
receipt-parser-legacy - Python实现的模糊收据信息提取工具
Github开源项目Python图像处理文本提取receipt parser
receipt-parser-legacy是一个Python编写的模糊收据解析工具,可从扫描收据中提取店铺、日期和总额等关键信息。此项目既可独立运行,也可集成到iOS和Android应用中。支持Docker部署,使用方便。项目源于黑客马拉松,目前已在PyPi上发布,方便开发者使用和扩展。
NuExtract-v1.5 - 基于AI的多语言结构化信息提取工具
Github开源项目多语言支持模型信息抽取Huggingface长文本处理文本提取NuExtract
NuExtract-v1.5是一款基于Phi-3.5-mini-instruct模型优化的结构化信息提取工具。该工具支持处理长文档,兼容英、法、西、德、葡、意等多种语言。在多项基准测试中,NuExtract-v1.5的表现超越了同类13B和34B参数的模型。使用时,只需输入文本和JSON模板即可提取所需信息。此外,NuExtract-v1.5还提供了参数量仅为0.5B的轻量级版本,以满足不同应用场景的需求。
t5-base-finetuned-span-sentiment-extraction - 基于T5的文本情感关键词提取模型
Github开源项目自然语言处理机器学习模型情感分析Huggingface文本提取T5
基于Google T5模型的情感跨度提取(Sentiment Span Extraction)微调项目,通过识别文本中表达情感的关键词或短语,实现社交媒体文本分析。项目使用Tweet Sentiment Extraction数据集训练,支持提取积极、消极或中性情感判断的文本片段,可应用于品牌监测和情感分析场景。