#数据提取

ExtractThinker入门指南 - 基于LLM的灵活文档智能处理库

2 个月前

ExtractThinker LLMs 文档处理数据提取智能文档 Github 开源项目

2 个月前

Sparrow学习资料汇总 - 高效数据处理与提取的开源解决方案

2 个月前

Sparrow 数据提取 LLM OCR RAG管道 Github 开源项目

2 个月前

PyMuPDF: 强大的 Python PDF 处理库

3 个月前

PyMuPDF Python库 PDF处理文档分析数据提取 Github 开源项目

3 个月前

AnyParser: 精确、私密且可配置的文档检索大语言模型

3 个月前

AnyParser API 数据提取 PDF处理结构化数据 Github 开源项目

3 个月前

Wiktextract:从维基词典中提取结构化数据的强大工具

3 个月前

Wiktextract Wiktionary 数据提取 Python JSON Github 开源项目

3 个月前

Crawl4AI: 开源、LLM友好的网页爬虫与数据提取工具

3 个月前

Crawl4AI 网络爬虫数据提取人工智能开源软件 Github 开源项目

3 个月前

GenAIScript: 革新性的AI脚本编程环境

3 个月前

GenAIScript 脚本环境文件摄取提示开发数据提取 Github 开源项目

3 个月前

ExtractThinker: 革新文档智能处理的开源利器

3 个月前

ExtractThinker LLMs 文档处理数据提取智能文档 Github 开源项目

3 个月前

Sparrow：创新的数据处理解决方案 - 结合机器学习和大语言模型的开源项目

3 个月前

Sparrow 数据提取 LLM OCR RAG管道 Github 开源项目

3 个月前

AutoScraper: 智能、自动、快速的Python网页抓取利器

3 个月前

AutoScraper 自动网页抓取 Python 数据提取安装教程 Github 开源项目

3 个月前

相关项目

sparrow

Sparrow是一个开源解决方案，专注于高效从各类文档和图像中提取与处理数据。它通过模块化架构提供独立的服务和优化的流程，支持表格、发票、收据等非结构化数据源。Sparrow的API支持本地语言模型数据提取，可与自定义工作流程集成。

ExtractThinker

ExtractThinker提供智能文件数据提取，支持Tesseract OCR、Azure Form Recognizer和AWS TextExtract等多种文档加载器。适用于异步处理、多种格式和ORM风格操作的模块化架构，并与LangChain生态系统兼容。专注于智能文档处理，大幅提升数据提取准确率，适用于发票、驾照等多场景。

genaiscript

GenAIScript 是一个便捷的脚本环境，支持文件导入、提示词开发和结构化数据提取。通过简单的脚本代码，可以快速定义任务和数据模式，提取文件中的标题并生成符合JSON格式的数据。项目欢迎贡献者，提供了详细的文档和开发者设置指南。请注意，项目可能包含Microsoft及第三方的商标和标志，使用时需遵循相应的品牌指南和政策。

news-please

news-please是一个开源、用户友好的新闻爬虫工具，能够从几乎所有新闻网站提取结构化信息。该工具支持递归跟踪内部链接和读取RSS源来抓取最新及历史文章。提供网站根URL即可实现全面爬取。news-please还支持库模式，便于Python开发者集成使用，并能从commoncrawl.org新闻档案中提取文章。

flyscrape

flyscrape是一款开源的命令行网页数据采集工具，专为非专业程序员设计。它提供jQuery风格的数据提取、JavaScript脚本支持、系统cookie访问和浏览器模式渲染等功能。作为单一可执行文件，flyscrape配置简便，可精准提取网站数据。此外，它还支持多URL采集、分页跟踪和代理设置等高级特性，是一款兼具简易性和功能性的网页数据采集解决方案。

crawl4ai

Crawl4AI是一个开源的网页爬虫框架，为AI应用和大型语言模型优化。该框架支持多URL并行爬取、媒体标签和链接提取、自定义钩子和JavaScript执行，并提供多种数据提取策略。v0.2.77版本改进了Docker支持，升级Selenium，并优化了性能。Crawl4AI简化了网页数据采集过程，为AI开发提供了实用的工具。

wiktextract

Wiktextract是一款开源Python工具,专门从英语Wiktionary数据中提取多语言词典信息。通过展开模板和Lua宏,它能准确提取释义、词形和发音等数据。Wiktextract可提取词条、词性、变形、翻译、发音和用法等多方面信息,支持命令行使用或作为Python库集成。这一工具为自然语言处理、机器翻译等领域提供了丰富的词典资源。

any-parser

AnyParser作为一款专业的API工具，可将PDF、图像和图表等非结构化数据精确转换为结构化格式。该工具支持从PDF提取文本及布局，从图像中提取表格数据，并能将结果转换为Markdown格式。AnyParser具有简便的安装过程和API密钥配置，并提供了详尽的使用示例。这使得AI工程师和金融分析师能够高效处理各种复杂的数据提取任务。

autoscraper

AutoScraper 是一款为简化网页爬取而设计的智能工具，能够自动学习爬取规则，获取网页中的文本、URL及HTML标签值。兼容Python 3，支持从Git、PyPI或源代码安装，允许使用代理和自定义请求参数，并且可以保存和加载模型，满足各种复杂的网页数据抓取需求。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com