Logo

#数据提取

ExtractThinker入门指南 - 基于LLM的灵活文档智能处理库

1 个月前
Cover of ExtractThinker入门指南 - 基于LLM的灵活文档智能处理库

PyMuPDF: 强大的 Python PDF 处理库

2 个月前
Cover of PyMuPDF: 强大的 Python PDF 处理库

Wiktextract:从维基词典中提取结构化数据的强大工具

2 个月前
Cover of Wiktextract:从维基词典中提取结构化数据的强大工具

GenAIScript: 革新性的AI脚本编程环境

2 个月前
Cover of GenAIScript: 革新性的AI脚本编程环境

Sparrow:创新的数据处理解决方案 - 结合机器学习和大语言模型的开源项目

2 个月前
Cover of Sparrow:创新的数据处理解决方案 - 结合机器学习和大语言模型的开源项目

Sparrow学习资料汇总 - 高效数据处理与提取的开源解决方案

1 个月前
Cover of Sparrow学习资料汇总 - 高效数据处理与提取的开源解决方案

AnyParser: 精确、私密且可配置的文档检索大语言模型

2 个月前
Cover of AnyParser: 精确、私密且可配置的文档检索大语言模型

Crawl4AI: 开源、LLM友好的网页爬虫与数据提取工具

2 个月前
Cover of Crawl4AI: 开源、LLM友好的网页爬虫与数据提取工具

ExtractThinker: 革新文档智能处理的开源利器

2 个月前
Cover of ExtractThinker: 革新文档智能处理的开源利器

AutoScraper: 智能、自动、快速的Python网页抓取利器

2 个月前
Cover of AutoScraper: 智能、自动、快速的Python网页抓取利器

相关项目

Project Cover
sparrow
Sparrow是一个开源解决方案,专注于高效从各类文档和图像中提取与处理数据。它通过模块化架构提供独立的服务和优化的流程,支持表格、发票、收据等非结构化数据源。Sparrow的API支持本地语言模型数据提取,可与自定义工作流程集成。
Project Cover
ExtractThinker
ExtractThinker提供智能文件数据提取,支持Tesseract OCR、Azure Form Recognizer和AWS TextExtract等多种文档加载器。适用于异步处理、多种格式和ORM风格操作的模块化架构,并与LangChain生态系统兼容。专注于智能文档处理,大幅提升数据提取准确率,适用于发票、驾照等多场景。
Project Cover
genaiscript
GenAIScript 是一个便捷的脚本环境,支持文件导入、提示词开发和结构化数据提取。通过简单的脚本代码,可以快速定义任务和数据模式,提取文件中的标题并生成符合JSON格式的数据。项目欢迎贡献者,提供了详细的文档和开发者设置指南。请注意,项目可能包含Microsoft及第三方的商标和标志,使用时需遵循相应的品牌指南和政策。
Project Cover
news-please
news-please是一个开源、用户友好的新闻爬虫工具,能够从几乎所有新闻网站提取结构化信息。该工具支持递归跟踪内部链接和读取RSS源来抓取最新及历史文章。提供网站根URL即可实现全面爬取。news-please还支持库模式,便于Python开发者集成使用,并能从commoncrawl.org新闻档案中提取文章。
Project Cover
flyscrape
flyscrape是一款开源的命令行网页数据采集工具,专为非专业程序员设计。它提供jQuery风格的数据提取、JavaScript脚本支持、系统cookie访问和浏览器模式渲染等功能。作为单一可执行文件,flyscrape配置简便,可精准提取网站数据。此外,它还支持多URL采集、分页跟踪和代理设置等高级特性,是一款兼具简易性和功能性的网页数据采集解决方案。
Project Cover
crawl4ai
Crawl4AI是一个开源的网页爬虫框架,为AI应用和大型语言模型优化。该框架支持多URL并行爬取、媒体标签和链接提取、自定义钩子和JavaScript执行,并提供多种数据提取策略。v0.2.77版本改进了Docker支持,升级Selenium,并优化了性能。Crawl4AI简化了网页数据采集过程,为AI开发提供了实用的工具。
Project Cover
wiktextract
Wiktextract是一款开源Python工具,专门从英语Wiktionary数据中提取多语言词典信息。通过展开模板和Lua宏,它能准确提取释义、词形和发音等数据。Wiktextract可提取词条、词性、变形、翻译、发音和用法等多方面信息,支持命令行使用或作为Python库集成。这一工具为自然语言处理、机器翻译等领域提供了丰富的词典资源。
Project Cover
any-parser
AnyParser作为一款专业的API工具,可将PDF、图像和图表等非结构化数据精确转换为结构化格式。该工具支持从PDF提取文本及布局,从图像中提取表格数据,并能将结果转换为Markdown格式。AnyParser具有简便的安装过程和API密钥配置,并提供了详尽的使用示例。这使得AI工程师和金融分析师能够高效处理各种复杂的数据提取任务。
Project Cover
autoscraper
AutoScraper 是一款为简化网页爬取而设计的智能工具,能够自动学习爬取规则,获取网页中的文本、URL及HTML标签值。兼容Python 3,支持从Git、PyPI或源代码安装,允许使用代理和自定义请求参数,并且可以保存和加载模型,满足各种复杂的网页数据抓取需求。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号