#HTML解析

nlm-ingestor: 一款强大的文档解析工具

2 个月前
Cover of nlm-ingestor: 一款强大的文档解析工具

Lego AI Parser:基于OpenAI的开源HTML文本解析工具

3 个月前
Cover of Lego AI Parser:基于OpenAI的开源HTML文本解析工具
相关项目
Project Cover

lego-ai-parser

Lego AI Parser是一个开源工具,基于FastAPI,利用OpenAI解析HTML元素的文本。支持谷歌、亚马逊、Etsy等预设解析器,并允许用户设计自定义解析器。用户可设置服务器进行API调用,确保安全高效。

Project Cover

nlm-ingestor

nlm-ingestor是一个开源的文档解析工具,专门针对RAG(检索增强生成)进行了优化。它支持PDF、HTML和文本等多种格式,提供章节划分、段落链接和表格识别等精确的内容结构化功能。该项目整合了改进版Apache Tika和OCR技术,能够高效处理大型文档。nlm-ingestor不依赖特殊硬件,为开发者提供了强大的基础设施,有助于提高LLM项目的检索和生成性能。

Project Cover

goquery

goquery是Go语言生态中的一个HTML解析工具,其API设计借鉴了jQuery的语法风格。它构建在Go标准库的net/html包和第三方CSS选择器库cascadia之上,为开发者提供了简洁的链式调用方式和易于理解的方法名。goquery能够进行HTML文档的解析、元素查询、DOM遍历和修改等操作,广泛应用于网页内容抓取和数据分析场景。该库需要Go 1.18或更高版本,并保证与Go语言的最新两个版本保持兼容。

Project Cover

html-query

html-query是一个命令行工具,用于从HTML中提取数据并转换为JSON格式。它采用类似JSON的CSS选择器语法,支持选择文本、属性、父元素和兄弟元素。该工具适用于网页爬虫和数据分析等场景,能够高效地从复杂HTML结构中提取信息,提高数据处理效率。

Project Cover

cheerio

Cheerio是一款高效灵活的HTML和XML解析操作工具。它实现了jQuery核心功能的子集,提供简洁一致的DOM模型,大大提高了文档解析、操作和渲染的效率。Cheerio能够解析几乎所有HTML或XML文档,同时适用于浏览器和服务器环境。该工具支持jQuery风格的选择器,便于开发者查找、修改和渲染文档元素。作为一个广受欢迎的开源项目,Cheerio在实际生产环境中得到了广泛应用。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号