#HTML解析

lego-ai-parser - 使用OpenAI解析HTML的开源工具
Github开源项目OpenAIFastAPI开源应用Lego AI ParserHTML解析
Lego AI Parser是一个开源工具,基于FastAPI,利用OpenAI解析HTML元素的文本。支持谷歌、亚马逊、Etsy等预设解析器,并允许用户设计自定义解析器。用户可设置服务器进行API调用,确保安全高效。
nlm-ingestor - 多格式文档解析器助力RAG优化
Github开源项目PDF解析RAGHTML解析Apache Tikanlm-ingestor
nlm-ingestor是一个开源的文档解析工具,专门针对RAG(检索增强生成)进行了优化。它支持PDF、HTML和文本等多种格式,提供章节划分、段落链接和表格识别等精确的内容结构化功能。该项目整合了改进版Apache Tika和OCR技术,能够高效处理大型文档。nlm-ingestor不依赖特殊硬件,为开发者提供了强大的基础设施,有助于提高LLM项目的检索和生成性能。
goquery - Go语言实现的jQuery风格HTML解析工具
Github开源项目Go语言HTML解析goqueryCSS选择器jQuery
goquery是Go语言生态中的一个HTML解析工具,其API设计借鉴了jQuery的语法风格。它构建在Go标准库的net/html包和第三方CSS选择器库cascadia之上,为开发者提供了简洁的链式调用方式和易于理解的方法名。goquery能够进行HTML文档的解析、元素查询、DOM遍历和修改等操作,广泛应用于网页内容抓取和数据分析场景。该库需要Go 1.18或更高版本,并保证与Go语言的最新两个版本保持兼容。
html-query - 将HTML内容快速转换为JSON的命令行工具
Github开源项目命令行工具数据提取HTML解析CSS选择器JSON转换
html-query是一个命令行工具,用于从HTML中提取数据并转换为JSON格式。它采用类似JSON的CSS选择器语法,支持选择文本、属性、父元素和兄弟元素。该工具适用于网页爬虫和数据分析等场景,能够高效地从复杂HTML结构中提取信息,提高数据处理效率。
cheerio - 高效灵活的HTML和XML解析与操作工具
Github开源项目HTML解析jQueryDOM操作CheerioXML操作
Cheerio是一款高效灵活的HTML和XML解析操作工具。它实现了jQuery核心功能的子集,提供简洁一致的DOM模型,大大提高了文档解析、操作和渲染的效率。Cheerio能够解析几乎所有HTML或XML文档,同时适用于浏览器和服务器环境。该工具支持jQuery风格的选择器,便于开发者查找、修改和渲染文档元素。作为一个广受欢迎的开源项目,Cheerio在实际生产环境中得到了广泛应用。