Logo

#HTML解析

nlm-ingestor: 一款强大的文档解析工具

2 个月前
Cover of nlm-ingestor: 一款强大的文档解析工具

Lego AI Parser:基于OpenAI的开源HTML文本解析工具

2 个月前
Cover of Lego AI Parser:基于OpenAI的开源HTML文本解析工具

相关项目

Project Cover
lego-ai-parser
Lego AI Parser是一个开源工具,基于FastAPI,利用OpenAI解析HTML元素的文本。支持谷歌、亚马逊、Etsy等预设解析器,并允许用户设计自定义解析器。用户可设置服务器进行API调用,确保安全高效。
Project Cover
nlm-ingestor
nlm-ingestor是一个开源的文档解析工具,专门针对RAG(检索增强生成)进行了优化。它支持PDF、HTML和文本等多种格式,提供章节划分、段落链接和表格识别等精确的内容结构化功能。该项目整合了改进版Apache Tika和OCR技术,能够高效处理大型文档。nlm-ingestor不依赖特殊硬件,为开发者提供了强大的基础设施,有助于提高LLM项目的检索和生成性能。
Project Cover
goquery
goquery是Go语言生态中的一个HTML解析工具,其API设计借鉴了jQuery的语法风格。它构建在Go标准库的net/html包和第三方CSS选择器库cascadia之上,为开发者提供了简洁的链式调用方式和易于理解的方法名。goquery能够进行HTML文档的解析、元素查询、DOM遍历和修改等操作,广泛应用于网页内容抓取和数据分析场景。该库需要Go 1.18或更高版本,并保证与Go语言的最新两个版本保持兼容。
Project Cover
html-query
html-query是一个命令行工具,用于从HTML中提取数据并转换为JSON格式。它采用类似JSON的CSS选择器语法,支持选择文本、属性、父元素和兄弟元素。该工具适用于网页爬虫和数据分析等场景,能够高效地从复杂HTML结构中提取信息,提高数据处理效率。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号