相关项目
tika-python
tika-python是Apache Tika的Python移植版,通过Tika REST Server提供强大的文档解析、文本翻译和语言检测功能。该库支持通过多个接口调用,支持gzip压缩输入输出流,并提供命令行工具。用户可配置环境变量,在无网络连接环境中使用,优化其行为。
nlm-ingestor
nlm-ingestor是一个开源的文档解析工具,专门针对RAG(检索增强生成)进行了优化。它支持PDF、HTML和文本等多种格式,提供章节划分、段落链接和表格识别等精确的内容结构化功能。该项目整合了改进版Apache Tika和OCR技术,能够高效处理大型文档。nlm-ingestor不依赖特殊硬件,为开发者提供了强大的基础设施,有助于提高LLM项目的检索和生成性能。