#LLM接口
uniflow-llm-based-pdf-extraction-text-cleaning-data-clustering - 多源文档提取与转换的统一LLM框架
uniflowLLM接口文档提取数据转换模型微调Github开源项目
uniflow是一个开源项目,为多种文档类型提供统一的LLM接口,实现数据提取和转换。支持PDF、HTML和TXT等格式,兼容OpenAI、Google Gemini和AWS BedRock等主流LLM模型。该项目致力于解决遗留文档处理和数据准备的难题,为数据科学家提供生成隐私保护训练数据集的工具,简化LLM微调流程。uniflow还包含多个实用案例,如财务报告分析和教育资料问答生成等。
thepipe - 全能多模态数据提取API 为LLM开发赋能
thepi.pe多模态数据提取LLM接口API文档处理Github开源项目
thepipe是一款多功能API,支持从PDF、网页、视频等多种来源提取markdown、表格和图像数据。该工具与GPT-4等视觉语言模型兼容,可轻松集成各类LLM和向量数据库。thepipe具备AI驱动的文件类型识别、版面分析和结构化数据提取能力,为多模态LLM开发提供综合支持。开发者可选择云端服务或本地部署方式使用。