CASALIOY 项目介绍
项目概述
CASALIOY 是一个快速的工具包,旨在通过结合多种技术,为不连接互联网的本地大语言模型(LLMs)提供支持。这个项目利用了 LangChain、LlamaCpp 和 Qdrant 等先进工具,使用户能够在本地环境中高效地进行语言模型的运行和管理。其设计目标是提供一个安全可靠的本地化解决方案,无需数据上传至云端,确保数据隐私。
核心功能
-
支持多种文件格式的数据摄取
CASALIOY 能够自动摄取多种文件格式的数据,如.txt
、.pdf
、.csv
、.epub
、.html
、.docx
、.pptx
、.eml
、.msg
等。用户可以通过运行脚本,将这些文档的数据摄取到本地的嵌入数据库。 -
本地化问答功能
用户可以通过运行脚本,输入问题,并从本地存储的文档中获取答案。程序会在20至30秒内处理输入并返回结果,且不会将任何数据传出本地环境。 -
图形用户界面支持
用户可以通过运行 Streamlit 应用,使用图形用户界面进行互动,这为用户提供了更加友好的界面体验。
使用指南
Docker 环境搭建
项目可以通过 Docker 进行安装,在 Ubuntu LTS 上已通过测试。用户可以通过拉取并运行 Docker 镜像来快速启动应用。
docker pull su77ungr/casalioy:stable
docker run -it -p 8501:8501 --shm-size=16gb su77ungr/casalioy:stable /bin/bash
源码安装
用户也可以从源码构建项目。在此过程中需要安装相关依赖,并配置环境变量。详细步骤包括安装 Python 包、激活虚拟环境,并根据需要配置 .env
文件中的参数。
技术特点
- 支持的语言模型:项目支持多种开源大语言模型(LLMs),如 GPT4All-J 系列,并提供模型转换工具以支持更多的模型版本。
- 数据存储与检索:结合 LangChain 和 Qdrant 技术,本地化处理嵌入生成并存储于向量数据库中,利用相似度搜索实现上下文查找。
- 可扩展性:通过自定义配置与存储结构,用户可以随时更新模型或替换数据集,满足不同场景需求。
注意事项
CASALIOY 提供的内容不附带任何明示或暗示的保证,用户在使用时需要自担风险。用户需要理解并同意免责声明的内容,若不接受任何部分,请勿使用该项目。
通过本地化部署的方式,CASALIOY 为用户提供了一种高效、安全的语言模型使用方式,实现了数据隐私与处理速度的平衡。希望该工具能够为需要本地化大语言模型的用户提供有力支持。