drqa - 结合Langchain与大型语言模型实现文档问答

drqa项目介绍

drqa项目旨在构建一个强大的问答系统，通过结合Langchain和大型语言模型（LLMs），例如OpenAI的GPT3模型，来精确回答问题。该系统如何运作？让我们细细道来。

该项目主要分为两个组件：后端和前端。

后端使用Python编写，并采用FastAPI框架实现。主要功能包括：

请求处理：负责处理来自客户端的所有请求。
数据处理管道创建：将PDF文档转换为文本，然后将其拆分为更小的块。通过Langchain提供的数据加载器，支持其他文档类型。
嵌入处理：初始化嵌入模型，使用SentenceTransformers实现，以实现速度快和免费。默认情况下使用Qdrant云（免费层）来托管嵌入和文本文档以进行快速搜索和检索。这个可以替换为其他基于向量的数据库，如Pinecone, Weaviate, Elasticsearch等。

前端使用React和Typescript开发，为用户提供交互界面。

要使用Qdrant云，你需要注册并获取API_KEY和HOST_URL。或者，你也可以本地运行Qdrant。还需要OpenAI的API密钥。

克隆代码库：

git clone https://github.com/mallahyari/drqa.git