Project Icon

GoMate

高度可配置的模块化RAG框架,实现可靠输入与可信输出

GoMate是一个开源的模块化RAG框架,支持多种文件格式解析和灵活的检索功能。其核心设计理念强调可配置性和模块化,使开发者能够根据具体需求定制RAG应用。该框架集成了文档解析、向量检索、重排序和大模型问答等功能,适用于各种检索问答场景。

GoMate

可配置的模块化RAG框架。

Python 工作流状态 codecov pydocstyle PEP8

🔥Gomate 简介

GoMate是一款配置化模块化的检索增强生成(RAG)框架,旨在提供可靠的输入与可信的输出,确保用户在检索问答场景中能够获得高质量且可信赖的结果。

GoMate框架的设计核心在于其高度的可配置性和模块化,使得用户可以根据具体需求灵活调整和优化各个组件,以满足各种应用场景的要求。

🔨Gomate框架

framework.png

✨主要特色

"可靠的输入,可信的输出"

🏗️ 更新记录

  • RAPTOR:递归树检索器实现
  • 支持多种文件解析并且模块化,目前支持解析的文件类型包括:textdocxpptexcelhtmlpdfmd
  • 优化了DenseRetriever,支持索引构建、增量追加以及索引保存,保存内容包括文档、向量以及索引
  • 添加ReRank的BGE排序、Rewriter的HyDE
  • 添加Judge的BgeJudge,判断文章是否有用 20240711

🚀快速上手

安装环境

pip install -r requirements.txt

1 文档解析

目前支持解析的文件类型包括:textdocxpptexcelhtmlpdfmd

from gomate.modules.document.common_parser import CommonParser

parser = CommonParser()
document_path = 'docs/夏至各地习俗.docx'
chunks = parser.parse(document_path)
print(chunks)

2 构建检索器

import pandas as pd
from tqdm import tqdm

from gomate.modules.retrieval.dense_retriever import DenseRetriever, DenseRetrieverConfig

retriever_config = DenseRetrieverConfig(
    model_name_or_path="bge-large-zh-v1.5",
    dim=1024,
    index_dir='dense_cache'
)
config_info = retriever_config.log_config()
print(config_info)

retriever = DenseRetriever(config=retriever_config)

data = pd.read_json('docs/zh_refine.json', lines=True)[:5]
print(data)
print(data.columns)

retriever.build_from_texts(documents)

保存索引

retriever.save_index()

3 检索文档

result = retriever.retrieve("RCEP具体包括哪些国家")
print(result)

4 大模型问答

from gomate.modules.generator.llm import GLMChat
chat = GLMChat(path='THUDM/chatglm3-6b')
print(chat.chat(question, [], content))

5 添加文档

for documents in tqdm(data['positive'], total=len(data)):
    for document in documents:
        retriever.add_text(document)
for documents in tqdm(data['negative'], total=len(data)):
    for document in documents:
        retriever.add_text(document)

🔧定制化RAG

构建自定义的RAG应用

import os

from gomate.modules.document.common_parser import CommonParser
from gomate.modules.generator.llm import GLMChat
from gomate.modules.reranker.bge_reranker import BgeReranker
from gomate.modules.retrieval.dense_retriever import DenseRetriever

class RagApplication():
    def __init__(self, config):
        pass

    def init_vector_store(self):
        pass

    def load_vector_store(self):
        pass

    def add_document(self, file_path):
        pass

    def chat(self, question: str = '', topk: int = 5):
        pass

模块可见rag.py

🌐体验RAG效果

可以配置本地模型路径

# 修改成自己的配置!!!
app_config = ApplicationConfig()
app_config.docs_path = "./docs/"
app_config.llm_model_path = "/data/users/searchgpt/pretrained_models/chatglm3-6b/"

retriever_config = DenseRetrieverConfig(
    model_name_or_path="/data/users/searchgpt/pretrained_models/bge-large-zh-v1.5",
    dim=1024,
    index_dir='/data/users/searchgpt/yq/GoMate/examples/retrievers/dense_cache'
)
rerank_config = BgeRerankerConfig(
    model_name_or_path="/data/users/searchgpt/pretrained_models/bge-reranker-large"
)

app_config.retriever_config = retriever_config
app_config.rerank_config = rerank_config
application = RagApplication(app_config)
application.init_vector_store()
python app.py

浏览器访问:127.0.0.1:7860 demo.png

app后台日志:

app_logging.png

⭐️ Star历史

Star历史图表

研究与开发团队

本项目由网络数据科学与技术重点实验室GoMate团队完成,团队指导老师为郭嘉丰、范意兴研究员。

GoMate技术交流群可添加:1185918903(微信)

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号