DB-GPT:利用私人LLM技术革新数据库交互
什么是DB-GPT?
🤖 DB-GPT是一个开源的AI原生数据应用开发框架,具备AWEL(Agentic Workflow Expression Language)和代理功能。
其目的是通过开发多种技术能力,如多模型管理(SMMF)、Text2SQL效果优化、RAG框架及优化、多代理框架协作、AWEL(代理工作流编排)等,在大模型领域构建基础设施。这使得大模型应用与数据结合变得更简单和方便。
🚀 在数据3.0时代,基于模型和数据库,企业和开发者可以用更少的代码构建自己的定制应用。
AI原生数据应用
目录
介绍
DB-GPT架构如下图所示:
核心能力包括以下几个部分:
-
RAG(检索增强生成):RAG是目前最具实用性和迫切需求的领域。DB-GPT已经实现了基于RAG的框架,使用户能够使用DB-GPT的RAG能力构建基于知识的应用。
-
GBI(生成性商业智能):生成性BI是DB-GPT项目的核心能力之一,为构建企业报告分析和商业洞察提供了基础的数据智能技术。
-
微调框架:模型微调是企业在垂直和细分领域实施应用时不可或缺的能力。DB-GPT提供了一个完整的微调框架,可以与DB-GPT项目无缝集成。在最近的微调工作中,基于Spider数据集的准确率达到了82.5%。
-
数据驱动的多代理框架:DB-GPT提供了一个数据驱动的自演进多代理框架,旨在基于数据持续进行决策和执行。
-
数据工厂:数据工厂主要负责在大模型时代清理和处理可信的知识和数据。
-
数据源:集成各种数据源,无缝连接生产业务数据与DB-GPT的核心能力。
子模块
-
DB-GPT-Hub 通过对大型语言模型(LLMs)应用监督微调(SFT)进行高性能的文本到SQL工作流。
-
dbgpts dbgpts是官方仓库,包含一些数据应用、AWEL操作符、AWEL工作流模板和基于DB-GPT构建的代理。
Text2SQL微调
-
支持的语言模型
- LLaMA
- LLaMA-2
- BLOOM
- BLOOMZ
- Falcon
- 百川(Baichuan)
- 百川2(Baichuan2)
- InternLM
- Qwen
- XVERSE
- ChatGLM2
-
微调准确性 截至2023年10月10日,通过该项目对一个拥有130亿参数的开源模型进行微调,我们在Spider数据集上的执行准确性甚至超过了GPT-4!
- DB-GPT-Plugins 可以直接运行Auto-GPT插件的DB-GPT插件
- GPT-Vis 可视化协议
安装
功能
目前,我们已经引入了几个关键功能来展示我们的现有能力:
-
私有领域问答与数据处理
DB-GPT项目提供了旨在改进知识库构建的一系列功能,包括支持上传多种文件格式的内置功能、集成功能定制的数据提取插件,以及统一的向量存储和检索功能,用于高效管理海量信息。
-
多数据源与生成性商业智能(GBI)
DB-GPT项目促进了与多种数据源(如Excel、数据库和数据仓库)的无缝自然语言交互。它简化了这些源的查询和信息检索过程,使用户能够进行直观的对话并获取见解。此外,DB-GPT支持生成分析报告,为用户提供有价值的数据总结和解释。
-
多代理与插件
它支持定制插件执行各种任务,并原生集成了Auto-GPT插件模型。代理协议遵循代理协议标准。
-
自动化Text2SQL微调
我们还开发了一种围绕大型语言模型(LLMs)、Text2SQL数据集、LoRA/QLoRA/Pturning以及其他微调方法的自动化轻量级微调框架。该框架简化了Text-to-SQL的微调过程,使其如同流水线一样简单。DB-GPT-Hub
-
SMMF(服务导向多模型管理框架)
我们提供了广泛的模型支持,包括来自开源和API代理的大量大型语言模型(LLMs),如LLaMA/LLaMA2、百川、ChatGLM、文心一言、同义词、智谱等。
-
新闻
- 🔥🔥🔥 Meta-Llama-3.1-405B-Instruct
- 🔥🔥🔥 Meta-Llama-3.1-70B-Instruct
- 🔥🔥🔥 Meta-Llama-3.1-8B-Instruct
- 🔥🔥🔥 gemma-2-27b-it
- 🔥🔥🔥 gemma-2-9b-it
- 🔥🔥🔥 DeepSeek-Coder-V2-Instruct
- 🔥🔥🔥 DeepSeek-Coder-V2-Lite-Instruct
- 🔥🔥🔥 Qwen2-57B-A14B-Instruct
- 🔥🔥🔥 Qwen2-72B-Instruct
- 🔥🔥🔥 Qwen2-7B-Instruct
- 🔥🔥🔥 Qwen2-1.5B-Instruct
- 🔥🔥🔥 Qwen2-0.5B-Instruct
- 🔥🔥🔥 glm-4-9b-chat
- 🔥🔥🔥 Phi-3
- 🔥🔥🔥 Yi-1.5-34B-Chat
- 🔥🔥🔥 Yi-1.5-9B-Chat
- 🔥🔥🔥 Yi-1.5-6B-Chat
- 🔥🔥🔥 Qwen1.5-110B-Chat
- 🔥🔥🔥 Qwen1.5-MoE-A2.7B-Chat
- 🔥🔥🔥 Meta-Llama-3-70B-Instruct
- 🔥🔥🔥 Meta-Llama-3-8B-Instruct
- 🔥🔥🔥 CodeQwen1.5-7B-Chat
- 🔥🔥🔥 Qwen1.5-32B-Chat
- 🔥🔥🔥 Starling-LM-7B-beta
- 🔥🔥🔥 gemma-7b-it
- 🔥🔥🔥 gemma-2b-it
- 🔥🔥🔥 SOLAR-10.7B
- 🔥🔥🔥 Mixtral-8x7B
- 🔥🔥🔥 Qwen-72B-Chat
- 🔥🔥🔥 Yi-34B-Chat
- 更多支持的LLM
-
隐私与安全
我们通过实施各种技术来确保数据的隐私和安全,包括私有的大模型和代理脱敏。
-
支持的数据源
图像
语言切换
在.env配置文件中,修改LANGUAGE参数以切换到不同的语言。默认是英语(中文: zh, 英语: en,其他语言将陆续添加)。
贡献
- 要查看新贡献的详细指南,请参考如何贡献
贡献者墙
许可证
MIT许可证 (MIT)
引用
如果你发现DB-GPT
对你的研究或开发有帮助,请引用以下论文:
@article{xue2023dbgpt,
title={DB-GPT: Empowering Database Interactions with Private Large Language Models},
author={Siqiao Xue and Caigao Jiang and Wenhui Shi and Fangyin Cheng and Keting Chen and Hongjun Yang and Zhiping Zhang and Jianshan He and Hongyang Zhang and Ganglin Wei and Wang Zhao and Fan Zhou and Danrui Qi and Hong Yi and Shaodong Liu and Faqiang Chen},
year={2023},
journal={arXiv preprint arXiv:2312.17449},
url={https://arxiv.org/abs/2312.17449}
}