turbopilot - 自托管代码补全工具，支持多种最新模型

Turbopilot 项目介绍

概述

Turbopilot 是一个开源的自托管辅助编程工具，是 GitHub Copilot 的一个克隆版本。它使用了 llama.cpp 背后的库，在 4GB RAM 下运行 Salesforce 的 60 亿参数 Codegen 模型。该项目受到 fauxpilot 项目的启发与影响。

截至 2023年9月30日，Turbopilot 项目已停止更新并被存档。目前，还有其他更加成熟的解决方案可以更好地满足社区的需求。

功能特性

接入多种代码模型

StableCode 3B 指令支持：现在支持将 TheBloke's Quantized GGML 模型与 -m stablecode 参数结合使用。
多样化模型支持：为了更易于扩展和新增模型，源码已做简化和重构。
支持高级本地代码补全模型：Turbopilot 已支持最新的本地代码补全模型，包括 Wizardcoder、Starcoder 和 Santacoder，这些模型可以提供更多编程语言支持以及“中间补全”功能。

参与贡献

欢迎为该项目及对应的 GGML 分支提交 PR。可以通过分叉项目、进行更改，然后提交 PR 来贡献代码。

使用指南

最简单的方式是获取预处理模型，然后在 Docker 环境中运行服务器。

获取模型的方式

直接下载：可以从 Huggingface 下载预转换和量化的模型。
- 低内存 (4-8 GiB) 用户推荐使用 StableCode 模型。
- 高性能需求(16 GiB+ RAM, 独立 GPU 或苹果芯片) 用户推荐使用 WizardCoder 模型。
自行转换模型：如果想要自行实验模型量化，可以按照项目中的指导进行操作。

运行服务器

下载最新的二进制文件并解压到项目根目录。若没有提供适用于您的操作系统的二进制文件，您可以按照构建指令自行构建。

示例命令：

./turbopilot -m starcoder -f ./models/santacoder-q4_0.bin

以上命令将在默认端口 18080 启动服务器，您可以使用 -p 参数更改端口。

使用 Docker 运行

您可以利用预构建的 Docker 镜像来运行 Turbopilot。首先需要单独下载模型，然后执行以下命令：

docker run --rm -it \
  -v ./models:/models \
  -e THREADS=6 \
  -e MODEL_TYPE=starcoder \
  -e MODEL="/models/santacoder-q4_0.bin" \
  -p 18080:18080 \
  ghcr.io/ravenscroftj/turbopilot:latest

Docker 和 CUDA

从 v0.0.5 版本开始，turbo 代码支持 CUDA 推理。请使用 CUDA 标记版本，并通过 --gpus=all 选项授予 GPU 访问权限。

API 使用

支持在官方 VS Code Copilot 插件中调用 API。还可以通过 FauxPilot 插件使用 API。

直接调用 API

可以通过以下命令直接请求 API：

curl --request POST \
  --url http://localhost:18080/v1/engines/codegen/completions \
  --header 'Content-Type: application/json' \
  --data '{
 "model": "codegen",
 "prompt": "def main():",
 "max_tokens": 100
}'

已知限制

目前 Turbopilot 仅支持单个 GPU 设备，不支持多设备使用。

致谢

该项目得以实现需要感谢众多的贡献者和开源项目，包括 GGML、fauxpilot、vscode-fauxpilot 插件、Salesforce Codegen 模型等。特别感谢 Moyix 和 CrowCPP 为项目提供的支持。