Turbopilot 项目介绍
概述
Turbopilot 是一个开源的自托管辅助编程工具,是 GitHub Copilot 的一个克隆版本。它使用了 llama.cpp 背后的库,在 4GB RAM 下运行 Salesforce 的 60 亿参数 Codegen 模型。该项目受到 fauxpilot 项目的启发与影响。
截至 2023年9月30日,Turbopilot 项目已停止更新并被存档。目前,还有其他更加成熟的解决方案可以更好地满足社区的需求。
功能特性
接入多种代码模型
- StableCode 3B 指令支持:现在支持将 TheBloke's Quantized GGML 模型与
-m stablecode
参数结合使用。 - 多样化模型支持:为了更易于扩展和新增模型,源码已做简化和重构。
- 支持高级本地代码补全模型:Turbopilot 已支持最新的本地代码补全模型,包括 Wizardcoder、Starcoder 和 Santacoder,这些模型可以提供更多编程语言支持以及“中间补全”功能。
参与贡献
欢迎为该项目及对应的 GGML 分支提交 PR。可以通过分叉项目、进行更改,然后提交 PR 来贡献代码。
使用指南
最简单的方式是获取预处理模型,然后在 Docker 环境中运行服务器。
获取模型的方式
-
直接下载:可以从 Huggingface 下载预转换和量化的模型。
- 低内存 (4-8 GiB) 用户推荐使用 StableCode 模型。
- 高性能需求(16 GiB+ RAM, 独立 GPU 或苹果芯片) 用户推荐使用 WizardCoder 模型。
-
自行转换模型:如果想要自行实验模型量化,可以按照项目中的指导进行操作。
运行服务器
下载最新的二进制文件并解压到项目根目录。若没有提供适用于您的操作系统的二进制文件,您可以按照构建指令自行构建。
示例命令:
./turbopilot -m starcoder -f ./models/santacoder-q4_0.bin
以上命令将在默认端口 18080 启动服务器,您可以使用 -p
参数更改端口。
使用 Docker 运行
您可以利用预构建的 Docker 镜像来运行 Turbopilot。首先需要单独下载模型,然后执行以下命令:
docker run --rm -it \
-v ./models:/models \
-e THREADS=6 \
-e MODEL_TYPE=starcoder \
-e MODEL="/models/santacoder-q4_0.bin" \
-p 18080:18080 \
ghcr.io/ravenscroftj/turbopilot:latest
Docker 和 CUDA
从 v0.0.5 版本开始,turbo 代码支持 CUDA 推理。请使用 CUDA 标记版本,并通过 --gpus=all
选项授予 GPU 访问权限。
API 使用
支持在官方 VS Code Copilot 插件中调用 API。还可以通过 FauxPilot 插件使用 API。
直接调用 API
可以通过以下命令直接请求 API:
curl --request POST \
--url http://localhost:18080/v1/engines/codegen/completions \
--header 'Content-Type: application/json' \
--data '{
"model": "codegen",
"prompt": "def main():",
"max_tokens": 100
}'
已知限制
目前 Turbopilot 仅支持单个 GPU 设备,不支持多设备使用。
致谢
该项目得以实现需要感谢众多的贡献者和开源项目,包括 GGML、fauxpilot、vscode-fauxpilot 插件、Salesforce Codegen 模型等。特别感谢 Moyix 和 CrowCPP 为项目提供的支持。