项目介绍:LLM Engine
项目概述
LLM Engine 是一个用于微调和服务大型语言模型的开源引擎,通过它可以极大简化用户自定义和服务大型语言模型的过程。用户可以使用 Scale 提供的托管版本访问模型,也可以通过 Helm charts 在自己的基础设施中运行模型推理和微调。
快速安装
只需运行以下命令即可安装 LLM Engine:
pip install scale-llm-engine
项目背景
基础模型正成为人工智能发展的基石。然而,将这些模型部署到云端并进行微调需要大量的基础设施和机器学习专业知识,这是一项昂贵且复杂的工作。同时,随着新模型的推出和推理、微调新技术的出现,维护这些模型也变得困难。
LLM Engine 提供了一整套工具,包括 Python 库、CLI 和 Helm chart,帮助用户无论是在 Scale 托管的基础设施,还是在用户自己的 Kubernetes 云基础设施上,进行基础模型的服务和微调。
主要功能
-
现成的 API:用户可以轻松部署和服务开源基础模型,例如 LLaMA、MPT 和 Falcon。可以选择使用 Scale 的托管模型或在自己的基础设施中部署。
-
微调基础模型:允许用户在自己的数据上微调开源基础模型,以获得更优的性能。
-
优化推理:提供推理 API,可实现流式响应和动态批处理输入,以提高吞吐量和降低延迟。
-
开源集成:可以通过一条命令部署任何 Hugging Face 模型。
即将推出的功能
-
K8s 安装文档:正在努力完善关于在用户基础设施中安装和维护推理及微调功能的文档,目前已有关于访问 Scale 托管基础设施的客户端库使用文档。
-
快速冷启动时间:为防止 GPU 闲置,当模型未使用时,LLM Engine 可以自动缩减模型至零,且即使是大型基础模型也能在几秒内快速扩容。
-
成本优化:提供比商用模型更低廉的 AI 模型部署,包括冷启动和温出现象的优化时间。
快速开始使用
用户可访问 Scale Spellbook 注册账号,并在 Settings 页面获取 API key。将该 key 设置为 SCALE_API_KEY
环境变量:
export SCALE_API_KEY="[Your API key]"
设置 API key 后,用户即可通过 Python 客户端发送 LLM Engine 请求。以下是一个示例代码:
from llmengine import Completion
response = Completion.create(
model="falcon-7b-instruct",
prompt="I'm opening a pancake restaurant that specializes in unique pancake shapes, colors, and flavors. List 3 quirky names I could name my restaurant.",
max_new_tokens=100,
temperature=0.2,
)
print(response.output.text)
用户将看到根据输入提示成功生成的结果。
如需进一步学习,可访问 LLM Engine 文档页,详解 Completion
和 FineTune
API 及其使用方法。此外,还可以阅读这篇 博客文章 查看完整示例。