llm-engine简介
llm-engine是Scale AI开发的开源大语言模型微调和服务引擎,旨在简化LLM的定制化和部署过程。它提供了Python客户端库、CLI工具和Helm chart,可以在Scale的托管基础设施或自己的Kubernetes集群上运行模型推理和微调。
快速入门
- 安装llm-engine:
pip install scale-llm-engine
- 获取API密钥:
访问Scale Spellbook创建账号并获取API密钥。
- 设置环境变量:
export SCALE_API_KEY="[Your API key]"
- 使用Python客户端发送请求:
from llmengine import Completion
response = Completion.create(
model="llama-2-7b",
prompt="给我一个独特的煎饼店名字",
max_new_tokens=100,
temperature=0.2,
)
print(response.output.text)
核心功能
- 开箱即用的API:支持部署和服务包括LLaMA、MPT、Falcon等在内的开源基础模型
- 模型微调:可以使用自己的数据微调开源基础模型
- 优化推理:提供用于流式响应和动态批处理的推理API
- 开源集成:一键部署任何Hugging Face模型
学习资源
社区资源
- GitHub Issues:问题讨论和功能请求
- GitHub Discussions:社区交流
- Blog文章:微调LLaMA 2的端到端示例
llm-engine为开发者提供了强大而灵活的LLM定制化和部署工具,欢迎探索使用并为项目做出贡献!