Hugging Face Llama 配方
🤗🦙欢迎!本仓库包含快速入门 Llama 3.1 的简单配方。
- 要了解 Llama 3.1 的概况,请访问 Hugging Face 公告博客文章。
- 对于更高级的开放机器学习端到端用例,请访问 开源 AI 手册。
本仓库正在进行中,因此您可能会在接下来的几天里看到显著的变化。
注意:要使用 Llama 3.1,您需要接受许可并请求访问模型的权限。请访问 任何 Hugging Face 仓库 并提交您的请求。您只需要做一次,如果您的请求被批准,您将获得所有仓库的访问权限。
本地推理
您想在本地运行 Llama 3.1 模型的推理吗?我们也想!内存需求取决于模型大小和权重精度。以下是不同配置所需的大致内存表格:
模型大小 | FP16 | FP8 | INT4 (AWQ/GPTQ/bnb) |
8B | 16 GB | 8 GB | 4 GB |
70B | 140 GB | 70 GB | 35 GB |
405B | 810 GB | 405 GB | 203 GB |
注意:这些是估计值,可能会根据具体实现细节和优化而有所不同。
以下是一些帮助您入门的笔记本:
- 在免费的 Google Colab 中以半精度运行 Llama 8B
- 使用 bitsandbytes 以 8 位运行 Llama 8B
- 使用 bitsandbytes 以 4 位运行 Llama 8B
- 使用 AWQ 和融合操作运行 Llama 8B
- 运行 Llama 3.1 405B FP8
- 运行使用 AWQ 量化为 INT4 的 Llama 3.1 405B
- 运行使用 GPTQ 量化为 INT4 的 Llama 3.1 405B
- 使用 Llama 405B 和 Llama 8B 进行辅助解码
- 使用 torch.compile 加速推理
- 执行一些 Llama 生成的 Python 代码
- 使用工具和 Llama!
API 推理
这些模型对您来说太大,无法在家里运行吗?想要尝试 Llama 405B 吗?试试以下示例!
- 为 PRO 用户使用推理 API
- 使用专用推理端点
Llama Guard 和 Prompt Guard
除了生成模型外,Meta 还发布了两个新模型:Llama Guard 3 和 Prompt Guard。Prompt Guard 是一个小型分类器,用于检测越狱和提示注入。Llama Guard 3 是一个安全防护模型,可以对 LLM 输入和生成进行分类。学习如何使用它们,如下面的笔记本所示:
- 使用 Prompt Guard 检测越狱和提示注入
- 使用 Llama Guard 进行防护
高级用例
- 如何使用 PEFT 和 QLoRA 以及 bitsandbytes 在消费级 GPU 上微调 Llama 3.1 8B
- 使用
distilabel
生成合成数据 - 使用大模型和小模型进行辅助解码
- 使用 Gradio 构建 ML 演示