[!重要]
bigdl-llm
现在已更名为ipex-llm
(迁移指南请参见此处);您可以在此处找到原始的BigDL
项目。
💫 适用于 PyTorch 的 Intel® LLM 库
IPEX-LLM
是一个用于在 Intel CPU 和 GPU(如带 iGPU 的本地 PC、独立 GPU 如 Arc、Flex 和 Max 等)上运行 LLM 的 PyTorch 库,具有非常低的延迟1。
[!注意]
- 它基于
llama.cpp
、transformers
、bitsandbytes
、vLLM
、qlora
、AutoGPTQ
、AutoAWQ
等优秀的工作之上构建。- 它与 llama.cpp、Ollama、Text-Generation-WebUI、HuggingFace transformers、LangChain、LlamaIndex、DeepSpeed-AutoTP、vLLM、FastChat、Axolotl、HuggingFace PEFT、HuggingFace TRL、AutoGen、ModeScope 等提供无缝集成。
- 50+ 个模型 已在
ipex-llm
上进行了优化/验证(包括 LLaMA2、Mistral、Mixtral、Gemma、LLaVA、Whisper、ChatGLM、Baichuan、Qwen、RWKV 等);完整列表请参见此处。
最新更新 🔥
- [2024/07] 我们添加了在 Intel GPU 上使用本地 LLM 运行微软 GraphRAG 的支持;快速入门指南请参见此处。
- [2024/07] 我们为大型多模态模型提供了广泛支持,包括 StableDiffusion、Phi-3-Vision、Qwen-VL 和 更多。
- [2024/07] 我们在 Intel GPU 上添加了 FP6 支持。
- [2024/06] 我们为 Intel Core Ultra 处理器添加了实验性的 NPU 支持;示例请参见此处。
- [2024/06] 我们为 流水线并行推理添加了广泛支持,使得使用 2 个或更多 Intel GPU(如 Arc)运行大尺寸 LLM 变得更加容易。
- [2024/06] 我们在 Intel GPU 上添加了使用
ipex-llm
运行 RAGFlow 的支持。 - [2024/05]
ipex-llm
现在支持在 Intel GPU 上进行 Axolotl 的 LLM 微调;快速入门指南请参见此处。
更多更新
- [2024/05] 现在您可以使用 Docker 镜像轻松进行
ipex-llm
推理、服务和微调。 - [2024/05] 现在您可以仅通过“一条命令”在 Windows 上安装
ipex-llm
。 - [2024/04] 现在您可以在 Intel GPU 上使用
ipex-llm
运行 Open WebUI;快速入门指南请参见此处。 - [2024/04] 现在您可以使用
llama.cpp
和ollama
配合ipex-llm
在 Intel GPU 上运行 Llama 3;快速入门指南请参见此处。 - [2024/04]
ipex-llm
现在支持在 Intel GPU 和 CPU 上运行 Llama 3。 - [2024/04]
ipex-llm
现在提供 C++ 接口,可作为加速后台用于在 Intel GPU 上运行 llama.cpp 和 ollama。 - [2024/03]
bigdl-llm
现已更名为ipex-llm
(迁移指南请参见此处);您可以在此处找到原始的BigDL
项目。 - [2024/02]
ipex-llm
现在支持直接从 ModelScope(魔搭)加载模型。 - [2024/02]
ipex-llm
添加了初步的 INT2 支持(基于 llama.cpp IQ2 机制),使得在 16GB VRAM 的 Intel GPU 上运行大尺寸 LLM(如 Mixtral-8x7B)成为可能。 - [2024/02] 用户现在可以通过 Text-Generation-WebUI GUI 使用
ipex-llm
。 - [2024/02]
ipex-llm
现在支持 自我推测解码,在实际操作中,FP16 和 BF16 推理延迟分别在 Intel GPU 和 CPU 上实现了 ~30% 的加速。 - [2024/02]
ipex-llm
现在支持在 Intel GPU 上进行全面的 LLM 微调(包括 LoRA、QLoRA、DPO、QA-LoRA 和 ReLoRA)。 - [2024/01] 使用
ipex-llm
QLoRA,我们成功在 8 个 Intel Max 1550 GPU 上 **21
ipex-llm
性能
请参见下方 Intel Core Ultra 和 Intel Arc GPU 的 Token 生成速度1(更多详细信息请参考[2][3][4])。
你可以按照 基准测试指南 亲自运行 ipex-llm
性能基准测试。
ipex-llm
演示
请参见下方使用 ipex-llm
在 Intel Iris iGPU、Intel Core Ultra iGPU、单卡 Arc GPU 或多卡 Arc GPU 上运行本地 LLMs 的演示。
Intel Iris iGPU | Intel Core Ultra iGPU | Intel Arc dGPU | 2-卡 Intel Arc dGPUs |
llama.cpp (Phi-3-mini Q4_0) | Ollama (Mistral-7B Q4_K) | TextGeneration-WebUI (Llama3-8B FP8) | FastChat (QWen1.5-32B FP6) |
Intel Core Ultra 笔记本电脑 | Intel Arc GPU | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
模型 | CPU 示例 | GPU 示例 |
---|---|---|
LLaMA (如 Vicuna、Guanaco、Koala、Baize、WizardLM 等) | link1, link2 | link |
LLaMA 2 | link1, link2 | link |
LLaMA 3 | link | link |
LLaMA 3.1 | link | link |
ChatGLM | link | |
ChatGLM2 | link | link |
ChatGLM3 | link | link |
GLM-4 | link | link |
GLM-4V | link | link |
Mistral | link | link |
Mixtral | link | link |
Falcon | link | link |
MPT | link | link |
Dolly-v1 | link | link |
Dolly-v2 | link | link |
Replit Code | link | link |
RedPajama | link1, link2 | |
Phoenix | link1, link2 | |
StarCoder | link1, link2 | link |
百川 | link | link |
百川2 | link | link |
InternLM | link | link |
Qwen | link | link |
Qwen1.5 | link | link |
Qwen2 | link | link |
Qwen-VL | link | link |
Aquila | link | link |
Aquila2 | link | link |
MOSS | link | |
Whisper | link | link |
Phi-1_5 | link | link |
Flan-t5 | link | link |
LLaVA | link | link |
CodeLlama | link | link |
Skywork | [link](python/llm/example/CPU/HF-Transformers-AutoModels/Model | |
Ziya-Coding-34B-v1.0 | 链接 | |
Phi-2 | 链接 | 链接 |
Phi-3 | 链接 | 链接 |
Phi-3-vision | 链接 | 链接 |
Yuan2 | 链接 | 链接 |
Gemma | 链接 | 链接 |
Gemma2 | 链接 | |
DeciLM-7B | 链接 | 链接 |
Deepseek | 链接 | 链接 |
StableLM | 链接 | 链接 |
CodeGemma | 链接 | 链接 |
Command-R/cohere | 链接 | 链接 |
CodeGeeX2 | 链接 | 链接 |
MiniCPM | 链接 | 链接 |
MiniCPM-V | 链接 | |
MiniCPM-V-2 | 链接 | |
MiniCPM-Llama3-V-2_5 | 链接 | |
获取支持 |
- 请通过在 Github 问题 页面提交问题报告或功能请求。
- 请通过在 GitHub 安全公告 页面提交草稿报告漏洞。
Footnotes
-
性能因使用、配置和其他因素而异。
ipex-llm
对非 Intel 产品的优化可能不同程度。了解更多信息请访问 www.Intel.com/PerformanceIndex。 ↩ ↩2