#AirLLM

AirLLM: 在单个4GB GPU上运行70B大型语言模型

2024年08月30日

2024年08月30日

相关项目

airllm

AirLLM优化了推理内存使用，使70B大模型能在单个4GB GPU上运行，无需量化、蒸馏或剪枝。同时，8GB显存可运行405B的Llama3.1。支持多种模型压缩方式，推理速度可提升至3倍。兼容多种大模型，提供详细配置和案例，支持在MacOS上运行。

投诉举报邮箱: service@vectorlightyear.com