#Llama3.1

AirLLM: 在单个4GB GPU上运行70B大型语言模型

2 个月前

Cover of AirLLM: 在单个4GB GPU上运行70B大型语言模型

AirLLM是一个创新的解决方案,可以在单个4GB GPU上运行70B大型语言模型,无需量化、蒸馏或剪枝。它通过优化推理内存使用,使得在普通硬件上也能运行最先进的大型语言模型。

AirLLM Llama3.1 大语言模型模型压缩推理优化 Github 开源项目

2 个月前

Cover of AirLLM: 在单个4GB GPU上运行70B大型语言模型

相关项目

Project Cover

AirLLM优化了推理内存使用，使70B大模型能在单个4GB GPU上运行，无需量化、蒸馏或剪枝。同时，8GB显存可运行405B的Llama3.1。支持多种模型压缩方式，推理速度可提升至3倍。兼容多种大模型，提供详细配置和案例，支持在MacOS上运行。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号