热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#Llama3.1
AirLLM: 在单个4GB GPU上运行70B大型语言模型
2 个月前
AirLLM是一个创新的解决方案,可以在单个4GB GPU上运行70B大型语言模型,无需量化、蒸馏或剪枝。它通过优化推理内存使用,使得在普通硬件上也能运行最先进的大型语言模型。
AirLLM
Llama3.1
大语言模型
模型压缩
推理优化
Github
开源项目
2 个月前
相关项目
airllm
AirLLM优化了推理内存使用,使70B大模型能在单个4GB GPU上运行,无需量化、蒸馏或剪枝。同时,8GB显存可运行405B的Llama3.1。支持多种模型压缩方式,推理速度可提升至3倍。兼容多种大模型,提供详细配置和案例,支持在MacOS上运行。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号