#Llama3.1

airllm - 在单个4GB GPU上运行70B大模型，无需量化和蒸馏

AirLLMLlama3.1大语言模型模型压缩推理优化Github开源项目

AirLLM优化了推理内存使用，使70B大模型能在单个4GB GPU上运行，无需量化、蒸馏或剪枝。同时，8GB显存可运行405B的Llama3.1。支持多种模型压缩方式，推理速度可提升至3倍。兼容多种大模型，提供详细配置和案例，支持在MacOS上运行。

Llama3.1-8B-Chinese-Chat - Llama3.1-8B中英双语指令微调模型

Huggingface模型机器学习Llama3.1Github开源项目自然语言处理ORPO中文聊天模型

Llama3.1-8B-Chinese-Chat是一个针对中英用户优化的大型语言模型,基于Meta-Llama-3.1-8B-Instruct开发。该模型经过ORPO算法微调,具备角色扮演和工具使用等多项功能。它支持128K上下文长度,提供BF16和多种GGUF版本,可通过Python或LM Studio使用。模型开源供研究使用,使用时请注明引用。

相关文章

Article Cover

AirLLM: 在单个4GB GPU上运行70B大型语言模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号