#Llama3.1
airllm - 在单个4GB GPU上运行70B大模型,无需量化和蒸馏
AirLLMLlama3.1大语言模型模型压缩推理优化Github开源项目
AirLLM优化了推理内存使用,使70B大模型能在单个4GB GPU上运行,无需量化、蒸馏或剪枝。同时,8GB显存可运行405B的Llama3.1。支持多种模型压缩方式,推理速度可提升至3倍。兼容多种大模型,提供详细配置和案例,支持在MacOS上运行。
Llama3.1-8B-Chinese-Chat - Llama3.1-8B中英双语指令微调模型
Huggingface模型机器学习Llama3.1Github开源项目自然语言处理ORPO中文聊天模型
Llama3.1-8B-Chinese-Chat是一个针对中英用户优化的大型语言模型,基于Meta-Llama-3.1-8B-Instruct开发。该模型经过ORPO算法微调,具备角色扮演和工具使用等多项功能。它支持128K上下文长度,提供BF16和多种GGUF版本,可通过Python或LM Studio使用。模型开源供研究使用,使用时请注明引用。