llama3_8b_chat_uncensored项目介绍
项目概述
llama3_8b_chat_uncensored是一个基于Llama-3 8B模型的项目,它采用了一个未经审查和过滤的Wizard-Vicuna对话数据集进行微调处理。这个项目使用了QLoRA技术来进行微调,旨在提升模型的对话响应能力。
该模型包括了fp32格式的HuggingFace版本,以及一个量化为4-bit q4_0的gguf版本。这样处理后,模型在保证效能的同时,还可以减小存储和计算资源的占用。
提示语风格
模型在训练中采用了一种特定的提示语风格来引导对话。具体形式如下:
### HUMAN:
Hello
### RESPONSE:
Hi, how are you?
### HUMAN:
I'm fine.
### RESPONSE:
How can I help you?
通过这种方式,模型能够更自然地理解和生成对话内容。
训练代码
为方便用户复现训练过程,项目中提供了训练用的代码。用户可以通过以下链接访问该代码:GitHub 仓库。
具体的复现步骤如下:
git clone https://github.com/georgesung/llm_qlora
cd llm_qlora
pip install -r requirements.txt
python train.py configs/llama3_8b_chat_uncensored.yaml
微调指南
如果对QLoRA微调技术感兴趣,可以通过这里了解更详细的指导。
Ollama推理
项目支持通过Ollama进行模型推理。具体步骤如下:
-
首先,安装Ollama。
-
根据指引,在终端中执行以下命令以下载模型:
cd $MODEL_DIR_OF_CHOICE wget https://huggingface.co/georgesung/llama3_8b_chat_uncensored/resolve/main/llama3_8b_chat_uncensored_q4_0.gguf
-
创建一个名为
llama3-uncensored.modelfile
的文件,内容如下:FROM ./llama3_8b_chat_uncensored_q4_0.gguf TEMPLATE """{{ .System }} ### HUMAN: {{ .Prompt }} ### RESPONSE: """ PARAMETER stop "### HUMAN:" PARAMETER stop "### RESPONSE:"
-
运行以下命令创建和执行模型:
ollama create llama3-uncensored -f llama3-uncensored.modelfile ollama run llama3-uncensored
通过上述步骤,用户可以在自己的环境中轻松部署和使用此对话模型。该项目提供了一种高效的解决方案,以进一步推动自然语言处理技术的发展和应用。