WizardLM-7B-uncensored-GGUF - WizardLM-7B模型的GGUF格式转换与兼容性详解

项目介绍：WizardLM-7B-Uncensored-GGUF

WizardLM-7B-Uncensored-GGUF项目是由Eric Hartford创建的自然语言处理模型，该模型基于llama系列，采用了一种名为GGUF的新格式。这一格式由llama.cpp团队在2023年8月21日推出，旨在替代不再支持的GGML格式，用于存储和分享模型文件。

GGUF格式简介

GGUF格式是一种用于存储量化模型文件的新格式。支持GGUF格式的库和工具包括：

llama.cpp： GGUF格式的发源项目，提供CLI和服务器选项。
text-generation-webui： 应用广泛的Web UI，支持GPU加速，拥有众多功能和强大扩展性。
KoboldCpp： 功能全面的Web UI，支持跨平台和GPU架构的加速，尤其适合故事叙述。
LM Studio： 适用于Windows和macOS的易用而强大的本地GUI，支持GPU加速。
LoLLMS Web UI： 具有许多独特功能的优秀Web UI，拥有完整的模型库，便于模型选择。
Faraday.dev： 面向Windows和macOS的基于角色的聊天GUI，支持GPU加速。
ctransformers： 具备LangChain支持和OpenAI兼容AI服务器的Python库，支持GPU加速。
llama-cpp-python： 提供LangChain支持和OpenAI兼容API服务器的Python库，支持GPU加速。
candle： 强调性能和易用性的Rust机器学习框架，支持GPU。

项目背景和技术细节

WizardLM-7B-Uncensored由TheBloke项目的创始人之一Eric Hartford开发。他在其模型中去除了一些含有道德化或对齐取向的训练样本，以使模型更偏向无对齐版本。这种处理旨在为模型添加不同类型的对齐功能提供空间，例如使用RLHF LoRA进行的对齐。

该项目还展示了不同的量化方法，以优化推理过程的性能和资源使用。其中包括从2位到8位不同精度的量化模型，每种方法针对不同的用途进行了优化。

如何下载和使用GGUF文件

对于想要下载和使用GGUF格式模型的用户，建议选择合适的量化文件进行下载，而不必克隆整个仓库。可以使用以下工具和方法下载特定的模型文件：

使用text-generation-webui： 可以通过输入模型仓库TheBloke/WizardLM-7B-uncensored-GGUF，并选择特定文件名进行下载。

在命令行中使用huggingface-hub库下载： 安装huggingface-hub后，可以使用命令行下载任意单个模型文件。例如：

pip3 install huggingface-hub
huggingface-cli download TheBloke/WizardLM-7B-uncensored-GGUF WizardLM-7B-uncensored.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

运行示例

可以使用以下命令在llama.cpp中运行WizardLM-7B-Uncensored模型：

./main -ngl 32 -m WizardLM-7B-uncensored.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:"

上述命令用于启动一个简单的对话模型，用户可以通过改变参数来适应其硬件性能和应用需求。

支持与贡献

项目通过TheBloke的Discord服务器提供支持，以及通过Patreon来接受贡献，贡献者可以获得优先支持、私人Discord房间的访问权限以及其他福利。用户可以在Discord上与社区交流，获取更多关于这些模型和AI的讨论和支持。

总的来说，WizardLM-7B-Uncensored-GGUF项目为研究人员和开发者提供了一个强大的AI工具，能够灵活、有效地应用于多种自然语言处理任务，同时保持对齐灵活性以适应特定应用需求。