项目介绍:WizardLM-7B-Uncensored-GGUF
WizardLM-7B-Uncensored-GGUF项目是由Eric Hartford创建的自然语言处理模型,该模型基于llama系列,采用了一种名为GGUF的新格式。这一格式由llama.cpp团队在2023年8月21日推出,旨在替代不再支持的GGML格式,用于存储和分享模型文件。
GGUF格式简介
GGUF格式是一种用于存储量化模型文件的新格式。支持GGUF格式的库和工具包括:
- llama.cpp: GGUF格式的发源项目,提供CLI和服务器选项。
- text-generation-webui: 应用广泛的Web UI,支持GPU加速,拥有众多功能和强大扩展性。
- KoboldCpp: 功能全面的Web UI,支持跨平台和GPU架构的加速,尤其适合故事叙述。
- LM Studio: 适用于Windows和macOS的易用而强大的本地GUI,支持GPU加速。
- LoLLMS Web UI: 具有许多独特功能的优秀Web UI,拥有完整的模型库,便于模型选择。
- Faraday.dev: 面向Windows和macOS的基于角色的聊天GUI,支持GPU加速。
- ctransformers: 具备LangChain支持和OpenAI兼容AI服务器的Python库,支持GPU加速。
- llama-cpp-python: 提供LangChain支持和OpenAI兼容API服务器的Python库,支持GPU加速。
- candle: 强调性能和易用性的Rust机器学习框架,支持GPU。
项目背景和技术细节
WizardLM-7B-Uncensored由TheBloke项目的创始人之一Eric Hartford开发。他在其模型中去除了一些含有道德化或对齐取向的训练样本,以使模型更偏向无对齐版本。这种处理旨在为模型添加不同类型的对齐功能提供空间,例如使用RLHF LoRA进行的对齐。
该项目还展示了不同的量化方法,以优化推理过程的性能和资源使用。其中包括从2位到8位不同精度的量化模型,每种方法针对不同的用途进行了优化。
如何下载和使用GGUF文件
对于想要下载和使用GGUF格式模型的用户,建议选择合适的量化文件进行下载,而不必克隆整个仓库。可以使用以下工具和方法下载特定的模型文件:
-
使用text-generation-webui: 可以通过输入模型仓库
TheBloke/WizardLM-7B-uncensored-GGUF
,并选择特定文件名进行下载。 -
在命令行中使用huggingface-hub库下载: 安装
huggingface-hub
后,可以使用命令行下载任意单个模型文件。例如:pip3 install huggingface-hub huggingface-cli download TheBloke/WizardLM-7B-uncensored-GGUF WizardLM-7B-uncensored.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
运行示例
可以使用以下命令在llama.cpp
中运行WizardLM-7B-Uncensored模型:
./main -ngl 32 -m WizardLM-7B-uncensored.Q4_K_M.gguf --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions. USER: {prompt} ASSISTANT:"
上述命令用于启动一个简单的对话模型,用户可以通过改变参数来适应其硬件性能和应用需求。
支持与贡献
项目通过TheBloke的Discord服务器提供支持,以及通过Patreon来接受贡献,贡献者可以获得优先支持、私人Discord房间的访问权限以及其他福利。用户可以在Discord上与社区交流,获取更多关于这些模型和AI的讨论和支持。
总的来说,WizardLM-7B-Uncensored-GGUF项目为研究人员和开发者提供了一个强大的AI工具,能够灵活、有效地应用于多种自然语言处理任务,同时保持对齐灵活性以适应特定应用需求。