项目介绍:Llama2 70B Chat Uncensored - GGUF
项目背景
Llama2 70B Chat Uncensored 是由 Jarrad Hope 开发的一个 AI 模型项目。此项目通过名为 GGUF 的新格式提供模型文件。GGUF 是 llama.cpp 团队于 2023 年 8 月 21 日推出的格式,用于取代旧的 GGML 格式。该格式在标记化、特殊标记的支持以及元数据处理等方面提供了更佳的表现,并且设计上具有可扩展性。
模型特点
Llama2 70B Chat Uncensored 是一个未经过滤的模型,它基于 EHartford/wizard_vicuna_70k_unfiltered 数据集构建。其设计目标是提高对话的自然性和流畅性,尤其是在包含敏感话题或需要不受限交流的场景中,表现尤为出色。
使用说明
兼容性
此项目提供了各种量化的 GGUFv2 文件,这些文件与 2023 年 8 月 27 日之后的 llama.cpp 版本(仅需包含特定的提交)兼容。此外,这些文件也可以在多个第三方用户接口和库中使用。用户可以利用下列格式文件:
- AWQ 模型:用于 GPU 推理。
- GPTQ 模型:具有多种量化参数选项的 GPU 推理。
- GGUF 模型:支持 2 到 8 位的 CPU+GPU 推理。
- Jarrad Hope 的原始未量化 fp16 模型。
提示模板
Llama2 70B Chat Uncensored 使用的提示模板如下:
### HUMAN:
{prompt}
### RESPONSE:
下载指南
用户可以通过各种客户机/库下载 Llama2 模型文件。提供的客户机包括 LM Studio、LoLLMS Web UI 和 Faraday.dev,这些工具将自动下载模型并提供选择界面。此外,用户也可以使用 huggingface-hub Python 库在命令行中下载特定文件。
运行指南
对于有意在不同平台运行此模型的用户,项目提供了详细步骤以供参考:
- 使用
llama.cpp
:确保使用特定版本之后的llama.cpp
,并参考提供的命令设置。 - 使用
text-generation-webui
:参照对应的文档。 - 在 Python 代码中使用:可以通过
llama-cpp-python
或ctransformers
库加载模型。
示例命令
下面是一个通过 llama.cpp
运行模型的示例命令:
./main -ngl 32 -m llama2_70b_chat_uncensored.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### HUMAN:\n{prompt}\n\n### RESPONSE:"
具体参数可以根据需求进行调整。
贡献与支持
若希望对项目发展做出贡献,可以通过 TheBloke AI 的 Patreon 页面支持。同样,项目开发者鼓励通过 Discord 社群交流,分享使用者的建议和需求,以推动产品的改进和更新。
通过上述说明,希望你对此项目有了更深入的理解。如果有更多问题或反馈,欢迎加入我们的社群进行讨论。