llama2_70b_chat_uncensored-GGUF - Llama2 70B Chat Uncensored推出全新GGUF格式

项目介绍：Llama2 70B Chat Uncensored - GGUF

项目背景

Llama2 70B Chat Uncensored 是由 Jarrad Hope 开发的一个 AI 模型项目。此项目通过名为 GGUF 的新格式提供模型文件。GGUF 是 llama.cpp 团队于 2023 年 8 月 21 日推出的格式，用于取代旧的 GGML 格式。该格式在标记化、特殊标记的支持以及元数据处理等方面提供了更佳的表现，并且设计上具有可扩展性。

模型特点

Llama2 70B Chat Uncensored 是一个未经过滤的模型，它基于 EHartford/wizard_vicuna_70k_unfiltered 数据集构建。其设计目标是提高对话的自然性和流畅性，尤其是在包含敏感话题或需要不受限交流的场景中，表现尤为出色。

使用说明

兼容性

此项目提供了各种量化的 GGUFv2 文件，这些文件与 2023 年 8 月 27 日之后的 llama.cpp 版本（仅需包含特定的提交）兼容。此外，这些文件也可以在多个第三方用户接口和库中使用。用户可以利用下列格式文件：

AWQ 模型：用于 GPU 推理。
GPTQ 模型：具有多种量化参数选项的 GPU 推理。
GGUF 模型：支持 2 到 8 位的 CPU+GPU 推理。
Jarrad Hope 的原始未量化 fp16 模型。

提示模板

Llama2 70B Chat Uncensored 使用的提示模板如下：

### HUMAN:
{prompt}

### RESPONSE:

下载指南

用户可以通过各种客户机/库下载 Llama2 模型文件。提供的客户机包括 LM Studio、LoLLMS Web UI 和 Faraday.dev，这些工具将自动下载模型并提供选择界面。此外，用户也可以使用 huggingface-hub Python 库在命令行中下载特定文件。

运行指南

对于有意在不同平台运行此模型的用户，项目提供了详细步骤以供参考：

使用llama.cpp：确保使用特定版本之后的 llama.cpp，并参考提供的命令设置。
使用text-generation-webui：参照对应的文档。
在 Python 代码中使用：可以通过 llama-cpp-python 或 ctransformers 库加载模型。

示例命令

下面是一个通过 llama.cpp 运行模型的示例命令：

./main -ngl 32 -m llama2_70b_chat_uncensored.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### HUMAN:\n{prompt}\n\n### RESPONSE:"

具体参数可以根据需求进行调整。

贡献与支持

若希望对项目发展做出贡献，可以通过 TheBloke AI 的 Patreon 页面支持。同样，项目开发者鼓励通过 Discord 社群交流，分享使用者的建议和需求，以推动产品的改进和更新。

通过上述说明，希望你对此项目有了更深入的理解。如果有更多问题或反馈，欢迎加入我们的社群进行讨论。