Phind-CodeLlama-34B-v2-GGUF

Phind-CodeLlama-34B-v2-GGUF项目介绍

项目背景

Phind-CodeLlama-34B-v2-GGUF是一个集合了Phind团队开发的CodeLlama 34B v2模型的项目。这款模型使用了LLM框架，特别是Llama变体，它专注于在文本生成任务上表现突出。其中的一项重要更新就是模型文件的格式转换成了GGUF，这是一种由llama.cpp团队于2023年8月21日引入的新格式，用于替代之前的GGML格式。相比GGML，GGUF的优势在于其更好的分词功能、对特殊字符的支持以及元数据支持等。设计上也更加灵活，方便进一步扩展。

项目特点

该项目重点在于提供多种不同量化级别的GGUF格式模型文件，适用于不同的计算环境和性能需求。

主要特点

支持的库和客户端：
- llama.cpp：提供命令行和服务器选项，是GGUF的源项目。
- text-generation-webui：流行的网页UI，支持GPU加速。
- KoboldCpp、LM Studio、LoLLMS Web UI等客户端，也都支持GGUF，适合不同平台使用。
量化方法：
- 提供从2位到8位的多个量化级别选项，适用于CPU+GPU的推理环境。
- 例如Q2_K、Q3_K、Q4_K等方法，适用于不同的内存和性能需求。
兼容性：
- 这些模型文件兼容自8月27日之后的llama.cpp版本。
- 也兼容包括text-generation-webui在内的许多第三方UI和库。

文件和下载

用户可以通过提供的链接选择并下载所需的特定GGUF文件。这些文件分为不同的量化方法和级别，以适应各种性能和内存需求。为方便用户下载和使用，这些文件可以通过LM Studio、LoLLMS Web UI等工具直接下载。

下载示例

用户可以通过命令行使用huggingface-cli命令快速下载指定文件。例如：

huggingface-cli download TheBloke/Phind-CodeLlama-34B-v2-GGUF phind-codellama-34b-v2.q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

使用说明

Phind-CodeLlama-34B-v2-GGUF项目不仅提供了下载存储模型的功能，还为用户提供了如何在不同环境中运行这些模型的详细指南。

在`llama.cpp`中的运行示例

确保使用指定版本的llama.cpp，然后执行以下命令来运行模型：

./main -ngl 32 -m phind-codellama-34b-v2.q4_K_M.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### System Prompt\n{system_message}\n\n### User Message\n{prompt}\n\n### Assistant"