项目介绍:Meta-Llama-3-70B-Instruct-abliterated-v3.5-IMat-GGUF
Meta-Llama-3-70B-Instruct-abliterated-v3.5-IMat-GGUF是一个基于Meta-Llama-3-70B的大型语言模型的量化版本。该模型旨在通过使用量化技术来减少模型尺寸,同时保持性能。此项目的量化由legraphista提供,采用了IMatrix数据集来进行模型优化。
基础信息
- 原始模型:failspy/Meta-Llama-3-70B-Instruct-abliterated-v3.5
- 原始数据类型:BF16(bfloat16)
- 量化器:由llama.cpp部分量化
- 标签:量化、GGUF、IMatrix、静态等
文件及其用途
IMatrix
IMatrix文件已可用,用于优化低量化级别模型的性能表现。
常用量化格式
- Q8_0:总大小74.98GB,已切分多文件存储
- Q6_K:57.89GB,亦为多文件
- Q4_K:42.52GB,单文件使用IMatrix优化
- Q3_K:34.27GB,单文件使用IMatrix优化
- Q2_K:26.38GB,单文件使用IMatrix优化
全部量化格式
项目提供了一系列量化格式,以满足不同存储容量和性能需求。
下载与使用
项目文件可通过huggingface-cli下载。对于大型文件,支持分片下载和合并。用户需要先安装huggingface-cli,然后可以下载所需的量化文件。
下载示例
pip install -U "huggingface_hub[cli]"
huggingface-cli download legraphista/Meta-Llama-3-70B-Instruct-abliterated-v3.5-IMat-GGUF --include "Meta-Llama-3-70B-Instruct-abliterated-v3.5.Q8_0/*" --local-dir ./
推理模板
简单聊天模板
该模板定义了用户和助手间的基本交互格式。
<|begin_of_text|><|start_header_id|>user<|end_header_id|>
{user_prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
{assistant_response}<|eot_id|><|start_header_id|>user<|end_header_id|>
{next_user_prompt}<|eot_id|>
带系统提示的聊天模板
加入了系统提示以丰富对话上下文。
<|begin_of_text|><|start_header_id|>system<|end_header_id|>
{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>
{user_prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
{assistant_response}<|eot_id|><|start_header_id|>user<|end_header_id|>
{next_user_prompt}<|eot_id|>
常见问题解答
为什么IMatrix未应用于所有地方?
根据调查,较低的量化级别从IMatrix中收益更大,尤其是在性能表现方面。
如何合并分割的GGUF?
在合并之前,确保系统上有gguf-split
工具可用。通过特定命令行指令,用户可以合并之前分割的模型文件。
这个项目致力于在压缩模型尺寸的同时仍然提供高质量的文本生成能力。它适合于那些既想减少计算资源消耗又希望维持一定模型性能的用户。