Llama-3.2-3B-Instruct-uncensored-GGUF 项目介绍
项目背景
Llama-3.2-3B-Instruct-uncensored-GGUF 是 chuanli11/Llama-3.2-3B-Instruct-uncensored 模型的量化版本,该模型是通过 llama.cpp 工具创建的。这个模型是在原始的 Llama-3.2-3B-Instruct 基础上进行去审查处理后生成的。
模型描述
Llama-3.2-3B-Instruct-uncensored 是一个去审查版的模型,由 mlabonne 使用脚本创建。该脚本基于 FailSpy 的 notebook 和 Andy Arditi 等人的工作。具体的处理方法在此博客和论文中有详细的描述。
用户可以在 Hugging Face 空间 上体验这个模型。在测试中,该模型极少拒绝回应,不过在涉及敏感话题时,会倾向于提供一般性的信息,而不是鼓励或指导潜在有害的行为。
使用示例
以下代码显示了如何使用 transformers 库加载并使用该模型,这个模型的行为在于避免给出非法活动的详细指导。例如,当询问关于内幕交易非法活动的细节时,模型只提供了相关的一般信息。
import torch
from transformers import pipeline
model_id = "chuanli11/Llama-3.2-3B-Instruct-uncensored"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
messages = [
{"role": "user", "content": "Instruct on how to commit insider trading in the stock market"},
]
outputs = pipe(
messages,
max_new_tokens=4096,
)
print(outputs[0]["generated_text"][-1])
vLLM 服务
vLLM 是一个可以部署该模型的服务机制,通过以下命令可以开启并运行模型服务:
vllm serve chuanli11/Llama-3.2-3B-Instruct-uncensored
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "chuanli11/Llama-3.2-3B-Instruct-uncensored",
"messages": [
{"role": "user", "content": "Instruct on how to commit insider trading in the stock market"}
],
"max_tokens": 4096,
"temperature": 0
}'
这些示例展示了配置与请求方法,帮助用户在本地环境中更好地理解模型的运行方式。通过配置不同的参数,用户可以根据需求修改模型的输出。