项目概述
Llama-3.2-3B-Instruct-4bit是一个基于Meta公司Llama-3.2模型转换而来的4位量化语言模型。该项目基于MLX框架进行转换和优化,主要目标是提供一个更轻量级、易于部署的Llama模型版本。
技术特点
- 基于meta-llama/Llama-3.2-3B-Instruct模型进行转换
- 采用4位量化技术,大幅降低模型体积
- 使用MLX框架进行优化,提升运行效率
- 支持多种语言处理能力,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语
- 基于transformers库开发,便于集成和使用
使用方法
该模型的使用非常简单直观,主要包含以下步骤:
- 首先需要安装mlx-lm库:
pip install mlx-lm
- 然后可以通过Python代码调用模型:
from mlx_lm import load, generate
model, tokenizer = load("mlx-community/Llama-3.2-3B-Instruct-4bit")
prompt="hello"
if hasattr(tokenizer, "apply_chat_template") and tokenizer.chat_template is not None:
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
response = generate(model, tokenizer, prompt=prompt, verbose=True)
许可说明
该项目采用Llama3.2许可证,使用时需要遵守相关的使用条款和限制。使用者需要:
- 在使用或分发时附带许可协议副本
- 在相关网站、用户界面或文档中显著标注"Built with Llama"
- 如果基于该模型创建新的AI模型,需要在模型名称前加上"Llama"前缀
- 遵守可接受使用政策(AUP),避免非法或有害使用
使用限制
根据许可协议,该模型禁止用于:
- 违法活动或侵犯他人权利
- 可能导致人身伤害的活动
- 欺骗或误导他人
- 未经适当披露的危险系统
- 违反数据隐私和安全规定的行为