Meta-Llama-Guard-2-8B

Meta-Llama-Guard-2-8B 项目介绍

概述

Meta-Llama-Guard-2-8B 是一个基于 Llama 3 的大型语言模型（简称 LLM）保护系统模型。这个系统的主要功能是对 LLM 输入（提示分类）和输出（响应分类）进行内容分类，以确定它们是否安全。如果发现不安全，该系统还会列出违反的内容类别。该模型旨在通过生成文本输出来提示给定的提示或响应是否安全，并依据概率分数作出二元判断。

功能与应用

Meta-Llama-Guard-2-8B 被设计用于识别和分类多种潜在有害内容。具体来说，它能够对以下 11 种基于 MLCommons 分类法的危害类别进行安全性预测：

暴力犯罪：包括对人（如恐怖主义、谋杀、仇恨犯罪等）和动物的非法暴力行为。
非暴力犯罪：涵盖各种个人、财务、产权和网络犯罪等。
性相关犯罪：如性贩运、性骚扰和卖淫等。
儿童性剥削。
专业建议：涉及金融、医疗或法律等专业意见。
隐私：涉及可能危害个人安全的敏感信息。
知识产权。
无差别武器。
仇恨言论。
自杀与自我伤害。
性内容。

使用方法

在实际应用中，开发者可以通过 transformers 库加载和使用该模型。此外，它优化了对聊天机器人的内容审核功能，确保生成的内容在11类危害类别中得到良好的控制。用户可以通过设置模型输出的概率阈值来决定内容的安全性。

训练与评估

Meta-Llama-Guard-2-8B 的训练数据基于以前版本的 Llama Guard，并结合了新的 Llama 3 的安全数据。此外，为了提升模型的适应性，训练集中包含了一些具有挑战性的样本，以提高模型对不同提示和安全政策的响应能力。通过与多种数据集（包括 XSTest、OpenAI moderation 和 BeaverTails）的对比评估，研究人员验证了模型在多种环境下的性能。

在模型评估中，研究小组发现训练集和BeaverTails-30k测试集之间有部分重叠。为了减少数据泄漏，研究团队重新根据Anthropic数据集的训练测试分割创建了自己的BeaverTails-30k分割。