🤗 Hugging Face上的模型 | 博客 | 网站 | CyberSec评估论文 | Llama Guard论文

Purple Llama

Purple Llama是一个总括性项目，随着时间的推移，它将汇集工具和评估，帮助社区负责任地使用开放的生成式AI模型进行开发。初始发布将包括用于网络安全和输入/输出保护的工具和评估，但我们计划在不久的将来贡献更多内容。

为什么选择紫色？

借鉴网络安全领域的一个概念，我们认为要真正缓解生成式AI带来的挑战，我们需要同时采取攻击（红队）和防御（蓝队）的姿态。紫队（由红队和蓝队职责组成）是一种协作方式，用于评估和缓解潜在风险，同样的理念也适用于生成式AI，因此我们对Purple Llama的投资将是全面的。

许可证

Purple Llama项目中的组件将采用宽松许可，以支持研究和商业使用。我们相信这是实现社区协作和标准化生成式AI开发信任和安全工具开发与使用的重要一步。具体而言，评估和基准测试采用MIT许可证，而任何模型则使用相应的Llama社区许可证。请参见下表：

组件类型	组件	许可证
评估/基准测试	网络安全评估（更多即将推出）	MIT
安全保障	Llama Guard	Llama 2 社区许可证
安全保障	Llama Guard 2	Llama 3 社区许可证
安全保障	Llama Guard 3	Llama 3.1 社区许可证
安全保障	Prompt Guard	Llama 3.1 社区许可证
安全保障	Code Shield	MIT

系统级安全保障

正如我们在Llama 3的负责任使用指南中所概述的，我们建议根据适合应用程序的内容指南检查和过滤所有输入和输出到LLM的内容。

Llama Guard

Llama Guard 3是一个高性能的输入和输出审核模型，旨在支持开发人员检测各种常见类型的违规内容。

它是通过微调Meta-Llama 3.1-8B模型构建的，并针对支持MLCommons标准危害分类进行了优化，以满足各种开发人员用例。它支持Llama 3.1的新功能，包括7种新语言和128k上下文窗口。Llama Guard 3还针对检测有助于网络攻击的响应和防止LLM输出的恶意代码在使用代码解释器的Llama系统的托管环境中执行进行了优化。