🤗 Hugging Face上的模型 | 博客 | 网站 | CyberSec评估论文 | Llama Guard论文
Purple Llama
Purple Llama是一个总括性项目,随着时间的推移,它将汇集工具和评估,帮助社区负责任地使用开放的生成式AI模型进行开发。初始发布将包括用于网络安全和输入/输出保护的工具和评估,但我们计划在不久的将来贡献更多内容。
为什么选择紫色?
借鉴网络安全领域的一个概念,我们认为要真正缓解生成式AI带来的挑战,我们需要同时采取攻击(红队)和防御(蓝队)的姿态。紫队(由红队和蓝队职责组成)是一种协作方式,用于评估和缓解潜在风险,同样的理念也适用于生成式AI,因此我们对Purple Llama的投资将是全面的。
许可证
Purple Llama项目中的组件将采用宽松许可,以支持研究和商业使用。我们相信这是实现社区协作和标准化生成式AI开发信任和安全工具开发与使用的重要一步。具体而言,评估和基准测试采用MIT许可证,而任何模型则使用相应的Llama社区许可证。请参见下表:
组件类型 | 组件 | 许可证 |
---|---|---|
评估/基准测试 | 网络安全评估(更多即将推出) | MIT |
安全保障 | Llama Guard | Llama 2 社区许可证 |
安全保障 | Llama Guard 2 | Llama 3 社区许可证 |
安全保障 | Llama Guard 3 | Llama 3.1 社区许可证 |
安全保障 | Prompt Guard | Llama 3.1 社区许可证 |
安全保障 | Code Shield | MIT |
系统级安全保障
正如我们在Llama 3的负责任使用指南中所概述的,我们建议根据适合应用程序的内容指南检查和过滤所有输入和输出到LLM的内容。
Llama Guard
Llama Guard 3是一个高性能的输入和输出审核模型,旨在支持开发人员检测各种常见类型的违规内容。
它是通过微调Meta-Llama 3.1-8B模型构建的,并针对支持MLCommons标准危害分类进行了优化,以满足各种开发人员用例。它支持Llama 3.1的新功能,包括7种新语言和128k上下文窗口。Llama Guard 3还针对检测有助于网络攻击的响应和防止LLM输出的恶意代码在使用代码解释器的Llama系统的托管环境中执行进行了优化。
Prompt Guard
Prompt Guard是一个强大的工具,用于保护LLM驱动的应用程序免受恶意提示的影响,以确保其安全性和完整性。
提示攻击的类别包括提示注入和越狱:
- 提示注入是利用将来自第三方的不可信数据纳入模型上下文窗口的输入,以使其执行非预期指令。
- 越狱是设计用于覆盖模型内置安全和安全功能的恶意指令。
Code Shield
Code Shield增加了对LLM生成的不安全代码进行推理时过滤的支持。Code Shield提供了不安全代码建议风险的缓解、代码解释器滥用预防和安全命令执行。CodeShield示例笔记本。
评估和基准测试
网络安全
CyberSec评估v1
CyberSec评估v1是我们认为的首个针对LLM的行业范围内网络安全安全评估集。这些基准测试基于行业指导和标准(例如CWE和MITRE ATT&CK),并与我们的安全主题专家合作构建。我们旨在提供工具,帮助解决白宫关于开发负责任AI的承诺中概述的一些风险,包括:
- 量化LLM网络安全风险的指标。
- 评估不安全代码建议频率的工具。
- 评估LLM以使其更难生成恶意代码或协助进行网络攻击的工具。
我们相信这些工具将减少LLM建议不安全AI生成代码的频率,并减少它们对网络对手的帮助。我们的初步结果显示,LLM在推荐不安全代码和遵从恶意请求方面存在显著的网络安全风险。有关更多详细信息,请参阅我们的Cybersec评估论文。
CyberSec评估2
CyberSec评估2在其前身的基础上进行了扩展,通过测量LLM滥用代码解释器的倾向、攻击性网络安全能力以及对提示注入的敏感性。您可以在这里阅读论文。
您还可以在这里查看🤗排行榜。
CyberSec评估3
新发布的CyberSec评估3包含三个额外的测试套件:视觉提示注入测试、鱼叉式网络钓鱼能力测试和自主攻击性网络操作测试。
入门
作为Llama参考系统的一部分,我们正在集成安全层以促进这些安全保障的采用和部署。 Llama-recipe GitHub仓库中提供了开始使用安全保障的资源。
常见问题
有关不仅涉及Purple Llama组件,还包括Llama模型的常见问题列表,请参阅这里的常见问题解答。
加入Purple Llama社区
有关如何提供帮助,请参阅CONTRIBUTING文件。