#对抗性攻击

DeepInception - 通过DeepInception方法探索大型语言模型的安全弱点

DeepInception大型语言模型对抗性攻击Milgram实验VicunaGithub开源项目

DeepInception是一种创新的轻量级方法，能够诱导大型语言模型（LLM）绕过安全防护，持续进行越狱操作。该方法通过构建嵌套场景，利用LLM的拟人化能力，实现自适应逃逸。实验证明，DeepInception在开源和闭源LLM（如Falcon, Vicuna, Llama-2, GPT-3.5/4/4V）上表现出高成功率，揭示了LLM的安全弱点。此研究强调了增强LLM安全措施和防范风险的重要性。

llm-attacks - 研究大语言模型的对抗性攻击与安全防御

LLM攻击对抗性攻击语言模型GCG算法实验复现Github开源项目

LLM-attacks项目致力于研究对齐语言模型的通用和可迁移对抗性攻击。项目实现了GCG算法，可对LLaMA-2等模型进行安全测试。研究者能够复现论文中的单一行为、多行为和迁移实验。项目提供完整的安装指南、模型使用说明和实验脚本，并包含交互式演示notebook。该研究有助于深入理解和提升大语言模型的安全性，对相关领域的发展具有重要价值。

aegis - 大型语言模型的自我强化防火墙

Aegis大语言模型防火墙安全保护对抗性攻击Github开源项目

Aegis是一款为大型语言模型设计的自我强化防火墙。该系统通过先进的分类模型和启发式算法，有效防范提示注入、信息泄露和有害语言等威胁。Aegis不断学习新的攻击特征，为模型的输入和输出提供全面保护。开发者可以通过Python API轻松集成Aegis，提高AI应用的安全性能。

相关文章

Article Cover

LLM攻击:对齐语言模型的普遍性和可转移对抗攻击

Article Cover

Aegis: 为大语言模型打造自我强化的防火墙

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号