#LLM攻击

LLM攻击:对齐语言模型的普遍性和可转移对抗攻击

3 个月前

LLM攻击对抗性攻击语言模型 GCG算法实验复现 Github 开源项目

3 个月前

相关项目

llm-attacks

LLM-attacks项目致力于研究对齐语言模型的通用和可迁移对抗性攻击。项目实现了GCG算法，可对LLaMA-2等模型进行安全测试。研究者能够复现论文中的单一行为、多行为和迁移实验。项目提供完整的安装指南、模型使用说明和实验脚本，并包含交互式演示notebook。该研究有助于深入理解和提升大语言模型的安全性，对相关领域的发展具有重要价值。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com