#黑盒攻击

越狱大语言模型:PAIR算法及其安全隐患

2 个月前

LLM Jailbreak PAIR算法黑盒攻击语言模型安全 Github 开源项目

2 个月前

相关项目

JailbreakingLLMs

JailbreakingLLMs项目开发了PAIR算法，用于高效生成大型语言模型的语义化越狱提示。该算法仅需黑盒访问权限，通过模拟社会工程攻击，实现自动化越狱过程。PAIR通常在20次查询内即可完成越狱，效率远超现有方法。实验表明，PAIR在各类开源和闭源语言模型上展现出优秀的越狱成功率和可迁移性。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com