JailbreakingLLMs
JailbreakingLLMs项目开发了PAIR算法,用于高效生成大型语言模型的语义化越狱提示。该算法仅需黑盒访问权限,通过模拟社会工程攻击,实现自动化越狱过程。PAIR通常在20次查询内即可完成越狱,效率远超现有方法。实验表明,PAIR在各类开源和闭源语言模型上展现出优秀的越狱成功率和可迁移性。