EasyJailbreak
EasyJailbreak是一个针对大语言模型安全研究的Python框架,将越狱攻击过程分解为可迭代步骤。框架提供多种选择器、变异器、约束和评估器组件,构建了越狱攻击实验平台。项目包含11种攻击方法在10种大语言模型上的结果,并提供API文档。研究人员可使用现有方法或添加新组件进行实验,便于大语言模型安全研究。