#JailbreakBench

jailbreakbench - 大语言模型越狱攻防能力评估基准

JailbreakBench语言模型基准测试安全性AI伦理Github开源项目

JailbreakBench是一个评估大语言模型越狱攻防能力的开源基准。它包含JBB-Behaviors数据集、官方排行榜和越狱字符串存储库,全面追踪越狱攻击和防御进展。研究人员可利用JailbreakBench加载越狱字符串、访问数据集、进行红队测试,以及提交新的攻击和防御方法。该项目为大语言模型安全研究提供了稳定的性能比较平台。

相关文章

Article Cover

JailbreakBench: 开放的大型语言模型越狱鲁棒性基准测试

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号