persuasive_jailbreaker
本项目提出说服性对抗提示(PAP)方法,系统应用40种说服技巧攻击大语言模型。研究显示PAP对GPT-4等先进模型有92%成功率,且更强大的模型反而更易受影响。项目还探讨了防御策略,揭示人性化交互对AI安全的挑战,为增强大语言模型安全性提供新思路。