#说服技巧

说服即破解：揭秘人性化语言模型的潜在安全风险

2024年09月05日

2024年09月05日

相关项目

persuasive_jailbreaker

本项目提出说服性对抗提示(PAP)方法,系统应用40种说服技巧攻击大语言模型。研究显示PAP对GPT-4等先进模型有92%成功率,且更强大的模型反而更易受影响。项目还探讨了防御策略,揭示人性化交互对AI安全的挑战,为增强大语言模型安全性提供新思路。

投诉举报邮箱: service@vectorlightyear.com