#实验结果

CipherChat学习资料汇总 - 评估LLM安全对齐泛化能力的创新框架

2 个月前

2 个月前

3 个月前

3 个月前

相关项目

CipherChat

该新框架系统性分析了安全对齐在非自然语言中的可推广性，探索如何使用人类无法阅读的密码绕过LLMs的安全对齐机制。通过将输入转换为密码形式处理，再使用基于规则的解密器将输出还原为自然语言。项目提供了实验结果和使用示例，确保在研究中有效应用。

投诉举报邮箱: service@vectorlightyear.com