#对抗性攻击

Aegis: 为大语言模型打造自我强化的防火墙

3 个月前
Cover of Aegis: 为大语言模型打造自我强化的防火墙

LLM攻击:对齐语言模型的普遍性和可转移对抗攻击

3 个月前
Cover of LLM攻击:对齐语言模型的普遍性和可转移对抗攻击