#harmful examples

LLMs-Finetuning-Safety - 大语言模型微调对安全性的潜在影响研究

微调语言模型安全性GPT-3.5harmful examplesGithub开源项目

本研究探讨了对齐大语言模型微调可能带来的安全风险。实验表明，即使无意识的微调也可能降低模型安全性。通过对GPT-3.5 Turbo和Llama-2的实验，研究揭示了三个风险等级的微调场景:使用有害、隐含有害和良性数据集。结果显示微调后模型在多个类别中呈现更高有害性,凸显了平衡模型能力和安全性的挑战。

相关文章

Article Cover

大型语言模型微调的安全风险：探讨LLMs-Finetuning-Safety项目的研究发现

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号