#harmful examples

大型语言模型微调的安全风险：探讨LLMs-Finetuning-Safety项目的研究发现

3 个月前

微调语言模型安全性 GPT-3.5 harmful examples Github 开源项目

3 个月前

相关项目

LLMs-Finetuning-Safety

本研究探讨了对齐大语言模型微调可能带来的安全风险。实验表明，即使无意识的微调也可能降低模型安全性。通过对GPT-3.5 Turbo和Llama-2的实验，研究揭示了三个风险等级的微调场景:使用有害、隐含有害和良性数据集。结果显示微调后模型在多个类别中呈现更高有害性,凸显了平衡模型能力和安全性的挑战。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com