热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#harmful examples
LLMs-Finetuning-Safety - 大语言模型微调对安全性的潜在影响研究
微调
语言模型
安全性
GPT-3.5
harmful examples
Github
开源项目
本研究探讨了对齐大语言模型微调可能带来的安全风险。实验表明,即使无意识的微调也可能降低模型安全性。通过对GPT-3.5 Turbo和Llama-2的实验,研究揭示了三个风险等级的微调场景:使用有害、隐含有害和良性数据集。结果显示微调后模型在多个类别中呈现更高有害性,凸显了平衡模型能力和安全性的挑战。
1
1
相关文章
大型语言模型微调的安全风险:探讨LLMs-Finetuning-Safety项目的研究发现
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号