LLM安全与隐私项目介绍
什么是LLM安全与隐私项目?
LLM安全与隐私项目专注于大语言模型(LLM)的安全性和隐私保护问题。这是一个收集和整理相关论文与资源的项目,目的是帮助研究人员和开发者更快捷地获取这些领域的学术参考资料和工具。
为什么会有这个项目?
项目发起者在研究LLM安全和隐私的过程中积累了大量的资料和论文,而与其将这些知识局限在个人研究中,不如分享出来以帮助更多对这一新兴领域感兴趣的人。这不但方便其他研究者查阅相关文献,还可以为该领域的新人提供入门引导。
项目更新周期
该项目会在发起者具备足够精力和动力时进行更新,换句话说,更新是相对频繁和不定期的。
项目可以在哪里找到?
项目主要在GitHub和Notion上发布,其中Notion平台通常是最新更新内容的首发地。GitHub上的材料会定期从Notion同步过来。项目的GitHub地址是:GitHub ;可访问Notion进行更详细信息的了解:Notion。
参与者
项目的主要发起者是Chawins(个人网站),并欢迎任何有兴趣的人加入贡献。有关如何参与贡献的详细信息可在GitHub页面的贡献部分找到:Contribution。
内容概览
整体符号体系
符号 | 描述 |
---|---|
⭐ | 个人特别喜欢的论文(非学术水平的评判标准) |
💽 | 数据集、基准测试或框架 |
📍 | 位置操作论文 |
🔭 | 调查类论文 |
👁️ | 视觉-语言模型 |
💸 | 使用闭源模型进行的实验 |
脆弱性分析
提示注入(Prompt Injection)
在项目中,有大量关于提示注入(Prompt Injection)攻击的文章,这类攻击主要通过对大语言模型进行误导性输入,从而改变模型的输出行为。这些文章讨论了不同类型的提示注入技术、攻击目标以及相关的实验和防御机制。
系统突破(Jailbreak)
通过复杂的提示来解锁大语言模型,使其绕过原有的对齐训练,输出通常被限制的内容。该项目收录了多篇文章是关于如何分析和理解这些攻击路径,以及现有模型在这类攻击下的性能。
项目的目标
项目的主要目标是通过系统化的资源整理和开放的知识分享,提升外界对LLM安全和隐私的认识,进而推动这一领域的研究与合作。通过识别、分析和共享可能的安全漏洞,进一步增强大语言模型在实际应用中的安全性和可靠性。