jailbreak_llms - 大规模语言模型野生越狱提示的特征与评估研究

项目介绍：jailbreak_llms

背景与目的

“jailbreak_llms”项目是为了研究和评估大规模语言模型（Large Language Models，简称LLMs）在真实世界环境中被破解的一种情况。该项目由Xinyue Shen、Zeyuan Chen、Michael Backes、Yun Shen及Yang Zhang在2024年ACM计算机和通信安全会议（CCS）上发表的论文支持而展开。项目的核心是通过新建立的JailbreakHub框架，对从2022年12月至2023年12月收集到的15,140个提示（其中包含1,405个破解提示）进行详细分析和研究。

数据收集

项目组从Reddit、Discord、多个网站及开源数据集四个平台收集数据，这是目前已知最大规模的野外破解提示集合。以下是各个平台的详细数据统计：

平台	来源	帖子数量	用户总数	对抗性用户	提示数量	破解数量	提示时间范围
Reddit	r/ChatGPT	163,549	147	147	176	176	2023.02-2023.11
Reddit	r/ChatGPTPromptGenius	3,536	305	21	654	24	2022.12-2023.11
Reddit	r/ChatGPTJailbreak	1,602	183	183	225	225	2023.02-2023.11
Discord	ChatGPT	609	259	106	544	214	2023.02-2023.12
Website	AIPRM	-	2,777	23	3,930	25	2023.01-2023.06
Website	FlowGPT	-	3,505	254	8,754	405	2022.12-2023.12
总计		169,933	7,308	803	15,140	1,405	2022.12-2023.12