项目介绍:Llama-3.2-3B-Instruct-abliterated
Llama-3.2-3B-Instruct-abliterated项目是一个开源的人工智能模型项目,属于transformers库的一员,并且在Llama 3.2 3B的基础上进行指令调优。这个模型的特别之处在于,它是经过一种称为“abliteration”的过程而去除了敏感内容的版本。abliteration技术的相关信息可以在这篇文章中找到详细介绍。
特别鸣谢
在这个项目中,特别要感谢@FailSpy的原创代码和技术支持。他对abliterated模型研究有深入的贡献,感兴趣的朋友可以关注他获取更多资讯。
评估结果
Llama-3.2-3B-Instruct-abliterated模型在多个基准测试中都经过重新评估,并与原始模型的结果进行比较,以下是详细的评估结果:
测试基准 | Llama-3.2-3B-Instruct | Llama-3.2-3B-Instruct-abliterated |
---|---|---|
IF_Eval | 76.55 | 76.76 |
MMLU Pro | 27.88 | 28.00 |
TruthfulQA | 50.55 | 50.73 |
BBH | 41.81 | 41.86 |
GPQA | 28.39 | 28.41 |
从这些数据可以看出,经过abliteration处理后的模型在各项指标上有所提升,表现更加优越。
计算方法
评估所使用的脚本已包含在项目库中,路径为/eval.sh,用户也可以点击这里查看评估脚本的详细内容和运行方式。
这个项目代表了在AI模型卸载敏感内容后的性能表现,同时也展示了技术的进步可以在不损失模型能力的情况下提供更安全的使用环境。