#人工智能安全
SAELens - 训练和分析稀疏自编码器的开源工具
SAE Lens稀疏自编码器机械可解释性神经网络人工智能安全Github开源项目
SAELens是一个开源工具库,专注于稀疏自编码器的训练和分析。它为研究人员提供预训练模型加载、自定义训练和可视化分析功能,支持深入探索神经网络内部机制。该项目由多位贡献者维护,旨在促进机械解释性研究和人工智能安全发展。
wildguard - 开源的用户请求与AI响应安全检测工具
人工智能安全内容审核有害内容检测拒绝检测HuggingfaceGithub开源项目模型WildGuard
这是一款开源工具,用于检测用户请求和AI响应的潜在危害与拒绝。在多项基准测试中表现出色,超越现有开源模型,并在对抗性提示的有害性评估中胜过GPT-4。它的审核涵盖隐私、虚假信息、有害语言和恶意用途等风险,为内容治理提供全面支持。虽然可能存在一定误判,但在审核准确性上表现领先。
gemma-1.1-2b-it-GPTQ - 基于Gemma开发的轻量级量化模型实现本地高效部署
大型语言模型GemmaAI模型训练模型Github开源项目语言生成人工智能安全Huggingface
Gemma-1.1-2b-it的GPTQ量化版本实现了模型性能与资源消耗的平衡。通过支持4-bit、8-bit等多种量化精度和Flash Attention 2加速技术,使其能在普通笔记本电脑和台式机上高效运行。该模型可用于文本生成、问答、总结等自然语言处理任务,并针对不同计算设备提供了完整的部署优化方案。