#拒绝检测
wildguard - 开源的用户请求与AI响应安全检测工具
Github开源项目模型Huggingface人工智能安全内容审核拒绝检测有害内容检测WildGuard
这是一款开源工具,用于检测用户请求和AI响应的潜在危害与拒绝。在多项基准测试中表现出色,超越现有开源模型,并在对抗性提示的有害性评估中胜过GPT-4。它的审核涵盖隐私、虚假信息、有害语言和恶意用途等风险,为内容治理提供全面支持。虽然可能存在一定误判,但在审核准确性上表现领先。
distilroberta-base-rejection-v1 - DistilRoBERTa模型用于检测LLM输出拒绝响应 准确率98.87%
Github开源项目LLM模型Huggingface文本分类distilroberta-baseProtectAI拒绝检测
这是一个基于DistilRoBERTa的微调模型,用于检测大型语言模型(LLM)输出中的拒绝响应。模型将输入分为正常输出和拒绝检测两类,评估准确率达98.87%。采用Apache 2.0许可证,支持Transformers和ONNX运行时,易于集成。适用于内容审核和安全防护,可识别LLM对不当内容的拒绝响应。