#WildGuard

wildguard - 开源的用户请求与AI响应安全检测工具

人工智能安全内容审核有害内容检测拒绝检测HuggingfaceGithub开源项目模型WildGuard

这是一款开源工具，用于检测用户请求和AI响应的潜在危害与拒绝。在多项基准测试中表现出色，超越现有开源模型，并在对抗性提示的有害性评估中胜过GPT-4。它的审核涵盖隐私、虚假信息、有害语言和恶意用途等风险，为内容治理提供全面支持。虽然可能存在一定误判，但在审核准确性上表现领先。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号