#有害内容检测

wildguard - 开源的用户请求与AI响应安全检测工具

人工智能安全内容审核有害内容检测拒绝检测HuggingfaceGithub开源项目模型WildGuard

这是一款开源工具，用于检测用户请求和AI响应的潜在危害与拒绝。在多项基准测试中表现出色，超越现有开源模型，并在对抗性提示的有害性评估中胜过GPT-4。它的审核涵盖隐私、虚假信息、有害语言和恶意用途等风险，为内容治理提供全面支持。虽然可能存在一定误判，但在审核准确性上表现领先。

unbiased-toxic-roberta-onnx - 基于RoBERTa的公平评论审核模型ONNX实现

内容审核RoBERTa有害内容检测模型转换HuggingfaceGithub文本分类开源项目模型

这是一个基于RoBERTa架构的评论审核模型ONNX版本，专注于识别和分类不当言论。模型支持多维度评估，包括攻击性、不当行为、语言暴力等标签分类。通过Optimum库优化，便于系统集成，同时提供完整文档支持和活跃的开发者社区。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号