#有害内容检测
wildguard - 开源的用户请求与AI响应安全检测工具
人工智能安全内容审核有害内容检测拒绝检测HuggingfaceGithub开源项目模型WildGuard
这是一款开源工具,用于检测用户请求和AI响应的潜在危害与拒绝。在多项基准测试中表现出色,超越现有开源模型,并在对抗性提示的有害性评估中胜过GPT-4。它的审核涵盖隐私、虚假信息、有害语言和恶意用途等风险,为内容治理提供全面支持。虽然可能存在一定误判,但在审核准确性上表现领先。
unbiased-toxic-roberta-onnx - 基于RoBERTa的公平评论审核模型ONNX实现
内容审核RoBERTa有害内容检测模型转换HuggingfaceGithub文本分类开源项目模型
这是一个基于RoBERTa架构的评论审核模型ONNX版本,专注于识别和分类不当言论。模型支持多维度评估,包括攻击性、不当行为、语言暴力等标签分类。通过Optimum库优化,便于系统集成,同时提供完整文档支持和活跃的开发者社区。