#ShieldLM
Safety-Prompts - 中文大语言模型安全评估与优化
Github开源项目Safety-PromptsShieldLMSafetyBench大模型安全评测平台
Safety-Prompts项目提供用于评测和提升中文大语言模型安全性的prompts,确保模型输出与人类价值观一致。项目包含10万条安全场景prompts和ChatGPT回复,涵盖各类安全场景和指令攻击,并提供多选题评测平台,适用于训练和微调更安全的模型,帮助研究人员评估大模型安全性。
ShieldLM-7B-internlm2 - 中英双语AI内容安全检测模型 支持自定义规则审核
人工智能Github开源项目大语言模型模型HuggingfaceShieldLM安全检测双语模型
ShieldLM-7B-internlm2是基于internlm2-chat-7b开发的内容安全检测模型,主要用于识别大语言模型输出内容中的安全风险。模型支持中英双语检测,遵循通用安全标准,可根据需求自定义检测规则并提供判断依据。经测试,其检测性能在多个测试集上优于GPT-4等主流安全检测模型。