#ShieldLM

Safety-Prompts - 中文大语言模型安全评估与优化

Github开源项目Safety-PromptsShieldLMSafetyBench大模型安全评测平台

Safety-Prompts项目提供用于评测和提升中文大语言模型安全性的prompts，确保模型输出与人类价值观一致。项目包含10万条安全场景prompts和ChatGPT回复，涵盖各类安全场景和指令攻击，并提供多选题评测平台，适用于训练和微调更安全的模型，帮助研究人员评估大模型安全性。

ShieldLM-7B-internlm2 - 中英双语AI内容安全检测模型支持自定义规则审核

人工智能Github开源项目大语言模型模型HuggingfaceShieldLM安全检测双语模型

ShieldLM-7B-internlm2是基于internlm2-chat-7b开发的内容安全检测模型，主要用于识别大语言模型输出内容中的安全风险。模型支持中英双语检测，遵循通用安全标准，可根据需求自定义检测规则并提供判断依据。经测试，其检测性能在多个测试集上优于GPT-4等主流安全检测模型。

相关文章

Article Cover

Safety-Prompts：评估和提升大语言模型安全性的中文提示集

Article Cover

Safety-Prompts学习资料汇总 - 中文大模型安全性评估与提升工具

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号