#AI安全

ML-Papers-of-the-Week - 每周的ML顶级论文
LLMsChatGPTAI安全大规模语言模型multimodal modelsGithub开源项目
The 'ML-Papers-of-the-Week' project curates pivotal machine learning research papers weekly, serving as a prime resource for AI researchers, practitioners, and enthusiasts eager to explore cutting-edge innovations and trends in AI.
prompt-hacker-collections - LLM提示词注入攻防及示例资源合集
Prompt-adversarialChatGPT提示词注入越狱提示词AI安全Github开源项目
本项目集合了LLM提示词注入的攻击与防御资源,包含详细的案例分析、研究笔记和多种模型提示词,适合研究人员、学生和安全专家使用。
PyRIT - Microsoft开源AI安全评估框架
PyRIT生成式AIAI安全红队测试风险识别Github开源项目
PyRIT是Microsoft开发的开源AI安全评估框架,用于自动化测试生成式AI模型的安全性。它帮助研究人员和工程师评估AI系统对虚假信息、滥用和违规内容的抵抗能力。PyRIT支持建立基准、比较不同版本的模型性能,并提供数据以检测安全性能变化。这使开发者能持续改进AI系统的安全防护措施,提高生成式AI的可靠性和安全性。
PurpleLlama - Meta推出全面AI安全工具集 推动负责任生成式AI发展
Purple LlamaAI安全开源模型网络安全生成式AIGithub开源项目
Purple Llama是Meta开发的开源AI安全项目,为开发者提供全面工具和评估标准。该项目包含Llama Guard输入输出防护工具和CyberSec Eval网络安全基准,采用开放许可支持研究和商业应用。Purple Llama旨在推动AI信任与安全标准的社区协作,促进负责任的生成式AI技术发展。
seed-tts-eval - 零样本语音生成评估数据集与度量工具
TTS语音合成评估指标测试集AI安全Github开源项目
seed-tts-eval是一个开源项目,提供评估零样本语音生成能力的客观测试集。该测试集包含英语和中文公开语料库样本,并配备计算词错误率和说话人相似度的脚本。这套工具主要用于评估语音合成模型在跨语言和零样本场景下的性能。项目采用Common Voice和DiDiSpeech-2数据集,包含3000个测试样本。评估指标包括使用Whisper和Paraformer模型的词错误率,以及基于WavLM的说话人相似度。这些工具有助于客观评估语音合成技术的进展。
ai-exploits - AI基础设施安全威胁探析与防御工具集
AI安全漏洞利用机器学习MetasploitNucleiGithub开源项目
ai-exploits项目汇集了针对机器学习工具已知漏洞的利用程序和扫描模板。项目包含Metasploit模块、Nuclei模板和CSRF模板,为信息安全专业人员提供了解和评估AI/ML基础设施实际安全风险的工具。通过展示AI领域当前面临的安全挑战,该项目旨在提高业界对AI/ML生态系统潜在威胁的认识,促进相关安全措施的改进。
Frontier Model Forum - 行业领袖联合推动前沿AI模型的安全与责任发展
AI工具Frontier Model ForumAI安全跨行业合作AI研究AI应用
Frontier Model Forum是科技巨头联合创立的行业组织,专注于前沿AI模型的安全与责任开发。组织以四大目标为核心:推进AI安全研究、制定行业最佳实践、促进跨部门合作、支持AI解决社会挑战。通过整合成员企业的技术和运营专长,Forum致力于推动整个AI生态系统的健康发展,同时加速AI安全研究与应用,以应对社会急需。
Aporia - 实时AI护栏和可观测性解决方案
AI工具AI安全AI可靠性AI监控人工智能企业级AI
Aporia平台为AI应用提供实时护栏和可观测性,确保可靠性和安全性。平台功能包括毒性检测、主题控制、幻觉检测和提示注入防护。采用多SLM检测引擎,具有低延迟和低成本优势,可轻松集成到现有AI工作流程。适用于工程师、产品经理和安全专家,帮助企业部署安全可信的AI解决方案。
Mindgard - AI安全测试平台助力企业安全部署人工智能
AI工具AI安全红队测试网络安全机器学习Mindgard
Mindgard作为专业的AI安全测试平台,提供自动化AI红队测试服务。该平台能快速识别和缓解AI系统安全漏洞,帮助企业降低AI网络风险,促进AI安全部署。由英国AI安全专家开发的Mindgard拥有先进AI攻击库,可全面测试各类AI模型和应用,涵盖生成式AI和大型语言模型。平台不仅提升AI安全测试效率,还可无缝集成企业MLOps流程,持续监控AI安全状况。
Lakera - Lakera为生成式AI应用提供实时安全保护
AI工具GenAIAI安全Lakera实时安全AI威胁
Lakera是一个专注于生成式AI应用安全的先进平台。它通过实时安全控制阻止提示攻击、数据泄露和不当内容。Lakera的AI应用防火墙具有低延迟、快速集成和持续更新威胁情报的特点,适用于多种AI模型和技术栈。该平台已获得Gartner和NIST等机构的认可,成为企业、基础模型提供商和初创公司信赖的AI安全解决方案。
ZeroTrusted.ai - 人工智能安全领域的领先解决方案提供商
AI工具ZeroTrusted.aiAI安全数据隐私合规性加密
ZeroTrusted.ai专注于网络安全和生成式AI安全,开发创新技术解决AI应用的关键挑战。其AI防火墙通过匿名化提示、版权风险验证和数据泄露防护等功能,全面保护用户身份和数据。公司汇聚网络安全、AI研究和道德计算领域的顶尖专家,致力于推动人工智能的安全、负责和高效应用。
wAnywhere - 智能化远程工作效率管理与监控系统
AI工具远程工作员工监控生产力AI安全协作工具
wAnywhere是一款智能桌面监控软件,为企业提供全面的远程工作解决方案。通过实时监控和数据可视化,分析员工生产力和合规性,优化远程工作效率。平台集成生产力监控、通信协作、安全合规等功能,适用于多种行业场景。wAnywhere旨在解决远程工作挑战,打造安全高效的远程办公环境。
Security-101 - 网络安全基础课程 从入门到实践构建安全防线
网络安全零信任身份管理风险管理AI安全Github开源项目
Security-101项目提供全面的网络安全基础课程,涵盖CIA三要素、风险管理、零信任等核心概念,以及身份管理、网络安全、安全运营等关键领域。课程分为30-60分钟的简洁小节,配有测验和延伸阅读,帮助初学者快速掌握网络安全基础知识,为深入学习奠定基础。
persuasive_jailbreaker - 人性化说服技巧挑战大语言模型安全边界
LLMAI安全说服技巧越狱攻击防御策略Github开源项目
本项目提出说服性对抗提示(PAP)方法,系统应用40种说服技巧攻击大语言模型。研究显示PAP对GPT-4等先进模型有92%成功率,且更强大的模型反而更易受影响。项目还探讨了防御策略,揭示人性化交互对AI安全的挑战,为增强大语言模型安全性提供新思路。
awesome-MLSecOps - 机器学习安全运维工具与资源精选MLSecOps实践指南
MLSecOpsAI安全机器学习开源工具攻击向量Github开源项目
该项目汇集了机器学习安全运维(MLSecOps)领域的开源工具、资源和教程。内容涵盖安全工具、数据保护、代码安全、攻击向量分析等多个方面,为从业者提供全面的参考资料。项目适合不同层次的MLSecOps实践者,有助于提升机器学习系统的整体安全性。
MiniLM-L12-H384-uncased_Nvidia-Aegis-AI-Safety - 基于MiniLM的多标签文本分类模型实现AI内容安全检测
AI安全MiniLMHuggingface模型深度学习Github开源项目自然语言处理文本分类
本模型基于MiniLM-L12-H384-uncased在Nvidia Aegis AI安全数据集上微调,可识别14类有害内容。在测试集上达到95.15%的准确率和66.83%的精确度。模型能够检测包括受管制物质、犯罪计划、欺诈、非法武器等多种有害内容,为AI系统的内容安全审核提供支持。
openchat-3.5-0106-gemma - OpenChat 3.5基于Gemma的强大语言模型新基准
模型训练开源项目Gemma模型模型AI安全Huggingface性能比较GithubOpenChat
OpenChat 3.5模型凭借C-RLFT技术在开源社区展示优异性能,其表现胜过Mistral版本以及Gemma-7b和Gemma-7b-it。多项测试如AGIEval和HumanEval验证了其卓越性能。建议使用OpenChat API服务器部署,需配置24GB内存GPU。需注意模型可能产生的信息幻觉和安全风险,适用于需安全响应的场景。更多信息可查看安装指南和使用案例。