Safe-Policy-Optimization

安全强化学习的全面算法基准平台

Safe-Policy-Optimization 安全强化学习算法基准 Safety-Gymnasium PKU-Alignment Github 开源项目

Safe-Policy-Optimization为安全强化学习(Safe RL)提供了全面的算法基准平台。该项目整合了多种算法和环境，支持单智能体和多智能体任务，具备正确性、可扩展性、日志记录和可视化等特性。通过统一的接口和详细文档，Safe-Policy-Optimization简化了安全RL算法的评估和比较流程，为研究人员提供了强大的实验工具。

访问官网

Github

介绍相关项目

polyaxon - 深度学习应用的全面管理平台

GithubPolyaxon分布式训练开源项目机器学习深度学习超参数调优

Polyaxon是一个旨在提升深度学习应用开发效率的平台，提供构建、训练和监控大规模深度学习应用的解决方案。兼容主流深度学习框架如Tensorflow、MXNet和Caffe等，并支持在数据中心、云提供商或由Polyaxon托管的环境中部署。Polyaxon通过智能容器和节点管理，使GPU服务器成为团队或组织的共享资源，提升工作效率。平台还提供详细的安装和快速入门指南，支持分布式训练和超参数优化等功能。

DRL-Pytorch - PyTorch实现的深度强化学习算法集合

DRL算法GithubPyTorch人工智能开源项目强化学习深度学习

DRL-Pytorch项目提供多种常用深度强化学习算法的PyTorch实现,包括Q-learning、DQN变体、PPO、DDPG、TD3和SAC等。代码结构清晰统一,便于研究人员和开发者比较不同算法。项目还包含详细使用说明、依赖列表和学习资源推荐,有助于快速入门和实践。

SimPO - 无需参考模型的简化优化算法

ArmoRMDPOGemmaGithubSimPOUltraFeedback开源项目

SimPO是一个无需参考模型的简化偏好优化算法，表现优于AlpacaEval 2、MT-Bench和Arena-Hard等多个基准。2024年7月更新发布的SimPO模型通过微调Google的gemma-2 9B模型，达成了72.4% AlapcaEval 2 LC胜率和59.1% Arena-Hard胜率。更多详情、训练脚本和数据生成脚本请访问SimPO的GitHub仓库。

AgentGym - 多环境下的广泛能力AI智能体进化平台

AgentGymGithub人工智能基准套件开源项目自我进化方法高质量轨迹集

AgentGym是一个框架，通过多种交互环境和统一任务格式，协助科研人员评估和开发具备广泛能力的语言模型智能体。平台支持实时反馈和并发操作，包含14种环境，如网页导航、文字游戏和家务任务。核心组成包括高质量的轨迹集AgentTraj和基准测试套件AgentEval，并提出了智能体自我进化方法AgentEvol。实验结果显示，进化后的智能体可与当前最先进的模型媲美。

UAV_Obstacle_Avoiding_DRL - 深度强化学习驱动的无人机自主避障算法研究

GithubUAV多智能体强化学习开源项目深度强化学习路径规划障碍物避障

本项目研究了深度强化学习在UAV自主避障中的应用，涵盖静态和动态环境。研究结合多智能体强化学习、人工势场法和扰动流场算法等创新技术，并与A*、RRT等传统路径规划方法进行对比。项目实现了MADDPG、TD3、PPO等多种算法，提供MATLAB和Python代码。仿真实验表明，深度强化学习方法在无人机障碍物避免任务中展现出优越性能，为自主导航技术发展提供了新思路。

envpool - 高性能并行强化学习环境执行引擎

EnvPoolGithub并行处理开源项目强化学习环境仿真高性能计算

EnvPool是一款基于C++的高性能并行强化学习环境引擎。它支持Atari、Mujoco等多种环境，提供同步和异步执行模式，适用于单玩家和多玩家场景。EnvPool易于集成新环境，在高端硬件上可达到每秒100万Atari帧或300万Mujoco步骤的模拟速度，比传统Python子进程方法快约20倍。作为通用解决方案，EnvPool可显著加速各类强化学习环境的并行化执行。

sheeprl - 基于PyTorch的强化学习框架支持多种算法和环境

GithubLightning FabricPyTorchSheepRL开源项目强化学习算法实现

SheepRL是一个基于PyTorch和Lightning Fabric的强化学习框架。它支持PPO、SAC、Dreamer等多种算法，以及Atari、MuJoCo、Minecraft等多种环境。该框架易用可扩展，实现了算法与环境的解耦，适用于广泛的强化学习任务。在部分基准测试中，SheepRL展现出与其他框架相当甚至更优的性能，为强化学习研究和开发提供了高效工具。

safeguards-shield - 增强人工智能应用的安全防护开发工具

GithubLLMsSafeguards Shield保护层安全风险工具包开源项目

Safeguards Shield是一个旨在安全、可靠使用大型语言模型(LLMs)的开发者工具包。本工具包提供保护层功能，能够防御恶意输入并过滤模型输出，使AI应用从原型快速转向生产阶段。此外，包含超过20种即用型检测器，为生成式AI(GenAI)应用提供全面的安全保障，并助力缓解LLM的可靠性与安全隐患。工具包还支持监控事件、成本及关于AI的责任指标，支持应用的长期发展。

sotopia - 开放式社交学习环境推动语言代理社交智能发展

GithubSotopia开放式平台开源项目社交学习环境社交智能评估语言代理

Sotopia是一个开放式社交学习环境，旨在评估和促进语言代理的社交智能。该平台支持代理间及代理与环境的交互，具有开放性和可扩展性。Sotopia为大规模代理和环境研究提供平台，推动社交智能领域的AI发展。项目在ICLR 2024获得聚光灯展示，凸显其在AI社交智能研究中的地位。

HandyRL - 高效实用的分布式强化学习框架

GithubHandyRLPyTorch分布式训练开源项目强化学习离线策略修正

HandyRL是一个基于Python和PyTorch的分布式强化学习框架，已在Kaggle竞赛中取得优异成绩。它采用离线策略修正的策略梯度算法和学习者-工作者架构，支持自定义环境和大规模训练。HandyRL的高并行能力和实用性使其在竞争性游戏AI开发中表现出色，能够快速训练出强大的AI模型。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号