开放AI平台（OpenPAI）

自v1.8.1版本发布以来，OpenPAI已经进入稳定模式，暂无重大功能发布计划。为了节省维护成本，我们将仓库改为只读模式。如需合作，请直接联系仓库管理员。

随着v1.0版本的发布，OpenPAI正在切换到更加健壮、强大且轻量级的架构。OpenPAI还变得越来越模块化，以便平台能够轻松定制和扩展以满足新需求。OpenPAI还提供了许多AI友好功能，使终端用户和管理员更容易完成日常的AI任务。

何时考虑OpenPAI

该平台整合了经过微软大规模生产环境验证的成熟设计。

OpenPAI是一个全栈解决方案。OpenPAI不仅支持本地部署、混合部署或公有云部署，还支持单机部署以供试用。

预构建了流行AI框架的Docker。易于包含异构硬件。支持分布式训练，如分布式TensorFlow。

OpenPAI是深度学习的最完整解决方案，支持虚拟集群，兼容Kubernetes生态系统，在一个集群上完成整个训练流程等。OpenPAI的架构是模块化的：不同模块可以根据需要插入。这里是OpenPAI的架构，突出平台的技术创新。

OpenPAI管理计算资源，并针对深度学习进行了优化。通过Docker技术，计算硬件与软件解耦，使得分布式作业、深度学习框架切换或其他类型作业在一致的环境中容易运行。

作为一个平台，OpenPAI通常有两种不同的角色：

OpenPAI为集群用户和管理员提供了端到端的手册。

管理员手册是集群管理员的综合指南，涵盖（但不限于）以下内容：

安装和升级。安装基于Kubespray，这里是系统要求。OpenPAI提供了一个安装指南以便于安装。

如果您正在考虑从旧版本升级到最新的v1.0.0，请参阅下表以简要比较v0.14.0和v1.0.0。关于升级注意事项的更多详细信息，请参阅升级指南。

如果在部署期间有任何问题，请先检查安装常见问题及故障排除。如果尚未涵盖，请参阅这里提出问题或提交问题。

用户手册是集群用户的指南，用户可以在OpenPAI上训练和服务深度学习（及其他）任务。

作业提交和监控。快速入门教程是学习如何在OpenPAI上训练模型的良好起点。更多示例和对多个主流框架（开箱即用docker镜像）的支持在这里。OpenPAI还提供了对良好调试性和高级作业功能的支持。
数据管理。用户可以在作业中使用集群提供的存储和自定义存储。集群提供的存储集成良好，并且易于在作业中配置(参见此处)。
协作和共享。OpenPAI为团队和组织之间的协作提供了便利。集群提供的存储按团队（组）组织，用户可以轻松在市场上共享他们的工作（例如作业），其他人可以通过一键轻松发现和复现（克隆）。除了网络门户，OpenPAI 还提供了 VS Code 扩展和命令行工具（预览版）。VS Code扩展是一个友好的基于GUI的OpenPAI客户端工具，强烈推荐使用。它是Visual Studio Code的扩展。它可以提交作业、本地模拟作业、管理多个OpenPAI环境等。