aistore - 分布式存储系统专为AI与PB级深度学习优化

AIStore是一个轻量级对象存储系统，具有随每个添加的存储节点线性扩展的能力，并特别关注PB级深度学习。

许可证

AIStore（简称AIS）是一个从零开始构建的轻量级存储栈，专为AI应用程序量身定制。它是一个弹性集群，可以在运行时增长和收缩，可以临时部署，无论是否使用Kubernetes，从单个Linux机器到任何规模的裸机集群都可以。

AIS在任意数量的集群节点上始终表现出平衡的I/O分布和线性可扩展性。每添加一个磁盘就能线性扩展的能力一直是主要动机之一。初始设计的很大一部分也源于卸载自定义数据集转换（通常称为ETL）的想法。最后，由于AIS是一个聚合Linux机器以提供用户数据存储的软件系统，最重要的要求就是可靠性和数据保护。

特性

可在任何地方部署。AIS集群可以在任何商用硬件、任何Linux机器上立即部署。
高可用性的控制和数据平面，端到端数据保护，自我修复，n路镜像，纠删码，以及任意数量的极轻量级访问点。
REST API。全面的原生基于HTTP的API，以及兼容的Amazon S3 API，可运行未经修改的S3客户端和应用程序。
跨多个远程后端的统一命名空间，包括Amazon S3、Google Cloud和Microsoft Azure。
集群网络。任何AIS集群都可以附加任何其他AIS集群，从而立即获得对各自托管数据集的可见性和快速访问。
即用型缓存。可用作独立的高可用受保护存储和/或基于LRU的快速缓存。驱逐水位线以及许多其他管理策略都是按桶可配置的。
ETL卸载。能够在靠近数据的地方运行I/O密集型自定义数据转换 - 离线（数据集到数据集）和内联（即时）。
文件数据集。AIS可以立即从任何基于文件的数据源（本地或远程，临时/按需或通过异步批处理）填充。
读后写一致性。读取和写入（以及所有其他控制和数据平面操作）可以通过任何（随机、选定或负载均衡的）AIS网关（又称"代理"）执行。一旦对象的第一个副本被写入并_最终确定_，后续的读取保证会看到相同的内容。如果配置了额外的副本和/或EC切片，则通过put-copies和ec-put作业异步添加。
直写。在存在任何远程后端的情况下，AIS执行远程写入（例如，使用供应商的SDK）作为放置和_最终确定_第一个副本的事务的一部分。
小文件数据集。为了序列化小文件并促进批处理，AIS支持TAR、TAR.GZ（或TGZ）、ZIP和TAR.LZ4格式的对象（通常称为_分片_）。重新分片（以实现最佳排序和大小调整）、列出包含的文件（样本）、向现有分片追加以及从现有对象和/或客户端文件生成新分片 - 也完全支持。
Kubernetes。通过单独的GitHub 仓库和AIS/K8s操作符提供简单的Kubernetes部署。
访问控制。为了安全性和细粒度访问控制，AIS包括符合OAuth 2.0的身份验证服务器（AuthN）。单个AuthN实例通过HTTPS执行CLI请求，并可以为多个集群提供服务。
用于大规模并行重新分片非常大数据集的分布式洗牌扩展。
批处理作业。用于启动、停止和监控记录的批处理操作的API和CLI，如prefetch、download、复制或转换数据集等。

为了便于使用、管理和监控，还有：

集成且强大的CLI。截至2024年初，顶级CLI命令包括：

$ ais

bucket        etl         help           log              create        dsort        stop         blob-download
object        job         advanced       performance      download      evict        cp           rmo
cluster       auth        storage        remote-cluster   prefetch      get          rmb          wait
config        show        archive        alias            put           ls           start        search

AIS在Kubernetes上原生运行，并具有开放格式 - 因此，您可以随时使用熟悉的Linux tar(1)、scp(1)、rsync(1)等工具自由地从AIS复制或移动数据。

对于开发人员和数据科学家，还有：

原生Go（语言）API，我们在包括CLI和负载生成器在内的各种工具中使用；
原生Python SDK
- Python SDK参考指南
PyTorch集成及使用示例
Boto3支持，用于与AWS SDK for Python（又称Boto3）客户端的互操作性
- 以及其他Botocore衍生品。

有关原始AIStore白皮书和设计理念、大规模深度学习介绍以及最近添加的功能，请参阅AIStore概述（您还可以在其中找到处理现有数据集的六种替代方法）。视频和动画演示可在视频中找到。

最后，入门AIS只需几分钟。

部署选项

AIS部署选项以及预期用途（开发、生产或首次使用）都在此处总结。

由于先决条件基本上只需要有带磁盘的Linux，因此部署选项范围从一体化容器到任意规模的PB级裸机集群，从单个虚拟机到多个机架的高端服务器。但实际用例当然需要进一步考虑，可能包括：

选项	目标
本地游乐场	AIS开发人员或首次用户，Linux或Mac OS；要开始，运行`make kill cli aisloader deploy <<< $'N\nM'`，其中`N`是目标的数量，`M`是网关的数量
最小生产就绪部署	此选项使用预安装的docker镜像，针对首次用户或研究人员（他们可以立即开始在较小的数据集上训练模型）
简易自动GCP/GKE部署	开发人员、首次用户、AI研究人员
大规模生产部署	需要Kubernetes，通过单独的仓库提供：ais-k8s

此外，还有一种称为全局命名空间的功能：给定HTTP(S)连接，AIS集群可以轻松互连以"看到"彼此的数据集。因此，有一个从"小"开始逐步增量构建高性能共享容量的想法。

有关支持的部署的详细讨论，请参阅入门。

有关性能调优和准备AIS节点进行裸机部署，请参阅性能。

现有数据集

AIStore支持多种方式来用现有数据集填充自身，包括（但不限于）：

按需，通常在第一个epoch期间；
复制整个存储桶或其选定的虚拟子目录；
复制多个匹配的对象；
归档多个对象
预取远程存储桶或其部分内容；
下载原始http(s)可寻址目录，包括（但不限于）云存储；
提升一个或多个（或所有）AIS 目标节点可访问的NFS或SMB共享；

按需"方式"可能是最流行的，用户只需开始针对远程存储桶运行其工作负载，将AIS集群定位为中间快速层。

但还有更多。在v3.22中，我们引入了blob下载器，这是一个特殊设施，用于下载非常大的远程对象（BLOB）。在v3.23中，有一个新功能，称为存储桶清单，可以快速列出非常大的S3存储桶。

从发布二进制文件安装

通常，AIStore（集群）至少需要某种部署过程。不过，有一些独立的二进制文件可以从源代码构建或直接从GitHub安装：

$ ./scripts/install_from_binaries.sh --help

该脚本从最新或之前的GitHub 发布安装aisloader和CLI。对于CLI，它还将启用自动完成功能（强烈推荐）。

PyTorch集成

PyTorch集成是一组不断增长的数据集（可迭代和映射风格）、采样器和数据加载器：

由于AIS原生支持远程后端，您还可以使用（PyTorch + AIS）来遍历Amazon S3、GCS和Azure存储桶等。

指南和参考

入门指南
技术博客
API和SDK
- Go语言API
- Python SDK，以及：
  - pip包
  - 参考指南
- REST API
  - 易用URL
亚马逊S3
命令行界面
安全和访问控制
- 认证服务器（AuthN）
强大工具和扩展
基准测试和性能调优
存储桶和后端提供商
- 后端提供商
- 存储桶
存储服务
集群管理
配置
可观察性
面向用户和开发者
- 入门指南
- Docker
- 实用脚本
- 性能分析、竞态检测等
批处理作业
- 批处理操作
- 扩展操作（xactions）
- CLI：ais job和ais show job，包括：
其他主题

许可证

MIT

作者

Alex Aizman (NVIDIA)