🔥 在任何云之间进行极速大规模数据传输 🔥
Skyplane 是一个用于在云端对象存储之间进行极速大规模数据传输的工具。它在云端配置一组虚拟机,通过并行传输数据,同时利用压缩和带宽分层来降低成本。
Skyplane具有以下特点:
- 🔥 传输速度极快(比AWS DataSync快110倍)
- 🤑 成本低廉(比rsync便宜4倍)
- 🌐 通用性强(支持AWS、Azure、IBM和GCP)
你可以使用Skyplane进行以下数据传输:
- 在同一云服务提供商内的对象存储之间(例如AWS us-east-1到AWS us-west-2)
- 在不同云服务提供商的对象存储之间(例如AWS us-east-1到GCP us-central1)
- 在本地存储和云对象存储之间(实验性功能)
Skyplane目前支持以下源端点和目标端点(可以组合任意源端点和目标端点):
端点 | 源 | 目标 |
---|---|---|
AWS S3 | :white_check_mark: | :white_check_mark: |
Google Storage | :white_check_mark: | :white_check_mark: |
Azure Blob Storage | :white_check_mark: | :white_check_mark: |
IBM Cloud Object Storage | :white_check_mark: | :white_check_mark: |
本地磁盘 | :white_check_mark: | (开发中) |
Skyplane是一个积极开发的项目。它可能会有一些🔪 棘手的问题 🔪。如果遇到bug,请提交issue或通过我们Slack上的#help频道询问贡献者。
资源
快速入门
1. 安装
我们推荐通过PyPi安装:
$ pip install "skyplane[aws]"
# 根据需要安装其他云的支持:
# $ pip install "skyplane[azure]"
# $ pip install "skyplane[gcp]"
# $ pip install "skyplane[ibmcloud]"
# $ pip install "skyplane[all]"
Skyplane支持AWS、Azure、IBM和GCP。你可以通过指定相应的extras来安装Skyplane,以支持一个或多个云。要安装其中两个云的支持,可以运行 pip install "skyplane[aws,azure]"
。
M1 Mac上的GCP支持:如果你使用的是arm64架构的M1 Mac,并想为Skyplane安装GCP支持,你需要按以下方式安装:
GRPC_PYTHON_BUILD_SYSTEM_OPENSSL=1 GRPC_PYTHON_BUILD_SYSTEM_ZLIB=1 pip install "skyplane[aws,gcp]"
2. 设置云凭证
Skyplane需要访问云凭证来执行传输。要开始设置凭证,请确保已安装云服务提供商的CLI工具:
---> 对于AWS:
$ pip install awscli
---> 对于Google Cloud:
$ pip install gcloud
---> 对于Azure:
$ pip install azure
设置好CLI工具后,登录每个云服务提供商的CLI:
---> 对于AWS:
$ aws configure
---> 对于Google Cloud:
$ gcloud auth application-default login
---> 对于Azure:
$ az login
---> 对于IBM Cloud:
$ 按照IBM Cloud的指引创建一个带有资源组的账户。
将https://github.com/skyplane-project/skyplane/blob/main/skyplane/compute/ibmcloud/ibm_credentials.yaml.template
复制到`~/.bluemix/ibm_credentials`,并填写您的
IBM IAM密钥和IBM Cloud对象存储的凭证
---> 对于SCP:
$ # 如有需要,创建目录
$ mkdir -p ~/.scp
$ # 将"access_key"、"secret_key"和"project_id"的行添加到scp_credential文件中
$ echo "access_key = <您的访问密钥>" >> ~/.scp/scp_credential
$ echo "secret_key = <您的秘密密钥>" >> ~/.scp/scp_credential
$ echo "project_id = <您的项目ID>" >> ~/.scp/scp_credential
在通过每个云服务提供商的身份验证后,您可以运行skyplane init
为Skyplane创建配置文件。
$ skyplane init
skyplane init输出
$ skyplane init
====================================================
_____ _ ____ _______ _ ___ _ _ _____
/ ___| | / /\ \ / / ___ \ | / _ \ | \ | || ___|
\ `--.| |/ / \ V /| |_/ / | / /_\ \| \| || |__
`--. \ \ \ / | __/| | | _ || . ` || __|
/\__/ / |\ \ | | | | | |____| | | || |\ || |___
\____/\_| \_/ \_/ \_| \_____/\_| |_/\_| \_/\____/
====================================================
(1) 配置AWS:
从AWS CLI加载了AWS凭证[IAM访问密钥ID: ...XXXXXX]
AWS区域配置文件已保存至/home/ubuntu/.skyplane/aws_config
(2) 配置Azure:
在Azure CLI中找到Azure凭证
找到Azure凭证,是否要在Skyplane中启用Azure支持?[Y/n]: Y
输入Azure订阅ID: [XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX]:
Azure区域配置文件已保存至/home/ubuntu/.skyplane/azure_config
查询各区域的SKU可用性
Azure SKU可用性已缓存至/home/ubuntu/.skyplane/azure_sku_mapping
(3) 配置GCP:
在GCP CLI中找到GCP凭证
找到GCP凭证,是否要在Skyplane中启用GCP支持?[Y/n]: Y
输入GCP项目ID [XXXXXXX]:
GCP区域配置文件已保存至/home/ubuntu/.skyplane/gcp_config
(4) 配置SCP:
从scp_credntial文件加载了SCP凭证[访问密钥: ...XXXXXX]
SCP区域配置文件已保存至/home/ubuntu/.skyplane/scp_config
配置文件已保存至/home/ubuntu/.skyplane/config
3. 运行传输
我们已准备好使用Skyplane!让我们使用skyplane cp
将文件从AWS复制到GCP:
skyplane cp s3://... gs://...
要仅传输新对象,您可以改用skyplane sync
:
$ skyplane sync s3://... gs://...
您可以使用-n
标志配置Skyplane在每个区域使用更多VM。例如,要使用两个VM将传输速度翻倍,请运行:
$ skyplane cp -r s3://... s3://... -n 2
4. 清理
Skyplane会自动尝试终止它启动的VM,但为了再次检查并强制终止所有VM,请运行skyplane deprovision
。
技术细节
Skyplane基于UC Berkeley对云服务提供商之间加速网络的研究。在底层,Skyplane在源和目标区域启动一组VM。然后,它使用自定义TCP协议来加速VM之间的传输。Skyplane可能使用L7覆盖网络来绕过拥塞的网络热点。
有关Skyplane的更多详细信息,请参阅: