DeltaCAT
DeltaCAT是一个由Ray驱动的Python风格数据目录。
其数据存储模型允许您通过类似git的暂存/提交API定义和管理快速、可扩展、符合ACID的数据目录,并已成功用于托管Exabyte级企业数据湖。
DeltaCAT结合Ray分布式计算框架和Apache Arrow,用于常见的表管理任务,包括PB级变更数据捕获、数据一致性检查和表修复。
入门
安装
pip install deltacat
运行测试
pip3 install virtualenv
virtualenv test_env
source test_env/bin/activate
pip3 install -r requirements.txt
pytest