#数据湖
incubator-xtable - 实现数据湖互操作性的跨表格式转换工具
Apache XTable数据格式转换数据湖开源跨表转换器Github开源项目
Apache XTable™ (Incubating)是一款开源的跨表格式转换工具,支持Apache Hudi、Apache Iceberg和Delta Lake等主流表格式。它采用通用表示模型,简化数据湖操作,允许用户以单一格式写入数据,同时利用其他格式的集成功能。XTable™支持自定义转换器和目录配置,为数据处理系统和查询引擎提供全面互操作性,提高数据湖管理效率。
deltacat - 基于Ray的分布式数据目录管理系统
DeltaCAT数据目录Ray分布式计算数据湖Github开源项目
DeltaCAT是一个基于Ray的Python数据目录系统,采用类Git的stage/commit API实现快速、可扩展、ACID兼容的数据目录管理。结合Ray分布式计算框架和Apache Arrow,DeltaCAT支持PB级数据变更捕获、一致性检查和表修复。该系统已在EB级企业数据湖中得到应用,为大规模数据管理提供解决方案。