LakeSoul - 在云存储上为 BI 和 AI 应用程序提供快速数据摄取、并发更新和增量数据分析的Lakehouse框架

LakeSoul 项目介绍

LakeSoul 是一个云原生的开源数据湖框架，致力于提供高效的元数据管理、ACID事务支持、灵活的增改操作、模式演化以及流批一体处理能力。LakeSoul 支持多种计算引擎，包括 Spark、Flink、Presto 和 PyTorch，可以灵活地进行批处理、流处理、大规模并行处理和人工智能计算。它还兼容多种存储系统，如 HDFS 和 S3。

项目背景

LakeSoul 最初由 DMetaSoul 公司创建，并在 2023 年 5 月捐赠给 Linux 基金会的人工智能与数据组，成为它的一个沙盒项目。

核心功能

元数据管理和事务支持：通过使用 PostgreSQL，LakeSoul 实现了可扩展的元数据管理和 ACID 事务控制。
增补操作和并发更新：采用类似于 LSM-Tree 的结构支持基于哈希分区表的更新，并实现高效的写入吞吐量。
多计算框架支持：通过使用 C/Java/Python 接口，支持与大数据和人工智能框架的连接。
数据隔离和权限管理：支持多工作空间和基于 PostgreSQL 的访问控制，并结合 Hadoop 用户和组来实现物理数据隔离。
数据清理和维护自动化：支持自动分层压缩、表生命周期维护和冗余数据清理以降低运营成本。

技术特性

实时数据仓库构建：支持 CDC 语义和自动模式演化，具有精确一次处理保证。
多种计算模式支持：支持批处理和流处理的并发读写。
快照读取和回滚：允许进行快照读取（时间旅行）、快照回滚以及增量查询。
与多种工具的集成：
- Spark 集成，提供 Dataframe 和 SQL 支持。
- Flink 集成，支持 CDC（变更数据捕获）流式摄取。
- Hive 集成和实时数据仓库功能，支持 Apache Kyuubi。

未来规划

数据科学和人工智能支持：增强对 Python 和 PyTorch 的支持。
SQL 支持增强：计划在 SQL 中更好地支持复杂的合并操作。
云与本地化 IO 优化：包括对象存储 IO 优化和多层存储类的支持。

社区参与

LakeSoul 欢迎社区的反馈和贡献。如果有任何问题或建议，可以通过社区渠道进行讨论和贡献。该项目在 Apache 许可证 v2.0 下开源。

这个项目提供了一套强大而灵活的工具集合，帮助企业和开发者构建高效的流批一体化数据湖仓库解决方案。无论是在大数据分析还是人工智能场景中，LakeSoul 都能够提供全方位的支持。