awesome-data-catalogs
该项目收集了一系列精心挑选的数据目录和监控平台,帮助企业高效发现、管理和观察数据。通过综合列表,用户可以比较开源和专有工具的不同功能,如数据溯源、数据质量保障和数据协作,满足多样化的数据管理需求。
deltacat
DeltaCAT是一个基于Ray的Python数据目录系统,采用类Git的stage/commit API实现快速、可扩展、ACID兼容的数据目录管理。结合Ray分布式计算框架和Apache Arrow,DeltaCAT支持PB级数据变更捕获、一致性检查和表修复。该系统已在EB级企业数据湖中得到应用,为大规模数据管理提供解决方案。
geospatial-data-catalogs
本项目整合了主流云平台的地理空间数据目录,支持CSV和JSON格式输出,方便开发者快速检索和使用数据。通过每日更新和提供相关资源链接,确保用户能够获取最新、最全面的地理空间数据信息。
Secoda
Secoda是一款集成数据目录、可观察性和治理功能的AI驱动平台。它提供强大的搜索能力,便于用户快速找到并理解公司数据。该平台整合多种数据工具,支持自动生成数据血缘关系和监控数据质量。Secoda致力于提升企业数据资产管理和利用效率,同时保障数据安全与合规。适用于不同数据角色,支持自助数据分析,为现代数据团队提供全面解决方案。
kedro
Kedro是一个开源Python框架,为生产环境中的数据科学项目提供支持。该框架整合了软件工程最佳实践,用于构建可重现、易维护和模块化的数据工程及科学管道。Kedro特性包括标准化项目模板、多功能数据目录、管道抽象、严格的编码规范以及灵活的部署选项。框架致力于促进团队协作,提升工作效率,并推动可复用分析代码的开发。Kedro尤其适合处理大规模原始数据的实际机器学习应用,有效克服了Jupyter笔记本和单次脚本的局限性。
datahub
DataHub是一款开源数据目录平台,为现代数据栈提供全面的元数据管理。它支持数据发现、治理、血缘分析,集成多种数据源,并具备实时更新能力。DataHub采用灵活的元数据模型,支持GraphQL API,易于扩展和集成。通过提升数据资产的可见性和可用性,DataHub为数据团队创造价值。