#数据目录
awesome-data-catalogs - 数据目录和可观测性平台列表
DataHubAmundsen数据管理数据发现数据目录Github开源项目
该项目收集了一系列精心挑选的数据目录和监控平台,帮助企业高效发现、管理和观察数据。通过综合列表,用户可以比较开源和专有工具的不同功能,如数据溯源、数据质量保障和数据协作,满足多样化的数据管理需求。
deltacat - 基于Ray的分布式数据目录管理系统
DeltaCAT数据目录Ray分布式计算数据湖Github开源项目
DeltaCAT是一个基于Ray的Python数据目录系统,采用类Git的stage/commit API实现快速、可扩展、ACID兼容的数据目录管理。结合Ray分布式计算框架和Apache Arrow,DeltaCAT支持PB级数据变更捕获、一致性检查和表修复。该系统已在EB级企业数据湖中得到应用,为大规模数据管理提供解决方案。
geospatial-data-catalogs - 地理空间数据集目录汇总工具
地理空间数据云计算平台开放数据STAC数据目录Github开源项目
本项目整合了主流云平台的地理空间数据目录,支持CSV和JSON格式输出,方便开发者快速检索和使用数据。通过每日更新和提供相关资源链接,确保用户能够获取最新、最全面的地理空间数据信息。
Secoda - 全方位AI数据管理平台助力企业数据资产优化
AI工具数据目录元数据管理数据治理数据可观察性数据血缘
Secoda是一款集成数据目录、可观察性和治理功能的AI驱动平台。它提供强大的搜索能力,便于用户快速找到并理解公司数据。该平台整合多种数据工具,支持自动生成数据血缘关系和监控数据质量。Secoda致力于提升企业数据资产管理和利用效率,同时保障数据安全与合规。适用于不同数据角色,支持自助数据分析,为现代数据团队提供全面解决方案。
kedro - 生产级数据科学与工程管道框架
Kedro数据科学管道抽象数据目录项目模板Github开源项目
Kedro是一个开源Python框架,为生产环境中的数据科学项目提供支持。该框架整合了软件工程最佳实践,用于构建可重现、易维护和模块化的数据工程及科学管道。Kedro特性包括标准化项目模板、多功能数据目录、管道抽象、严格的编码规范以及灵活的部署选项。框架致力于促进团队协作,提升工作效率,并推动可复用分析代码的开发。Kedro尤其适合处理大规模原始数据的实际机器学习应用,有效克服了Jupyter笔记本和单次脚本的局限性。
datahub - 现代数据栈的开源元数据管理平台
DataHub数据发现平台元数据管理开源项目数据目录Github
DataHub是一款开源数据目录平台,为现代数据栈提供全面的元数据管理。它支持数据发现、治理、血缘分析,集成多种数据源,并具备实时更新能力。DataHub采用灵活的元数据模型,支持GraphQL API,易于扩展和集成。通过提升数据资产的可见性和可用性,DataHub为数据团队创造价值。