#数据管理

amundsen - 开源数据发现和元数据引擎 提高数据分析生产力
Amundsen数据发现元数据引擎开源项目数据管理Github
Amundsen是一个开源数据发现和元数据管理平台,通过索引数据资源并提供基于使用模式的搜索功能,帮助数据团队提高工作效率。该平台支持多种数据源集成,包括数据库、仪表盘和ETL工具,为用户提供全面的数据资产视图。Amundsen的核心功能类似于数据资源的搜索引擎,让数据分析师和工程师能够快速找到所需的数据。
awesome-opensource-data-engineering - 全面的数据工程开源项目资源库
开源数据工程数据处理数据分析数据管理Github开源项目
该资源库汇集了数据工程领域的开源项目,覆盖数据分析、业务智能、数据湖和数据治理等方面。包含Apache Spark、Flink等分析工具,Debezium、Kafka等数据捕获和消息系统,以及各种数据格式、集成工具和工作流管理系统。为数据工程实践提供了全面的开源解决方案参考。
metaclip-b16-fullcc2.5b - CLIP训练数据解构与MetaCLIP模型应用
图像分类HuggingfaceCommonCrawl开源项目模型Hugging FaceGithubMetaCLIP数据管理
MetaCLIP模型利用25亿个CommonCrawl数据点,在共享嵌入空间中实现图像与文本的链接应用。实现零样本图像分类、文本驱动的图像检索及图像驱动的文本检索。《Demystifying CLIP Data》论文揭示了CLIP数据训练方法,促进多模态应用发展。