#PySpark
Gather-Deployment - Python 部署、基础设施与实践指南
TensorflowFlaskDockerKafkaPySparkGithub开源项目
详细介绍Python部署与基础设施的内容,包括Tensorflow部署、简单后端、Apache技术栈、数据管道与实时ETL。涵盖Flask, Docker, Kafka, PySpark, PyFlink等多种技术和工具,并包含单元测试、压力测试、监控和映射方案,让开发者全面了解Python在实际应用中的场景。
fugue - 统一的分布式计算框架 支持多种执行引擎
Fugue分布式计算数据处理PySparkSQLGithub开源项目
Fugue是一个统一的分布式计算框架,支持在Spark、Dask和Ray等多种执行引擎上运行Python、Pandas和SQL代码。它可以轻松将现有Python和Pandas代码扩展到分布式环境,并通过FugueSQL在不同数据框架上构建端到端工作流。Fugue提供简洁的API和增强的SQL语法,实现了执行引擎的无缝切换,提高了大规模数据处理的效率和灵活性。
tempo - Databricks上的时间序列数据处理工具库
Tempo时间序列DatabricksPySpark数据处理Github开源项目
Tempo是一个基于PySpark的开源时间序列数据处理工具库。它为Databricks上的数据团队提供了一套抽象和函数,简化了时间序列数据的操作和分析。Tempo扩展了PySpark的功能,通过易用的API支持复杂的时间序列分析任务。这个工具库适用于需要在大规模数据集上进行高效时间序列处理的场景。