#PySpark

Gather-Deployment - Python 部署、基础设施与实践指南

TensorflowFlaskDockerKafkaPySparkGithub开源项目

详细介绍Python部署与基础设施的内容，包括Tensorflow部署、简单后端、Apache技术栈、数据管道与实时ETL。涵盖Flask, Docker, Kafka, PySpark, PyFlink等多种技术和工具，并包含单元测试、压力测试、监控和映射方案，让开发者全面了解Python在实际应用中的场景。

fugue - 统一的分布式计算框架支持多种执行引擎

Fugue分布式计算数据处理PySparkSQLGithub开源项目

Fugue是一个统一的分布式计算框架，支持在Spark、Dask和Ray等多种执行引擎上运行Python、Pandas和SQL代码。它可以轻松将现有Python和Pandas代码扩展到分布式环境，并通过FugueSQL在不同数据框架上构建端到端工作流。Fugue提供简洁的API和增强的SQL语法，实现了执行引擎的无缝切换，提高了大规模数据处理的效率和灵活性。

tempo - Databricks上的时间序列数据处理工具库

Tempo时间序列DatabricksPySpark数据处理Github开源项目

Tempo是一个基于PySpark的开源时间序列数据处理工具库。它为Databricks上的数据团队提供了一套抽象和函数，简化了时间序列数据的操作和分析。Tempo扩展了PySpark的功能，通过易用的API支持复杂的时间序列分析任务。这个工具库适用于需要在大规模数据集上进行高效时间序列处理的场景。

相关文章

Article Cover

Gather-Deployment: Python部署、基础设施和实践的综合集合

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号