#Spark

mleap - 快速部署机器学习流水线与算法的实用工具包
MLeapSparkScikit-learn机器学习数据管道性能Github开源项目
MLeap提供高性能、便携、易于集成的生产库,支持将Spark和Scikit-learn的机器学习流水线导出为便携格式并执行。通过其执行引擎和序列化格式,数据科学家和工程师可以无需依赖Spark或Scikit-learn环境,将数据流水线和算法轻松部署到生产环境中。MLeap支持多种序列化格式(如JSON、Protobuf),并与现有技术高度集成,提供用户灵活定制数据类型和转换器的能力。
spark-cassandra-connector - Apache Spark与Apache Cassandra的高性能集成连接器
SparkCassandra数据连接器大数据分布式计算Github开源项目
spark-cassandra-connector是一个开源连接器,实现了Apache Spark和Apache Cassandra的集成。它允许将Cassandra表作为Spark RDD和Dataset/DataFrame使用,支持数据的双向读写。该连接器兼容多个Spark和Cassandra版本,支持复杂数据类型和查询优化,并提供丰富的API。最新版本引入了向量类型支持,增强了AI和RAG数据处理能力。
Spark Mail - 跨平台智能电子邮件工具助力提升工作效率
AI工具Spark电子邮件生产力协作隐私
Spark Mail是一款跨平台电子邮件客户端,专注于提升用户工作效率。该应用通过智能收件箱、优先级标记和群组发件人等功能过滤干扰信息,帮助用户专注于重要内容。Spark Mail还提供团队协作工具,支持实时编辑和任务委派,同时注重用户隐私和数据安全。此外,Spark Mail还集成了AI驱动的邮件写作助手,帮助用户快速撰写完美邮件。
batch-processing-gateway - 简化Spark在Kubernetes上的部署和管理
Batch Processing GatewaySparkKubernetesREST APIS3Github开源项目
Batch Processing Gateway是一个开源项目,旨在简化Spark在Kubernetes环境中的运行。通过提供直观的API接口,用户可以轻松提交、检查和删除Spark应用,而无需深入了解底层细节。该项目支持多Spark集群配置,实现水平扩展,并提供基于队列和权重的智能路由机制。此外,它还具备应用日志管理和用户授权等功能,适用于构建和管理大规模Spark服务。
overwatch - Databricks平台的数据洞察与治理工具
OverwatchDatabricksSpark数据分析telemetryGithub开源项目
Overwatch是Databricks Labs开发的开源项目,专为Databricks统一分析平台设计。通过整合Spark和Databricks平台的遥测数据,Overwatch提供关键洞察,实现平台治理和智能分析。它帮助用户深入了解Databricks部署情况,提升运营效率和决策能力。作为一个用于探索和优化数据基础设施的工具,Overwatch为Databricks用户提供了宝贵的支持。