#分布式计算

ray - 全面扩展AI和Python应用的统一框架
Ray分布式计算机器学习Python人工智能Github开源项目热门
Ray是一个统一的框架,专门用于扩展AI和Python应用。它包含一个核心分布式运行时和一套AI库,用于简化机器学习计算。无论是在单机还是集群上,Ray都能让相同的代码无缝扩展。此外,Ray支持各种机器、云服务提供商和Kubernetes,且拥有日益增长的社区生态系统。此框架易于安装,只需执行简单的命令即可:'pip install ray'。
higgsfield - 高容错且可扩展的GPU调度与机器学习框架
HiggsfieldGPU管理大模型训练分布式计算深度学习Github开源项目
Higgsfield是一款开源、高容错、可扩展的GPU调度与机器学习框架,适用于数十亿到数万亿参数的模型(如大型语言模型)。它的主要功能包括分配计算资源、支持高效分片、启动和监控大规模神经网络训练、管理资源竞争,并通过与GitHub的集成实现持续集成。Higgsfield简化了大规模模型训练的流程,提供了多样且强大的开发工具。
ray-educational-materials - 提供Ray的教育资源,帮助规模化Python和机器学习任务
Python教育材料Github开源项目Ray分布式计算机器学习
提供丰富的教育资源,专注于Ray分布式计算框架,帮助扩展Python和机器学习任务,从笔记本电脑到集群处理。课程内容涵盖Ray核心功能、AI运行时、计算机视觉和NLP模型优化等,适合各层次学习者。加入社区,探索文档、参与讨论、提出问题和贡献代码,提升开发体验。
dask-sql - 分布式SQL查询引擎,结合Python轻松扩展计算
Dask-SQLPythonSQL分布式计算GPU支持Github开源项目
dask-sql是一个分布式SQL查询引擎,结合Python和SQL,支持无限扩展计算。通过pip或conda安装,可与Jupyter Notebook或BI工具集成,并支持CUDA GPU查询加速。dask-sql支持多种数据格式和存储位置,通过UDFs增强查询能力,适用于本地和云端大规模计算。详细信息请参考官方文档。
mars - 多库支持的张量计算框架
Mars数据计算分布式计算TensorDataFrameGithub开源项目
Mars是一种基于张量的统一框架,支持大规模数据计算,兼容Numpy、Pandas、Scikit-learn等多个库。无论是单机还是集群环境,Mars都能简化数据处理工作。它提供了详细的安装指南、架构概览和多种使用模式,并与TensorFlow、PyTorch等库深度集成,显著提升计算效率。更多安装和使用信息,请参阅文档。
xla - 提升深度学习模型训练与推理效率的开源工具
PyTorch/XLATPU深度学习分布式计算Google CloudGithub开源项目
PyTorch/XLA 是一个将 PyTorch 深度学习框架与 XLA 编译器及 Cloud TPUs 连接的 Python 包,提供高效的训练和推理解决方案。用户可以通过 Kaggle 免费试用,并安装支持 TPU 和 GPU 的插件包。项目提供详细的文档和教程,包括使用指南、性能调优方法和 Docker 镜像使用说明。鼓励用户通过 issue 提交反馈和建议,欢迎开源贡献。
Awesome-System-for-Machine-Learning - 机器学习系统研究资源汇总
Machine LearningAI系统分布式计算大数据自动化机器学习Github开源项目
此项目汇集了机器学习系统研究的丰富资源,包括数据处理、训练系统和推理系统的开源代码与论文。项目由专门团队维护并定期更新,提供书籍、视频、课程和博客等学习材料,还推荐多篇系统设计的必读白皮书和研究论文,适合各个学习阶段。
bacalhau - 高效的分布式计算框架
Bacalhau分布式计算云计算数据处理安全计算Github开源项目
Bacalhau是一个分布式计算平台,可以在数据生成和存储的位置执行任务,从而实现高效、安全的计算。支持Docker容器、WebAssembly (wasm)镜像和任意二进制文件作为任务运行,无需大量重写代码,简化现有工作流程。其特点包括快速作业处理、低成本、安全和大规模数据处理,利用边缘计算的闲置资源减少传输成本,通过精细的权限模型保护数据安全。
kuberay - 简化Kubernetes上Ray应用的部署与管理
KubeRayKubernetesRay分布式计算机器学习Github开源项目
KubeRay是开源的Kubernetes operator,专为简化Ray应用在Kubernetes上的部署和管理而设计。它提供RayCluster、RayJob和RayService三种自定义资源,实现集群生命周期管理、自动扩缩容和容错。KubeRay还包含社区维护的API服务器、Python客户端和命令行工具,提供全面的Ray集群管理功能。适用于机器学习、服务部署和批处理等场景,并与多种云原生生态系统工具集成。
deltacat - 基于Ray的分布式数据目录管理系统
DeltaCAT数据目录Ray分布式计算数据湖Github开源项目
DeltaCAT是一个基于Ray的Python数据目录系统,采用类Git的stage/commit API实现快速、可扩展、ACID兼容的数据目录管理。结合Ray分布式计算框架和Apache Arrow,DeltaCAT支持PB级数据变更捕获、一致性检查和表修复。该系统已在EB级企业数据湖中得到应用,为大规模数据管理提供解决方案。
Mava - 基于JAX的高效多智能体强化学习框架
Mava多智能体强化学习JAX分布式计算环境包装器Github开源项目
Mava是基于JAX的分布式多智能体强化学习框架,提供精简代码实现和快速迭代工具。它集成了MARL算法、环境封装、教学资源和评估方法,充分利用JAX并行计算优势,在多个环境中实现卓越性能和训练速度。Mava设计简洁易懂,便于扩展,适合MARL研究人员和实践者使用。
PowerJob - 开源分布式任务调度和计算框架
PowerJob分布式计算任务调度工作流灾难容错Github开源项目
PowerJob是一个开源分布式计算和任务调度框架,提供友好的UI界面、多样的定时策略和执行模式。支持工作流(DAG)、多语言处理器,具有容错能力和高可用性。适用于定时、广播、MapReduce和延迟任务等场景,支持水平扩展,是一个高性能、可靠的调度系统。
xgboost - 高效灵活可扩展的梯度提升算法库
XGBoost梯度提升机器学习分布式计算数据科学Github开源项目
XGBoost是一款高性能的梯度提升算法库,专为效率、灵活性和可扩展性而设计。它能快速准确地处理大规模数据集,解决各类机器学习问题。XGBoost支持多种分布式环境,可处理超十亿样本的数据。作为开源项目,XGBoost不断通过社区贡献来提升性能和扩展功能。
NeMo-Framework-Launcher - 云原生工具助力大规模AI模型高效训练
NeMo FrameworkAI模型训练大规模语言模型分布式计算云原生工具Github开源项目
NeMo-Framework-Launcher是一个用于启动NeMo Framework训练作业的云原生工具。它专注于生成式AI模型的基础模型训练,集成了模型并行、分布式优化和混合精度训练等技术。该工具简化了在云端或本地集群上的训练流程,支持集群配置、数据处理、模型训练、微调和评估。适用于GPT、BERT和T5等模型,可扩展至数千GPU,支持大规模语言模型训练。
spark-cassandra-connector - Apache Spark与Apache Cassandra的高性能集成连接器
SparkCassandra数据连接器大数据分布式计算Github开源项目
spark-cassandra-connector是一个开源连接器,实现了Apache Spark和Apache Cassandra的集成。它允许将Cassandra表作为Spark RDD和Dataset/DataFrame使用,支持数据的双向读写。该连接器兼容多个Spark和Cassandra版本,支持复杂数据类型和查询优化,并提供丰富的API。最新版本引入了向量类型支持,增强了AI和RAG数据处理能力。
Daft - Rust实现的分布式数据处理引擎 支持多模态分析
Daft数据处理分布式计算多模态数据查询优化Github开源项目
Daft是一个Rust实现的分布式查询引擎,为Python提供大规模数据处理能力。它提供交互式API、查询优化、数据目录集成、多模态类型系统和Apache Arrow兼容性。Daft可处理图像、嵌入向量等复杂数据,支持交互式和分布式计算,适用于多种数据分析场景。其云优化设计带来高效I/O性能。
Anyscale - 基于Ray的AI和Python分布式计算平台
AI工具AnyscaleAI平台分布式计算RayGPU
Anyscale是基于Ray开源项目的AI应用平台,提供从笔记本到数千GPU的分布式计算能力。支持LLM推理、微调、稳定扩散等AI工作负载,具备性能优化、成本控制和企业级安全功能。开发者可通过Anyscale快速构建和部署各类AI应用。
fugue - 统一的分布式计算框架 支持多种执行引擎
Fugue分布式计算数据处理PySparkSQLGithub开源项目
Fugue是一个统一的分布式计算框架,支持在Spark、Dask和Ray等多种执行引擎上运行Python、Pandas和SQL代码。它可以轻松将现有Python和Pandas代码扩展到分布式环境,并通过FugueSQL在不同数据框架上构建端到端工作流。Fugue提供简洁的API和增强的SQL语法,实现了执行引擎的无缝切换,提高了大规模数据处理的效率和灵活性。
beam - 统一批处理和流处理的数据并行处理模型
Apache Beam数据处理流处理批处理分布式计算Github开源项目
Apache Beam是一个统一的数据处理模型,用于定义批处理和流处理的并行数据处理管道。它提供多语言SDK构建管道,并可在Apache Flink、Spark等分布式处理后端上执行。Beam支持Java、Python和Go等语言,为各类开发者提供灵活的开发环境。该项目采用统一模型处理批处理和流处理数据,支持多种编程语言,并可在多个分布式处理平台上运行。它为不同类型的开发者提供了灵活的工具,简化了大规模数据处理的复杂性。
spark - 统一分析引擎 支持多语言API及丰富工具集
Apache Spark大数据处理分布式计算数据分析机器学习Github开源项目
Apache Spark是一个大规模数据处理的统一分析引擎,提供Scala、Java、Python和R的高级API。它支持多种高级工具,如Spark SQL、pandas API on Spark、MLlib、GraphX和Structured Streaming,分别用于SQL查询、pandas操作、机器学习、图处理和流处理。Spark的优化引擎支持通用计算图,适用于多种大数据分析场景。
hyperopt - Python库Hyperopt助力机器学习超参数优化
Hyperopt超参数优化Python库机器学习分布式计算Github开源项目
Hyperopt是一个强大的Python库,专门用于复杂搜索空间中的超参数优化。它支持实值、离散和条件维度,提供随机搜索、TPE等多种算法。通过Apache Spark和MongoDB实现并行化,Hyperopt能够显著提高机器学习模型的调优效率。作为开源项目,它为机器学习领域提供了高效的超参数优化解决方案,正在被广泛应用于加速模型开发和性能优化。
Orleans.Clustering.Kubernetes - Orleans在Kubernetes上的集群管理解决方案
OrleansKubernetes集群管理分布式计算容器编排Github开源项目
Orleans.Clustering.Kubernetes是一个开源包,使用Kubernetes作为Orleans集群成员管理的后端。它通过自定义资源定义(CRD)存储集群成员信息,实现Orleans集群在Kubernetes上的简单部署。该包提供配置简便、支持安全访问控制、自动发现集群等功能,有助于开发者在Kubernetes环境中更高效地管理分布式计算应用。
spawn - 开源运行时赋能企业状态计算与多语言开发
Spawn分布式计算状态管理多语言支持业务驱动开发Github开源项目
Spawn是一款源自Cloudstate贡献者的创新开源运行时,专为现代企业打造。它提供云端和本地部署方案,支持多语言编程,简化基础设施管理。Spawn的状态计算模型和高可用架构确保分布式系统的一致性和可靠性,使开发团队能够专注于核心业务,提升企业竞争力。