#分布式计算
higgsfield
Higgsfield是一款开源、高容错、可扩展的GPU调度与机器学习框架,适用于数十亿到数万亿参数的模型(如大型语言模型)。它的主要功能包括分配计算资源、支持高效分片、启动和监控大规模神经网络训练、管理资源竞争,并通过与GitHub的集成实现持续集成。Higgsfield简化了大规模模型训练的流程,提供了多样且强大的开发工具。
ray-educational-materials
提供丰富的教育资源,专注于Ray分布式计算框架,帮助扩展Python和机器学习任务,从笔记本电脑到集群处理。课程内容涵盖Ray核心功能、AI运行时、计算机视觉和NLP模型优化等,适合各层次学习者。加入社区,探索文档、参与讨论、提出问题和贡献代码,提升开发体验。
dask-sql
dask-sql是一个分布式SQL查询引擎,结合Python和SQL,支持无限扩展计算。通过pip或conda安装,可与Jupyter Notebook或BI工具集成,并支持CUDA GPU查询加速。dask-sql支持多种数据格式和存储位置,通过UDFs增强查询能力,适用于本地和云端大规模计算。详细信息请参考官方文档。
mars
Mars是一种基于张量的统一框架,支持大规模数据计算,兼容Numpy、Pandas、Scikit-learn等多个库。无论是单机还是集群环境,Mars都能简化数据处理工作。它提供了详细的安装指南、架构概览和多种使用模式,并与TensorFlow、PyTorch等库深度集成,显著提升计算效率。更多安装和使用信息,请参阅文档。
xla
PyTorch/XLA 是一个将 PyTorch 深度学习框架与 XLA 编译器及 Cloud TPUs 连接的 Python 包,提供高效的训练和推理解决方案。用户可以通过 Kaggle 免费试用,并安装支持 TPU 和 GPU 的插件包。项目提供详细的文档和教程,包括使用指南、性能调优方法和 Docker 镜像使用说明。鼓励用户通过 issue 提交反馈和建议,欢迎开源贡献。
Awesome-System-for-Machine-Learning
此项目汇集了机器学习系统研究的丰富资源,包括数据处理、训练系统和推理系统的开源代码与论文。项目由专门团队维护并定期更新,提供书籍、视频、课程和博客等学习材料,还推荐多篇系统设计的必读白皮书和研究论文,适合各个学习阶段。
bacalhau
Bacalhau是一个分布式计算平台,可以在数据生成和存储的位置执行任务,从而实现高效、安全的计算。支持Docker容器、WebAssembly (wasm)镜像和任意二进制文件作为任务运行,无需大量重写代码,简化现有工作流程。其特点包括快速作业处理、低成本、安全和大规模数据处理,利用边缘计算的闲置资源减少传输成本,通过精细的权限模型保护数据安全。
kuberay
KubeRay是开源的Kubernetes operator,专为简化Ray应用在Kubernetes上的部署和管理而设计。它提供RayCluster、RayJob和RayService三种自定义资源,实现集群生命周期管理、自动扩缩容和容错。KubeRay还包含社区维护的API服务器、Python客户端和命令行工具,提供全面的Ray集群管理功能。适用于机器学习、服务部署和批处理等场景,并与多种云原生生态系统工具集成。
ray
Ray是一个统一的框架,专门用于扩展AI和Python应用。它包含一个核心分布式运行时和一套AI库,用于简化机器学习计算。无论是在单机还是集群上,Ray都能让相同的代码无缝扩展。此外,Ray支持各种机器、云服务提供商和Kubernetes,且拥有日益增长的社区生态系统。此框架易于安装,只需执行简单的命令即可:'pip install ray'。