#GPU管理
higgsfield - 高容错且可扩展的GPU调度与机器学习框架
HiggsfieldGPU管理大模型训练分布式计算深度学习Github开源项目
Higgsfield是一款开源、高容错、可扩展的GPU调度与机器学习框架,适用于数十亿到数万亿参数的模型(如大型语言模型)。它的主要功能包括分配计算资源、支持高效分片、启动和监控大规模神经网络训练、管理资源竞争,并通过与GitHub的集成实现持续集成。Higgsfield简化了大规模模型训练的流程,提供了多样且强大的开发工具。
genv - 开源GPU环境管理系统 简化资源分配与协作
GPU管理环境配置集群管理资源分配GenvGithub开源项目
Genv是一个开源的GPU环境和集群管理系统,为数据科学和机器学习团队提供GPU资源的高效管理。它支持GPU共享、远程访问、无代码切换以及本地LLM部署,显著提升团队协作效率。Genv具备GPU使用监控和配额管理功能,适合多人共享GPU资源的场景。通过与Ollama的集成,Genv能在集群中有效运行和管理大型语言模型。
相关文章