#高性能计算

DeepSpeed - 大模型的训练工具
热门AI开发模型训练AI工具DeepSpeedAI系统技术大规模训练模型压缩高性能计算
DeepSpeed是一个先进的深度学习优化工具库,专门设计用于简化和增强分布式训练。通过一系列创新技术,如ZeRO、3D并行处理、MoE和ZeRO-Infinity,DeepSpeed能大幅提高训练速度,同时降低成本。这些技术支持在数千GPU上扩展模型训练,并实现低延迟和高吞吐量的推理性能。DeepSpeed同时提供了先进的模型压缩技术,优化模型存储与推理效率,是大规模AI模型训练和推理的优选方案。
paper-reading - 深度学习基础架构与工程应用详细介绍
Deep LearningAI compiler高性能计算CUDA深度学习框架Github开源项目
本页面介绍了深度学习基础架构及其工程应用,包括编程语言、算法训练与推理部署、AI编译器加速和硬件工程。页面提供了Deep Learning、HPC高性能计算等学习资源和工具链接,并涵盖Docker、K8S、Protobuf与gRPC等工程化解决方案。还提供相关教程与代码示例,适合深度学习和高性能计算领域的开发者和研究人员。
deepmd-kit - 深度学习驱动的原子势能建模与分子动力学模拟工具
DeePMD-kit深度学习分子动力学势能模型高性能计算Github开源项目
DeePMD-kit是一个用Python和C++编写的软件包,专注于简化深度学习原子势能模型和力场的创建和分子动力学模拟。它与TensorFlow及多个高性能MD和量子MD软件包接口,确保高效的训练和计算。模块化设计使其支持多种描述符和高性能并行计算,适用于有机分子、金属、半导体等系统。
pytorch_scatter - 优化分散操作的 PyTorch 扩展库
PyTorch数据处理高性能计算CPUGPUGithub开源项目
该扩展库为PyTorch提供了高效的稀疏更新和分段操作,包含scatter、segment_coo和segment_csr,支持sum、mean、min和max等归约方式。操作可适用于不同数据类型,并支持CPU和GPU。复合功能包括scatter_std、scatter_logsumexp、scatter_softmax和scatter_log_softmax。安装过程简单,适用于各大操作系统和PyTorch/CUDA组合。
flashinfer - 专注LLM服务的高效GPU内核库
FlashInferLLM服务GPU内核注意力机制高性能计算Github开源项目
FlashInfer是一个面向大型语言模型(LLM)服务和推理的GPU内核库。它实现了多种注意力机制,如FlashAttention、SparseAttention和PageAttention。通过优化共享前缀批处理解码和压缩KV缓存等技术,FlashInfer提高了LLM推理效率。该项目兼容PyTorch、TVM和C++,便于集成到现有系统,适用于多种LLM应用场景。
fairscale - 强化PyTorch大规模深度学习训练的开源库
FairScalePyTorch分布式训练大规模模型高性能计算Github开源项目
FairScale是一个开源的PyTorch扩展库,旨在提升大规模深度学习模型的训练效率。它不仅增强了PyTorch的基础功能,还引入了先进的模型扩展技术。通过提供模块化组件和简洁的API,FairScale使研究人员能够更轻松地实现分布式训练,有效应对资源受限情况下的模型扩展挑战。该库在设计时特别强调了易用性、模块化和性能优化,并支持全面分片数据并行(FSDP)等多种先进扩展技术。
taichi - Python嵌入式高性能并行编程语言
Taichi Lang并行编程高性能计算Python嵌入GPU加速Github开源项目
Taichi是一款嵌入Python的开源并行编程语言,专注高性能数值计算。它利用LLVM等即时编译器将Python代码转译为GPU或CPU指令,支持CUDA、Vulkan等多种后端。Taichi以其灵活性、高性能和跨平台特性,广泛应用于物理模拟、数值分析、AR和AI等领域。
dash-infer - 面向x86和ARMv9的高性能大语言模型推理引擎
DashInferLLM推理CPU优化模型量化高性能计算Github开源项目
DashInfer是一款针对x86和ARMv9硬件架构优化的C++推理引擎,支持连续批处理和NUMA感知功能。该引擎可充分发挥现代服务器CPU性能,支持推理参数规模达14B的大语言模型。DashInfer采用轻量架构,提供高精度推理和标准LLM推理技术,兼容主流开源大语言模型,并集成了量化加速和优化计算内核等功能。
envpool - 高性能并行强化学习环境执行引擎
EnvPool强化学习环境仿真高性能计算并行处理Github开源项目
EnvPool是一款基于C++的高性能并行强化学习环境引擎。它支持Atari、Mujoco等多种环境,提供同步和异步执行模式,适用于单玩家和多玩家场景。EnvPool易于集成新环境,在高端硬件上可达到每秒100万Atari帧或300万Mujoco步骤的模拟速度,比传统Python子进程方法快约20倍。作为通用解决方案,EnvPool可显著加速各类强化学习环境的并行化执行。
codon - 高性能Python编译器 无运行时开销 媲美C/C++性能
CodonPython编译器高性能计算静态编译并行计算Github开源项目
Codon是一个将Python代码编译为本机机器代码的高性能实现。它保持了Python的语法和语义,同时提供媲美C/C++的性能,通常比普通Python快10-100倍。Codon支持原生多线程,实现了顶级性能优化和全面的硬件支持。它可与Python生态系统无缝集成,适用于要求高性能的Python项目。
Bend - 结合高级语言特性和大规模并行计算的编程语言
Bend并行编程GPU编程函数式语言高性能计算Github开源项目
Bend是一种创新的高级并行编程语言,将高级语言的易用性与大规模并行计算的高效性相结合。它融合了Python和Haskell等语言的优秀特性,如快速对象分配、高阶函数和闭包支持,同时在GPU等并行硬件上实现了接近CUDA的性能,无需开发者手动添加并行化代码。Bend能够在GPU等大规模并行硬件上实现近乎线性的性能提升,且支持无限递归等高级特性。基于HVM2运行时开发,Bend目前仍在持续完善中,未来有望进一步优化性能。
sparse_dot_topn - 高效稀疏矩阵乘法及Top-N结果筛选工具
sparse_dot_topn稀疏矩阵乘法并行计算高性能计算Python扩展Github开源项目
sparse_dot_topn是一个专注于大规模稀疏矩阵乘法和Top-N结果选择的高性能Python库。通过集成并行化的Top-N值选择算法,该库显著降低了内存占用并提升了运算速度。它支持CSR、CSC和COO格式矩阵,兼容32位和64位的整数及浮点数据。库中的阈值和密度选项进一步优化了内存使用。在处理大型特征向量比较和最佳匹配选择时,sparse_dot_topn表现出色,为数据科学和机器学习领域提供了高效解决方案。
ucc - 统一集体通信库 高性能HPC、AI/ML和I/O通信解决方案
UCC集体通信高性能计算API开源软件Github开源项目
UCC(Unified Collective Communication)是一个面向高性能计算、人工智能和大规模I/O的开源集体通信库。它提供灵活且功能丰富的API,支持非阻塞操作、多样化资源分配和同步模型。UCC架构模块化,集成了UCX、SHARP、CUDA和NCCL等多种传输技术,并可无缝对接Open MPI。这一设计使UCC能够在各种计算环境中实现高度可扩展的性能表现。
QuEST - 多平台高性能量子计算模拟工具包
QuEST量子计算模拟高性能计算开源软件量子电路Github开源项目
QuEST是一款开源的高性能量子计算模拟工具包。它支持多线程、GPU加速和分布式计算,可在多种硬件平台上运行。QuEST提供了丰富的功能,包括密度矩阵、通用幺正操作、退相干通道和厄米算符模拟等。该工具包易于使用,无需安装,兼容多种编译器,为量子计算研究提供了强大的模拟能力。
text2vec - R语言高效文本分析与NLP框架
text2vec自然语言处理文本分析R软件包高性能计算Github开源项目
text2vec是一个R语言包,为文本分析和自然语言处理提供高效框架和简洁API。该包以C++编写,支持多线程并行处理,具有优秀性能和可扩展性。text2vec提供流式API,无需将全部数据加载到内存。它注重简洁、一致、灵活、快速和内存效率,是文本处理的理想工具。text2vec可用于文本向量化、主题建模、情感分析等任务,为研究人员和数据科学家提供强大的文本处理工具。该项目欢迎社区贡献,包括测试反馈和代码改进。
Enzyme.jl - Julia语言下的LLVM自动微分工具Enzyme
Enzyme自动微分LLVMJulia高性能计算Github开源项目
Enzyme.jl为LLVM自动微分工具Enzyme提供Julia语言接口。它可对静态分析的LLVM代码进行高效自动微分,性能与顶级AD工具相当。通过简洁API实现Julia函数的自动微分,适用于科学计算和机器学习。该项目处于活跃开发阶段,鼓励用户提供反馈。
ocl - Rust语言的高性能OpenCL库
OpenCLRust并行计算GPU编程高性能计算Github开源项目
ocl库为Rust开发者提供了高效的OpenCL编程接口。它不仅保留了OpenCL的全部功能,还简化了设备操作流程,减少了冗余代码。ocl的设计注重性能和安全性,适用于各种跨平台的高性能计算项目。支持OpenCL 1.1及更高版本,兼容主流操作系统。
fastverse - R语言高性能统计计算和数据处理框架
fastverseR语言数据处理高性能计算包管理Github开源项目
fastverse是一个用于R语言的高性能统计计算和数据处理框架。它集成了多个优化的软件包,通过使用编译代码提高R的运行速度,支持复杂的统计和数据操作,同时减少了依赖项。fastverse提供了简便的安装、加载和管理工具,允许用户自定义扩展。核心包包括data.table、collapse、kit和magrittr,提供了基于C/C++的高效统计和数据处理功能。
Aidget - 边端AI算法部署工具链 高性能推理和自动化模型压缩
Aidget边端AI深度学习推理引擎模型压缩高性能计算Github开源项目
Aidget是一款边端AI算法部署工具链,集成高性能深度学习推理引擎和模型自动化压缩功能。适用于多种边端系统和平台,支持ONNX和TFLite等多种模型格式。特点包括轻量级部署、强通用性、易用性和高性能推理。已在智能家电领域得到实际应用,有效解决AI算法部署中的资源限制、性能优化和跨平台兼容性等问题。
owl - OCaml驱动的开源科学计算系统
OwlOCaml科学计算高性能计算数值计算Github开源项目
Owl是一个专注于科学和工程计算的开源系统,基于OCaml开发,采用MIT许可。该系统提供n维数组数据结构、数学函数、线性代数和统计功能,并支持符号计算和计算图优化。Owl致力于推动高性能科学计算发展,为研究人员和工程师提供高效的分析代码框架,力图成为OCaml生态系统中计算密集型任务的首选工具。
lbann - 多层次并行化的高性能深度学习框架
LBANN深度学习框架神经网络训练高性能计算并行计算Github开源项目
LBANN是一个开源的高性能深度学习训练框架,专注于多层次并行优化。它结合模型并行、数据并行和集成训练方法,高效处理大规模神经网络和海量数据。LBANN充分利用先进硬件资源,支持多种训练算法,包括监督、无监督、自监督和对抗性训练。该框架适用于需要高度可扩展性的深度学习研究和应用。
OpenMDAO - 开源Python系统分析与多学科优化计算平台
OpenMDAO多学科优化系统分析高性能计算PythonGithub开源项目
OpenMDAO是一个用Python开发的开源高性能计算平台,专门用于系统分析和多学科优化。它支持模型分解,便于构建和维护,同时通过高效并行算法实现紧密耦合求解。平台主要支持基于梯度的优化和解析导数,可处理大规模设计空间。此外,OpenMDAO还提供并行计算功能,适用于无梯度优化、混合整数非线性规划和设计空间探索。
SmartSim - 为高性能计算环境优化的机器学习集成框架
SmartSim机器学习高性能计算OrchestratorSmartRedisGithub开源项目
SmartSim是为高性能计算(HPC)环境设计的工作流库,简化了PyTorch和TensorFlow等机器学习库在HPC模拟和应用中的使用。该框架能在HPC系统上启动机器学习基础设施,与用户工作负载并行运行。通过基础设施库和SmartRedis客户端,SmartSim实现了HPC应用与机器学习模型间的高效数据交换和远程执行,支持Fortran、C、C++和Python等多种语言,无需MPI即可实现运行时数据交换。