#并行计算

ElegantRL - 云原生高效的大规模并行深度强化学习框架,支持弹性扩展
ElegantRL深度强化学习并行计算DRL算法云原生Github开源项目
ElegantRL是一个云原生的大规模并行深度强化学习框架,支持多种DRL算法和多代理环境。其核心代码少于1000行,具备轻量、高效和弹性特点。通过微服务架构和容器化,支持大规模计算节点扩展,并自动分配云端资源。相比Ray RLlib和Stable Baselines 3,ElegantRL在单GPU、多GPU和云平台测试中更稳定高效。广泛应用于RLSolver、FinRL等项目,并支持Isaac Gym等模拟器。
aphros - 高性能多相流体模拟引擎 支持大规模气泡液滴计算
Aphros多相流表面张力有限体积法并行计算Github开源项目
Aphros是一款高性能不可压缩多相流体模拟求解器。基于C++14开发,可扩展至数千计算节点。主要特点包括SIMPLE或Bell-Colella-Glaz流体求解、PLIC体积流体平流、低分辨率曲率估计、Multi-VOF防聚并技术等。适用于破碎波浪、微流控、无隔膜电解等多相流模拟场景。
pandarallel - 简化Pandas操作并行化的Python库
Pandarallel并行计算pandas数据处理Python库Github开源项目
Pandaral·lel是一个Python库,通过简单的代码修改实现Pandas操作的并行化处理。它利用多核CPU加速数据处理,并提供进度条显示。适用于Mac、Linux和Windows系统,可优化数据分析工作流程。目前该开源项目正在寻找新的维护者。
accelerated-scan - GPU加速的并行扫描算法高效解决一阶递归
Accelerated ScanGPU并行计算CUDATritonGithub开源项目
accelerated-scan是一个Python包,实现了GPU上高效的一阶并行关联扫描。该项目采用分块处理算法和GPU通信原语,能快速处理状态空间模型和线性RNN中的一阶递归问题。支持前向和后向扫描,提供C++ CUDA内核和Triton实现,在不同序列长度下均有出色性能表现。适用于深度学习和信号处理等需要高性能递归计算的领域。
lectures - GPU并行计算技术与高性能编程系列讲座
CUDAGPU编程并行计算PyTorch深度学习Github开源项目
讲座系列涉及CUDA、PyTorch优化、量化技术和稀疏计算等GPU编程前沿话题。由行业专家授课,内容包括性能分析、内存架构和优化方法。结合理论和实践,帮助学习者掌握并行计算技能,增强GPU编程水平。面向对GPU加速和深度学习优化感兴趣的技术人员。
threadpoolctl - Python库优化科学计算线程池资源管理
threadpoolctl线程池控制Python库性能优化并行计算Github开源项目
threadpoolctl是一个Python库,专门用于管理科学计算和数据分析库中的线程池资源。它能够精确控制BLAS、OpenMP等常用库的线程数量,有效解决嵌套并行计算中的资源过度分配问题。通过简洁的接口,threadpoolctl允许开发者灵活调整线程使用,从而优化计算效率,提升并行性能。该库支持多种BLAS实现和OpenMP运行时,适用范围广泛,是科学计算领域的实用工具。
dask - 开源灵活的并行计算库 助力大规模数据分析
Dask并行计算数据分析Python库开源Github开源项目
Dask是一个开源的灵活并行计算库,专为大规模数据分析设计。它支持多种数据结构和算法,与NumPy、Pandas等Python数据科学工具无缝集成。Dask提供高效的并行计算能力,能处理超出单机内存的大型数据集,适用于数据科学、机器学习等领域。活跃的社区支持进一步增强了其在数据分析中的应用价值。
gtsfm - 高性能并行结构运动恢复管线GTSfM
GTSfM结构运动恢复并行计算GTSAM3D重建Github开源项目
GTSfM是一个基于GTSAM的开源结构运动恢复(SfM)管线,专为并行计算设计。它利用Dask实现分布式处理,集成了SuperPoint和SuperGlue等先进算法。GTSfM提供Python接口,无需编译即可使用。该项目支持多种场景重建任务,可与Nerfstudio等工具集成,为计算机视觉领域提供了灵活高效的解决方案。
codon - 高性能Python编译器 无运行时开销 媲美C/C++性能
CodonPython编译器高性能计算静态编译并行计算Github开源项目
Codon是一个将Python代码编译为本机机器代码的高性能实现。它保持了Python的语法和语义,同时提供媲美C/C++的性能,通常比普通Python快10-100倍。Codon支持原生多线程,实现了顶级性能优化和全面的硬件支持。它可与Python生态系统无缝集成,适用于要求高性能的Python项目。
rayon - Rust轻量级数据并行库 简化并行计算实现
Rayon并行计算Rust数据并行性能优化Github开源项目
Rayon是一个轻量级Rust数据并行库,可将顺序计算转换为并行计算,保证无数据竞争。它提供简单的并行迭代器API,支持将`iter()`改为`par_iter()`实现并行化。此外,Rayon还包含灵活的join和scope函数,以及自定义线程池功能,满足多样化的并行计算需求。
GPU-Puzzles - 实践驱动的GPU编程教程 掌握深度学习核心技能
GPU编程CUDANUMBA并行计算深度学习Github开源项目
GPU-Puzzles是一个创新的交互式GPU编程教程项目。它采用NUMBA将Python代码直接映射到CUDA内核,让初学者能快速上手GPU编程。通过一系列精心设计的编程练习,学习者可在短时间内从GPU编程基础进阶到理解驱动现代深度学习的核心算法。该项目为希望深入了解GPU架构及其在机器学习中关键作用的人提供了实用的学习资源。
sparse_dot_topn - 高效稀疏矩阵乘法及Top-N结果筛选工具
sparse_dot_topn稀疏矩阵乘法并行计算高性能计算Python扩展Github开源项目
sparse_dot_topn是一个专注于大规模稀疏矩阵乘法和Top-N结果选择的高性能Python库。通过集成并行化的Top-N值选择算法,该库显著降低了内存占用并提升了运算速度。它支持CSR、CSC和COO格式矩阵,兼容32位和64位的整数及浮点数据。库中的阈值和密度选项进一步优化了内存使用。在处理大型特征向量比较和最佳匹配选择时,sparse_dot_topn表现出色,为数据科学和机器学习领域提供了高效解决方案。
PiPPy - PyTorch模型自动化管道并行工具
PiPPypipeline parallelismPyTorch模型扩展并行计算Github开源项目
PiPPy是一个为PyTorch模型提供自动化管道并行功能的开源工具。它通过自动拆分模型代码和处理复杂拓扑结构,简化了管道并行的实现过程。PiPPy支持跨主机并行、与其他并行方案结合,以及多种调度策略。该工具能够帮助研究人员和开发者在不大幅修改原有代码的情况下,实现PyTorch模型的高效扩展。
nanotron - 高效的大规模模型预训练库
Nanotron模型预训练深度学习并行计算TransformerGithub开源项目
Nanotron是一个开源的Transformer模型预训练库。它提供灵活API,支持自定义数据集预训练。该库特点包括高性能、可扩展性强,支持3D并行、专家并行、AFAB和1F1B调度策略、ZeRO-1优化器等先进技术。Nanotron适用于大规模模型训练,旨在提高预训练效率。
resource-stream - CUDA和GPU加速计算综合资源库
CUDAGPU编程性能优化并行计算NVIDIAGithub开源项目
Resource Stream汇集了丰富的CUDA和GPU加速计算资源,包括书籍、论文、教程和代码实现。项目涵盖Triton和torch.compile()等高级优化工具,为开发者提供全面的学习材料和实践指南,助力高效并行计算和GPU性能优化。
HVM - 实现高级语言大规模并行计算的开源工具
HVM2并行计算交互组合子编程语言编译GPU加速Github开源项目
HVM2是一个开源的大规模并行评估器,基于交互组合子理论。它可以将Python、Haskell等高级语言编译成能在GPU等并行硬件上高效运行的程序。作为HVM1的改进版,HVM2在简洁性、速度和正确性方面都有提升。项目提供低级IR语言用于描述HVM2网络,并支持编译为C和CUDA代码。对于需要高级语言接口的用户,可以使用配套的Bend项目。
ComfyUI_TiledKSampler - ComfyUI分块采样器实现大尺寸图像生成
ComfyUI采样器图像处理去噪并行计算Github开源项目
ComfyUI_TiledKSampler是一个为ComfyUI开发的分块采样器插件,通过将大尺寸图像分割成小块进行去噪处理,实现高质量的大图生成。该项目采用逐步去噪和随机化块位置的方法,有效减少接缝问题。它提供多种分块策略,如随机、严格随机、填充和简单模式,满足不同需求。此外,ComfyUI_TiledKSampler还支持潜在遮罩、全图ControlNet和T2I适配器等功能,为大尺寸图像生成提供了灵活的解决方案。
SIMD-itertools - SIMD-itertools为Rust提供高效数组操作的SIMD加速迭代器
SIMDRust迭代器性能优化并行计算Github开源项目
SIMD-itertools是一个Rust开源项目,提供SIMD加速的迭代器操作。通过替换标准库函数为SIMD版本,如contains()改为contains_simd(),可显著提升性能。支持u8至u64等多种数据类型,实现了find、filter、position等常用操作。项目需要Rust nightly版本,使用简单配置即可启用。根据项目提供的基准测试结果,SIMD-itertools在处理u32类型数据时,相比标准库实现可获得显著的性能提升。使用时需通过rustup安装nightly版本,并在编译时添加-C target-cpu=native参数以获得最佳性能。SIMD-itertools为开发者提供了高效的Rust数组处理工具,在多数情况下性能优于标准库实现。
taichi.js - JavaScript GPU加速框架 实现大规模并行计算
taichi.jsGPU计算Javascript框架WebGPU并行计算Github开源项目
taichi.js是一个为JavaScript开发的现代GPU计算框架。它将JavaScript函数转换为WebGPU计算着色器,实现大规模并行化。作为Python库Taichi的JavaScript版本,taichi.js具备交互式代码编辑器功能,支持代码的编写、编译和运行。该框架适用于分形图形生成等复杂计算任务,通过WebGPU技术提供高效的GPU计算能力。taichi.js为Web开发者提供了便捷的GPU加速计算解决方案。
lammps - 开源大规模并行分子动力学模拟软件
LAMMPS分子动力学模拟开源软件并行计算美国能源部Github开源项目
LAMMPS(Large-scale Atomic/Molecular Massively Parallel Simulator)是一款开源的经典分子动力学模拟软件,基于GNU通用公共许可证发布。由美国能源部资助开发,专为高效并行计算设计,适用于大规模原子和分子系统模拟。LAMMPS支持多种势函数、粒子类型和边界条件,提供多种编程语言接口。其模块化结构便于扩展,广泛应用于材料科学、生物物理和化学工程研究。
veScale - 基于PyTorch的大规模语言模型训练框架
PyTorchLLM训练框架分布式训练并行计算模型执行Github开源项目
veScale是一个基于PyTorch的大规模语言模型训练框架,专为简化LLM训练过程而设计。它支持零代码修改、单设备抽象和自动并行规划,实现了张量并行、序列并行和数据并行等多种策略。框架还提供自动检查点重分片和nD分布式时间线功能,大幅提升了训练效率。作为一个持续发展的项目,veScale计划在未来引入更多先进功能,为研究人员和开发者提供全面的LLM训练解决方案。
nccl - 优化GPU间通信的高性能库
NCCLGPU通信NVIDIA并行计算深度学习Github开源项目
NCCL是NVIDIA开发的开源GPU通信库,为深度学习和高性能计算优化了全归约、广播等通信模式。它在PCIe、NVLink等平台上实现高带宽,支持单节点和多节点GPU应用。NCCL可用于任意数量的GPU,适配单进程和多进程(如MPI)环境,为AI和科学计算提供高效的通信解决方案。该项目提供简易的构建安装方法和灵活的编译选项,方便开发者根据需求优化性能。
cccl - 统一的CUDA C++核心库集合提升开发效率
CUDAC++CCCLNVIDIA并行计算Github开源项目
CUDA C++ Core Libraries (CCCL) 整合了Thrust、CUB和libcudacxx三个主要CUDA C++库。CCCL为开发者提供高效、安全的编程工具,简化CUDA开发流程。该项目支持多个CUDA工具包版本,具有跨平台兼容性,并通过持续更新来确保API稳定和性能提升。CCCL旨在成为CUDA C++开发的标准库,为GPU编程提供全面支持。
thundersvm - GPU加速的开源支持向量机库
ThunderSVM机器学习GPU加速支持向量机并行计算Github开源项目
ThunderSVM是一个开源的支持向量机库,通过GPU和多核CPU加速计算,显著提高SVM训练效率。该库实现了LibSVM的全部功能,支持一类SVM、SVC、SVR和概率SVM等多种模型。ThunderSVM提供Python、R、Matlab和Ruby等多种编程语言接口,跨平台兼容Linux、Windows和MacOS。采用与LibSVM一致的命令行参数,便于用户快速上手。作为高效的SVM实现,ThunderSVM为数据科学家和机器学习研究者提供了强大的工具支持。在某些大规模数据集上,ThunderSVM相比传统SVM实现可实现10-100倍的加速,已被多个知名机器学习项目采用。
ocl - Rust语言的高性能OpenCL库
OpenCLRust并行计算GPU编程高性能计算Github开源项目
ocl库为Rust开发者提供了高效的OpenCL编程接口。它不仅保留了OpenCL的全部功能,还简化了设备操作流程,减少了冗余代码。ocl的设计注重性能和安全性,适用于各种跨平台的高性能计算项目。支持OpenCL 1.1及更高版本,兼容主流操作系统。
pagmo2 - 高性能并行优化算法库 支持多目标优化和大规模部署
pagmo优化算法并行计算C++库多目标优化Github开源项目
pagmo2是一个C++并行优化库,为大规模优化问题提供统一接口。它支持多种算法和多目标优化,可在并行环境中高效部署。该库具有高性能和可扩展性,适用于解决复杂优化问题。pagmo2提供完整文档,拥有活跃社区,是科学计算和优化领域的重要开源项目。
pygmo2 - 大规模并行优化Python库
pygmo优化算法并行计算Python库科学计算Github开源项目
pygmo是一个开源的、用于大规模并行优化的科学Python库。它围绕提供优化算法和优化问题的统一接口而构建,使其易于在大规模并行环境中部署。该库支持多目标优化和多种优化算法,能够高效处理复杂的优化问题和大规模数据。pygmo提供了全面的文档和教程,适用于研究、教学以及各种实际应用场景。其强大的功能和灵活性使其成为解决复杂优化挑战的理想工具。
neural-fortran - Fortran实现的开源并行深度学习框架
neural-fortran深度学习并行计算Fortran神经网络Github开源项目
neural-fortran是一个基于Fortran的开源深度学习框架,支持密集和卷积神经网络的训练与推理。该框架提供多种优化器和激活函数,支持从Keras HDF5文件加载模型,并实现数据并行。其特点包括高性能计算、易用性和可扩展性,适用于多种深度学习应用场景。
PARL - 灵活高效的强化学习开源框架
PARL强化学习并行计算分布式训练深度学习Github开源项目
PARL是一个开源的强化学习框架,专注于提供高效、灵活的开发环境。该框架具有良好的可复现性、大规模训练支持、高可重用性和易扩展性。PARL基于Model、Algorithm和Agent三个核心抽象,并提供简洁的分布式训练API。框架支持DQN、DDPG、SAC等多种算法实现,在多个强化学习挑战赛中表现出色。PARL适用于各类复杂任务的智能体训练,为强化学习研究和应用提供了有力工具。
warp-drive - GPU驱动的高效多智能体强化学习框架
WarpDrive深度强化学习GPU加速多智能体并行计算Github开源项目
WarpDrive是一款开源的强化学习框架,专为GPU环境优化。它支持单GPU或多GPU上的端到端多智能体强化学习,通过充分利用GPU并行计算能力,显著提升训练速度。WarpDrive通过减少CPU和GPU间的数据传输,并在多智能体和多环境副本间并行运行模拟,大幅提高了计算效率。这使得同时运行海量并发模拟成为可能,实现了比传统CPU方案高出百倍的训练吞吐量。
PERSIA - 突破百万亿参数的推荐模型训练框架
PERSIA推荐系统深度学习大规模训练并行计算Github开源项目
PERSIA代表'并行推荐训练系统与混合加速',是一个创新的开源框架,专为训练超大规模深度学习推荐模型而设计。该系统能够处理高达100万亿参数的模型,在效率和可扩展性方面表现卓越。PERSIA不仅在公共数据集上展现出优势,还在大型商业应用中得到实际验证。作为首个公开的PyTorch基础推荐训练系统,PERSIA为推荐算法的研究和应用开辟了新的可能性。
pgx - JAX原生并行游戏模拟器库用于强化学习研究
Pgx强化学习游戏模拟器并行计算JAXGithub开源项目
Pgx是一个基于JAX的游戏模拟器库,专注于离散状态空间的强化学习研究。该库支持多种经典和现代棋牌游戏,包括国际象棋、围棋、将棋等。Pgx利用GPU/TPU实现高效并行计算,提供丰富的游戏环境和SVG可视化功能。其兼容PettingZoo API,方便研究人员进行实验。Pgx的设计旨在为强化学习研究提供高性能、多样化的仿真环境。
lbann - 多层次并行化的高性能深度学习框架
LBANN深度学习框架神经网络训练高性能计算并行计算Github开源项目
LBANN是一个开源的高性能深度学习训练框架,专注于多层次并行优化。它结合模型并行、数据并行和集成训练方法,高效处理大规模神经网络和海量数据。LBANN充分利用先进硬件资源,支持多种训练算法,包括监督、无监督、自监督和对抗性训练。该框架适用于需要高度可扩展性的深度学习研究和应用。
modin - 轻松实现pandas并行化加速
Modinpandas并行计算数据处理大数据Github开源项目
Modin是pandas的高性能替代方案,通过并行化计算显著提升数据处理速度。只需更改一行导入代码,即可利用全部CPU核心加速pandas工作流,特别适合大型数据集。Modin支持处理超出内存的数据,兼容90%以上pandas API,并支持Ray、Dask和MPI等多种计算引擎。它简化了分布式计算,让用户轻松获得性能提升。
nextflow - 基于数据流模型的可扩展工作流系统 支持多平台部署
Nextflow工作流系统数据流编程并行计算可扩展性Github开源项目
Nextflow是一个基于数据流编程模型的工作流系统,用于创建可扩展、可移植和可重现的工作流。它简化了并行和分布式计算管道的编写过程,支持多种执行平台和依赖管理方式。Nextflow适用于本地机器、HPC集群、云平台和Kubernetes等环境,广泛应用于生物信息学等计算密集型领域。该项目拥有活跃的社区和完善的文档支持。