#并行计算

ElegantRL - 云原生高效的大规模并行深度强化学习框架，支持弹性扩展

ElegantRL深度强化学习并行计算DRL算法云原生Github开源项目

ElegantRL是一个云原生的大规模并行深度强化学习框架，支持多种DRL算法和多代理环境。其核心代码少于1000行，具备轻量、高效和弹性特点。通过微服务架构和容器化，支持大规模计算节点扩展，并自动分配云端资源。相比Ray RLlib和Stable Baselines 3，ElegantRL在单GPU、多GPU和云平台测试中更稳定高效。广泛应用于RLSolver、FinRL等项目，并支持Isaac Gym等模拟器。

aphros - 高性能多相流体模拟引擎支持大规模气泡液滴计算

Aphros多相流表面张力有限体积法并行计算Github开源项目

Aphros是一款高性能不可压缩多相流体模拟求解器。基于C++14开发，可扩展至数千计算节点。主要特点包括SIMPLE或Bell-Colella-Glaz流体求解、PLIC体积流体平流、低分辨率曲率估计、Multi-VOF防聚并技术等。适用于破碎波浪、微流控、无隔膜电解等多相流模拟场景。

pandarallel - 简化Pandas操作并行化的Python库

Pandarallel并行计算pandas数据处理Python库Github开源项目

Pandaral·lel是一个Python库，通过简单的代码修改实现Pandas操作的并行化处理。它利用多核CPU加速数据处理，并提供进度条显示。适用于Mac、Linux和Windows系统，可优化数据分析工作流程。目前该开源项目正在寻找新的维护者。

accelerated-scan - GPU加速的并行扫描算法高效解决一阶递归

Accelerated ScanGPU并行计算CUDATritonGithub开源项目

accelerated-scan是一个Python包，实现了GPU上高效的一阶并行关联扫描。该项目采用分块处理算法和GPU通信原语，能快速处理状态空间模型和线性RNN中的一阶递归问题。支持前向和后向扫描，提供C++ CUDA内核和Triton实现，在不同序列长度下均有出色性能表现。适用于深度学习和信号处理等需要高性能递归计算的领域。

lectures - GPU并行计算技术与高性能编程系列讲座

CUDAGPU编程并行计算PyTorch深度学习Github开源项目

讲座系列涉及CUDA、PyTorch优化、量化技术和稀疏计算等GPU编程前沿话题。由行业专家授课，内容包括性能分析、内存架构和优化方法。结合理论和实践，帮助学习者掌握并行计算技能，增强GPU编程水平。面向对GPU加速和深度学习优化感兴趣的技术人员。

threadpoolctl - Python库优化科学计算线程池资源管理

threadpoolctl线程池控制Python库性能优化并行计算Github开源项目

threadpoolctl是一个Python库，专门用于管理科学计算和数据分析库中的线程池资源。它能够精确控制BLAS、OpenMP等常用库的线程数量，有效解决嵌套并行计算中的资源过度分配问题。通过简洁的接口，threadpoolctl允许开发者灵活调整线程使用，从而优化计算效率，提升并行性能。该库支持多种BLAS实现和OpenMP运行时，适用范围广泛，是科学计算领域的实用工具。

dask - 开源灵活的并行计算库助力大规模数据分析

Dask并行计算数据分析Python库开源Github开源项目

Dask是一个开源的灵活并行计算库，专为大规模数据分析设计。它支持多种数据结构和算法，与NumPy、Pandas等Python数据科学工具无缝集成。Dask提供高效的并行计算能力，能处理超出单机内存的大型数据集，适用于数据科学、机器学习等领域。活跃的社区支持进一步增强了其在数据分析中的应用价值。

gtsfm - 高性能并行结构运动恢复管线GTSfM

GTSfM结构运动恢复并行计算GTSAM3D重建Github开源项目

GTSfM是一个基于GTSAM的开源结构运动恢复(SfM)管线，专为并行计算设计。它利用Dask实现分布式处理，集成了SuperPoint和SuperGlue等先进算法。GTSfM提供Python接口，无需编译即可使用。该项目支持多种场景重建任务，可与Nerfstudio等工具集成，为计算机视觉领域提供了灵活高效的解决方案。

codon - 高性能Python编译器无运行时开销媲美C/C++性能

CodonPython编译器高性能计算静态编译并行计算Github开源项目

Codon是一个将Python代码编译为本机机器代码的高性能实现。它保持了Python的语法和语义，同时提供媲美C/C++的性能，通常比普通Python快10-100倍。Codon支持原生多线程，实现了顶级性能优化和全面的硬件支持。它可与Python生态系统无缝集成，适用于要求高性能的Python项目。

rayon - Rust轻量级数据并行库简化并行计算实现

Rayon并行计算Rust数据并行性能优化Github开源项目

Rayon是一个轻量级Rust数据并行库，可将顺序计算转换为并行计算，保证无数据竞争。它提供简单的并行迭代器API，支持将`iter()`改为`par_iter()`实现并行化。此外，Rayon还包含灵活的join和scope函数，以及自定义线程池功能，满足多样化的并行计算需求。

GPU-Puzzles - 实践驱动的GPU编程教程掌握深度学习核心技能

GPU编程CUDANUMBA并行计算深度学习Github开源项目

GPU-Puzzles是一个创新的交互式GPU编程教程项目。它采用NUMBA将Python代码直接映射到CUDA内核,让初学者能快速上手GPU编程。通过一系列精心设计的编程练习,学习者可在短时间内从GPU编程基础进阶到理解驱动现代深度学习的核心算法。该项目为希望深入了解GPU架构及其在机器学习中关键作用的人提供了实用的学习资源。

sparse_dot_topn - 高效稀疏矩阵乘法及Top-N结果筛选工具

sparse_dot_topn稀疏矩阵乘法并行计算高性能计算Python扩展Github开源项目

sparse_dot_topn是一个专注于大规模稀疏矩阵乘法和Top-N结果选择的高性能Python库。通过集成并行化的Top-N值选择算法，该库显著降低了内存占用并提升了运算速度。它支持CSR、CSC和COO格式矩阵，兼容32位和64位的整数及浮点数据。库中的阈值和密度选项进一步优化了内存使用。在处理大型特征向量比较和最佳匹配选择时，sparse_dot_topn表现出色，为数据科学和机器学习领域提供了高效解决方案。

PiPPy - PyTorch模型自动化管道并行工具

PiPPypipeline parallelismPyTorch模型扩展并行计算Github开源项目

PiPPy是一个为PyTorch模型提供自动化管道并行功能的开源工具。它通过自动拆分模型代码和处理复杂拓扑结构，简化了管道并行的实现过程。PiPPy支持跨主机并行、与其他并行方案结合，以及多种调度策略。该工具能够帮助研究人员和开发者在不大幅修改原有代码的情况下，实现PyTorch模型的高效扩展。

nanotron - 高效的大规模模型预训练库

Nanotron模型预训练深度学习并行计算TransformerGithub开源项目

Nanotron是一个开源的Transformer模型预训练库。它提供灵活API，支持自定义数据集预训练。该库特点包括高性能、可扩展性强，支持3D并行、专家并行、AFAB和1F1B调度策略、ZeRO-1优化器等先进技术。Nanotron适用于大规模模型训练，旨在提高预训练效率。

resource-stream - CUDA和GPU加速计算综合资源库

CUDAGPU编程性能优化并行计算NVIDIAGithub开源项目

Resource Stream汇集了丰富的CUDA和GPU加速计算资源，包括书籍、论文、教程和代码实现。项目涵盖Triton和torch.compile()等高级优化工具，为开发者提供全面的学习材料和实践指南，助力高效并行计算和GPU性能优化。

HVM - 实现高级语言大规模并行计算的开源工具

HVM2并行计算交互组合子编程语言编译GPU加速Github开源项目

HVM2是一个开源的大规模并行评估器，基于交互组合子理论。它可以将Python、Haskell等高级语言编译成能在GPU等并行硬件上高效运行的程序。作为HVM1的改进版，HVM2在简洁性、速度和正确性方面都有提升。项目提供低级IR语言用于描述HVM2网络，并支持编译为C和CUDA代码。对于需要高级语言接口的用户，可以使用配套的Bend项目。

ComfyUI_TiledKSampler - ComfyUI分块采样器实现大尺寸图像生成

ComfyUI采样器图像处理去噪并行计算Github开源项目

ComfyUI_TiledKSampler是一个为ComfyUI开发的分块采样器插件，通过将大尺寸图像分割成小块进行去噪处理，实现高质量的大图生成。该项目采用逐步去噪和随机化块位置的方法，有效减少接缝问题。它提供多种分块策略，如随机、严格随机、填充和简单模式，满足不同需求。此外，ComfyUI_TiledKSampler还支持潜在遮罩、全图ControlNet和T2I适配器等功能，为大尺寸图像生成提供了灵活的解决方案。

SIMD-itertools - SIMD-itertools为Rust提供高效数组操作的SIMD加速迭代器

SIMDRust迭代器性能优化并行计算Github开源项目

SIMD-itertools是一个Rust开源项目，提供SIMD加速的迭代器操作。通过替换标准库函数为SIMD版本，如contains()改为contains_simd()，可显著提升性能。支持u8至u64等多种数据类型，实现了find、filter、position等常用操作。项目需要Rust nightly版本，使用简单配置即可启用。根据项目提供的基准测试结果，SIMD-itertools在处理u32类型数据时，相比标准库实现可获得显著的性能提升。使用时需通过rustup安装nightly版本，并在编译时添加-C target-cpu=native参数以获得最佳性能。SIMD-itertools为开发者提供了高效的Rust数组处理工具，在多数情况下性能优于标准库实现。

taichi.js - JavaScript GPU加速框架实现大规模并行计算

taichi.jsGPU计算Javascript框架WebGPU并行计算Github开源项目

taichi.js是一个为JavaScript开发的现代GPU计算框架。它将JavaScript函数转换为WebGPU计算着色器，实现大规模并行化。作为Python库Taichi的JavaScript版本，taichi.js具备交互式代码编辑器功能，支持代码的编写、编译和运行。该框架适用于分形图形生成等复杂计算任务，通过WebGPU技术提供高效的GPU计算能力。taichi.js为Web开发者提供了便捷的GPU加速计算解决方案。

lammps - 开源大规模并行分子动力学模拟软件

LAMMPS分子动力学模拟开源软件并行计算美国能源部Github开源项目

LAMMPS（Large-scale Atomic/Molecular Massively Parallel Simulator）是一款开源的经典分子动力学模拟软件，基于GNU通用公共许可证发布。由美国能源部资助开发，专为高效并行计算设计，适用于大规模原子和分子系统模拟。LAMMPS支持多种势函数、粒子类型和边界条件，提供多种编程语言接口。其模块化结构便于扩展，广泛应用于材料科学、生物物理和化学工程研究。

veScale - 基于PyTorch的大规模语言模型训练框架

PyTorchLLM训练框架分布式训练并行计算模型执行Github开源项目

veScale是一个基于PyTorch的大规模语言模型训练框架，专为简化LLM训练过程而设计。它支持零代码修改、单设备抽象和自动并行规划，实现了张量并行、序列并行和数据并行等多种策略。框架还提供自动检查点重分片和nD分布式时间线功能，大幅提升了训练效率。作为一个持续发展的项目，veScale计划在未来引入更多先进功能，为研究人员和开发者提供全面的LLM训练解决方案。

nccl - 优化GPU间通信的高性能库

NCCLGPU通信NVIDIA并行计算深度学习Github开源项目

NCCL是NVIDIA开发的开源GPU通信库，为深度学习和高性能计算优化了全归约、广播等通信模式。它在PCIe、NVLink等平台上实现高带宽，支持单节点和多节点GPU应用。NCCL可用于任意数量的GPU，适配单进程和多进程（如MPI）环境，为AI和科学计算提供高效的通信解决方案。该项目提供简易的构建安装方法和灵活的编译选项，方便开发者根据需求优化性能。

cccl - 统一的CUDA C++核心库集合提升开发效率

CUDAC++CCCLNVIDIA并行计算Github开源项目

CUDA C++ Core Libraries (CCCL) 整合了Thrust、CUB和libcudacxx三个主要CUDA C++库。CCCL为开发者提供高效、安全的编程工具，简化CUDA开发流程。该项目支持多个CUDA工具包版本，具有跨平台兼容性，并通过持续更新来确保API稳定和性能提升。CCCL旨在成为CUDA C++开发的标准库，为GPU编程提供全面支持。

thundersvm - GPU加速的开源支持向量机库

ThunderSVM机器学习GPU加速支持向量机并行计算Github开源项目

ThunderSVM是一个开源的支持向量机库，通过GPU和多核CPU加速计算，显著提高SVM训练效率。该库实现了LibSVM的全部功能，支持一类SVM、SVC、SVR和概率SVM等多种模型。ThunderSVM提供Python、R、Matlab和Ruby等多种编程语言接口，跨平台兼容Linux、Windows和MacOS。采用与LibSVM一致的命令行参数，便于用户快速上手。作为高效的SVM实现，ThunderSVM为数据科学家和机器学习研究者提供了强大的工具支持。在某些大规模数据集上，ThunderSVM相比传统SVM实现可实现10-100倍的加速，已被多个知名机器学习项目采用。

ocl - Rust语言的高性能OpenCL库

OpenCLRust并行计算GPU编程高性能计算Github开源项目

ocl库为Rust开发者提供了高效的OpenCL编程接口。它不仅保留了OpenCL的全部功能，还简化了设备操作流程，减少了冗余代码。ocl的设计注重性能和安全性，适用于各种跨平台的高性能计算项目。支持OpenCL 1.1及更高版本，兼容主流操作系统。

pagmo2 - 高性能并行优化算法库支持多目标优化和大规模部署

pagmo优化算法并行计算C++库多目标优化Github开源项目

pagmo2是一个C++并行优化库，为大规模优化问题提供统一接口。它支持多种算法和多目标优化，可在并行环境中高效部署。该库具有高性能和可扩展性，适用于解决复杂优化问题。pagmo2提供完整文档，拥有活跃社区，是科学计算和优化领域的重要开源项目。

pygmo2 - 大规模并行优化Python库

pygmo优化算法并行计算Python库科学计算Github开源项目

pygmo是一个开源的、用于大规模并行优化的科学Python库。它围绕提供优化算法和优化问题的统一接口而构建，使其易于在大规模并行环境中部署。该库支持多目标优化和多种优化算法，能够高效处理复杂的优化问题和大规模数据。pygmo提供了全面的文档和教程，适用于研究、教学以及各种实际应用场景。其强大的功能和灵活性使其成为解决复杂优化挑战的理想工具。

neural-fortran - Fortran实现的开源并行深度学习框架

neural-fortran深度学习并行计算Fortran神经网络Github开源项目

neural-fortran是一个基于Fortran的开源深度学习框架,支持密集和卷积神经网络的训练与推理。该框架提供多种优化器和激活函数,支持从Keras HDF5文件加载模型,并实现数据并行。其特点包括高性能计算、易用性和可扩展性,适用于多种深度学习应用场景。

PARL - 灵活高效的强化学习开源框架

PARL强化学习并行计算分布式训练深度学习Github开源项目

PARL是一个开源的强化学习框架，专注于提供高效、灵活的开发环境。该框架具有良好的可复现性、大规模训练支持、高可重用性和易扩展性。PARL基于Model、Algorithm和Agent三个核心抽象，并提供简洁的分布式训练API。框架支持DQN、DDPG、SAC等多种算法实现，在多个强化学习挑战赛中表现出色。PARL适用于各类复杂任务的智能体训练，为强化学习研究和应用提供了有力工具。

warp-drive - GPU驱动的高效多智能体强化学习框架

WarpDrive深度强化学习GPU加速多智能体并行计算Github开源项目

WarpDrive是一款开源的强化学习框架，专为GPU环境优化。它支持单GPU或多GPU上的端到端多智能体强化学习，通过充分利用GPU并行计算能力，显著提升训练速度。WarpDrive通过减少CPU和GPU间的数据传输，并在多智能体和多环境副本间并行运行模拟，大幅提高了计算效率。这使得同时运行海量并发模拟成为可能，实现了比传统CPU方案高出百倍的训练吞吐量。

PERSIA - 突破百万亿参数的推荐模型训练框架

PERSIA推荐系统深度学习大规模训练并行计算Github开源项目

PERSIA代表'并行推荐训练系统与混合加速'，是一个创新的开源框架，专为训练超大规模深度学习推荐模型而设计。该系统能够处理高达100万亿参数的模型，在效率和可扩展性方面表现卓越。PERSIA不仅在公共数据集上展现出优势，还在大型商业应用中得到实际验证。作为首个公开的PyTorch基础推荐训练系统，PERSIA为推荐算法的研究和应用开辟了新的可能性。

pgx - JAX原生并行游戏模拟器库用于强化学习研究

Pgx强化学习游戏模拟器并行计算JAXGithub开源项目

Pgx是一个基于JAX的游戏模拟器库,专注于离散状态空间的强化学习研究。该库支持多种经典和现代棋牌游戏,包括国际象棋、围棋、将棋等。Pgx利用GPU/TPU实现高效并行计算,提供丰富的游戏环境和SVG可视化功能。其兼容PettingZoo API,方便研究人员进行实验。Pgx的设计旨在为强化学习研究提供高性能、多样化的仿真环境。

lbann - 多层次并行化的高性能深度学习框架

LBANN深度学习框架神经网络训练高性能计算并行计算Github开源项目

LBANN是一个开源的高性能深度学习训练框架，专注于多层次并行优化。它结合模型并行、数据并行和集成训练方法，高效处理大规模神经网络和海量数据。LBANN充分利用先进硬件资源，支持多种训练算法，包括监督、无监督、自监督和对抗性训练。该框架适用于需要高度可扩展性的深度学习研究和应用。

modin - 轻松实现pandas并行化加速

Modinpandas并行计算数据处理大数据Github开源项目

Modin是pandas的高性能替代方案,通过并行化计算显著提升数据处理速度。只需更改一行导入代码,即可利用全部CPU核心加速pandas工作流,特别适合大型数据集。Modin支持处理超出内存的数据,兼容90%以上pandas API,并支持Ray、Dask和MPI等多种计算引擎。它简化了分布式计算,让用户轻松获得性能提升。

nextflow - 基于数据流模型的可扩展工作流系统支持多平台部署

Nextflow工作流系统数据流编程并行计算可扩展性Github开源项目

Nextflow是一个基于数据流编程模型的工作流系统，用于创建可扩展、可移植和可重现的工作流。它简化了并行和分布式计算管道的编写过程，支持多种执行平台和依赖管理方式。Nextflow适用于本地机器、HPC集群、云平台和Kubernetes等环境，广泛应用于生物信息学等计算密集型领域。该项目拥有活跃的社区和完善的文档支持。

相关文章

Article Cover

threadpoolctl: 控制并发线程池的Python利器

Article Cover

Dask：灵活高效的Python并行计算库

Article Cover

HVM2: 革命性的并行函数式运行时

Article Cover

GTSFM: 基于GTSAM的端到端结构运动恢复框架

Article Cover

HVM: 高性能函数式运行时系统的革命性突破

Article Cover

GPU-Puzzles：通过解谜学习CUDA编程

Article Cover

深入解析sparse_dot_topn: 加速大规模稀疏矩阵乘法与Top-N选择的Python利器

Article Cover

PiPPy：为 PyTorch 提供高效的管道并行处理解决方案

Article Cover

ElegantRL: 一个高效、可扩展的深度强化学习库

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号