#高性能计算

SmartSim: 赋能高性能计算工作流的机器学习基础设施

2024年09月05日
Cover of SmartSim: 赋能高性能计算工作流的机器学习基础设施

OpenMDAO: 开源多学科设计分析与优化框架

2024年09月05日
Cover of OpenMDAO: 开源多学科设计分析与优化框架

LBANN: 利物莫尔大型人工神经网络工具包

2024年09月05日
Cover of LBANN: 利物莫尔大型人工神经网络工具包

猫头鹰:神秘的夜间猎手

2024年09月05日
Cover of 猫头鹰:神秘的夜间猎手

Aidget:专为边缘设备打造的AI部署利器

2024年09月05日
Cover of Aidget:专为边缘设备打造的AI部署利器

text2vec: 高效的文本向量化和自然语言处理框架

2024年09月05日
Cover of text2vec: 高效的文本向量化和自然语言处理框架

Enzyme.jl: Julia语言的高性能自动微分工具

2024年09月05日
Cover of Enzyme.jl: Julia语言的高性能自动微分工具

OCL: 开启OpenCL在Rust中的无限可能

2024年09月05日
Cover of OCL: 开启OpenCL在Rust中的无限可能

统一集体通信库UCC: 高性能计算和AI/ML工作负载的集体通信解决方案

2024年09月05日
Cover of 统一集体通信库UCC: 高性能计算和AI/ML工作负载的集体通信解决方案

深入解析sparse_dot_topn: 加速大规模稀疏矩阵乘法与Top-N选择的Python利器

2024年09月05日
Cover of 深入解析sparse_dot_topn: 加速大规模稀疏矩阵乘法与Top-N选择的Python利器
相关项目
Project Cover

paper-reading

本页面介绍了深度学习基础架构及其工程应用,包括编程语言、算法训练与推理部署、AI编译器加速和硬件工程。页面提供了Deep Learning、HPC高性能计算等学习资源和工具链接,并涵盖Docker、K8S、Protobuf与gRPC等工程化解决方案。还提供相关教程与代码示例,适合深度学习和高性能计算领域的开发者和研究人员。

Project Cover

deepmd-kit

DeePMD-kit是一个用Python和C++编写的软件包,专注于简化深度学习原子势能模型和力场的创建和分子动力学模拟。它与TensorFlow及多个高性能MD和量子MD软件包接口,确保高效的训练和计算。模块化设计使其支持多种描述符和高性能并行计算,适用于有机分子、金属、半导体等系统。

Project Cover

pytorch_scatter

该扩展库为PyTorch提供了高效的稀疏更新和分段操作,包含scatter、segment_coo和segment_csr,支持sum、mean、min和max等归约方式。操作可适用于不同数据类型,并支持CPU和GPU。复合功能包括scatter_std、scatter_logsumexp、scatter_softmax和scatter_log_softmax。安装过程简单,适用于各大操作系统和PyTorch/CUDA组合。

Project Cover

flashinfer

FlashInfer是一个面向大型语言模型(LLM)服务和推理的GPU内核库。它实现了多种注意力机制,如FlashAttention、SparseAttention和PageAttention。通过优化共享前缀批处理解码和压缩KV缓存等技术,FlashInfer提高了LLM推理效率。该项目兼容PyTorch、TVM和C++,便于集成到现有系统,适用于多种LLM应用场景。

Project Cover

fairscale

FairScale是一个开源的PyTorch扩展库,旨在提升大规模深度学习模型的训练效率。它不仅增强了PyTorch的基础功能,还引入了先进的模型扩展技术。通过提供模块化组件和简洁的API,FairScale使研究人员能够更轻松地实现分布式训练,有效应对资源受限情况下的模型扩展挑战。该库在设计时特别强调了易用性、模块化和性能优化,并支持全面分片数据并行(FSDP)等多种先进扩展技术。

Project Cover

taichi

Taichi是一款嵌入Python的开源并行编程语言,专注高性能数值计算。它利用LLVM等即时编译器将Python代码转译为GPU或CPU指令,支持CUDA、Vulkan等多种后端。Taichi以其灵活性、高性能和跨平台特性,广泛应用于物理模拟、数值分析、AR和AI等领域。

Project Cover

dash-infer

DashInfer是一款针对x86和ARMv9硬件架构优化的C++推理引擎,支持连续批处理和NUMA感知功能。该引擎可充分发挥现代服务器CPU性能,支持推理参数规模达14B的大语言模型。DashInfer采用轻量架构,提供高精度推理和标准LLM推理技术,兼容主流开源大语言模型,并集成了量化加速和优化计算内核等功能。

Project Cover

envpool

EnvPool是一款基于C++的高性能并行强化学习环境引擎。它支持Atari、Mujoco等多种环境,提供同步和异步执行模式,适用于单玩家和多玩家场景。EnvPool易于集成新环境,在高端硬件上可达到每秒100万Atari帧或300万Mujoco步骤的模拟速度,比传统Python子进程方法快约20倍。作为通用解决方案,EnvPool可显著加速各类强化学习环境的并行化执行。

Project Cover

DeepSpeed

DeepSpeed是一个先进的深度学习优化工具库,专门设计用于简化和增强分布式训练。通过一系列创新技术,如ZeRO、3D并行处理、MoE和ZeRO-Infinity,DeepSpeed能大幅提高训练速度,同时降低成本。这些技术支持在数千GPU上扩展模型训练,并实现低延迟和高吞吐量的推理性能。DeepSpeed同时提供了先进的模型压缩技术,优化模型存储与推理效率,是大规模AI模型训练和推理的优选方案。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号