Project Icon

nccl-rdma-sharp-plugins

NCCL插件,支持RDMA和SHARP的GPU通信优化工具

nccl-rdma-sharp-plugins是NVIDIA NCCL库的扩展插件,为GPU通信提供RDMA和SHARP支持。该项目依赖MOFED、CUDA等组件,使用GNU autotools进行构建。通过优化GPU间数据交换,该插件可提升分布式深度学习等场景的通信效率。项目开源,适合需要高性能GPU通信的开发者和研究人员使用。

AMGX - 高性能代数多重网格GPU加速求解器库
AmgXGPU加速GithubNVIDIA多重网格法开源项目线性求解器
AMGX是NVIDIA开发的GPU加速线性求解器库,旨在加速计算密集型仿真的线性求解环节。它具有灵活的求解器组合系统,可构建复杂的嵌套求解器和预处理器。AMGX针对大规模并行计算进行了优化,支持单GPU或多GPU运算,并通过C API简化了并行处理。该库支持多精度计算、复数数据类型和分布式求解,适用于隐式非结构化方法。AMGX为科学计算和工程仿真提供了高效的GPU线性代数解决方案。
warp-drive - GPU驱动的高效多智能体强化学习框架
GPU加速GithubWarpDrive多智能体并行计算开源项目深度强化学习
WarpDrive是一款开源的强化学习框架,专为GPU环境优化。它支持单GPU或多GPU上的端到端多智能体强化学习,通过充分利用GPU并行计算能力,显著提升训练速度。WarpDrive通过减少CPU和GPU间的数据传输,并在多智能体和多环境副本间并行运行模拟,大幅提高了计算效率。这使得同时运行海量并发模拟成为可能,实现了比传统CPU方案高出百倍的训练吞吐量。
marlin - 专为LLM推理设计的FP16xINT4优化内核
CUDAFP16xINT4GithubMarlinNVIDIA GPU开源项目高效推理
Marlin是一款专为LLM推理设计的FP16xINT4优化内核,可实现接近4倍的速度提升,并支持16-32个token的batchsize。通过高效利用GPU资源,如全局内存、L2缓存、共享内存和张量核心,Marlin克服了现代GPU的FLOP和字节比率挑战。多种优化技术包括异步权重加载和双缓冲共享内存加载,确保性能最大化。该项目适用于CUDA 11.8及以上版本,支持NVIDIA Ampere或Ada架构的GPU,并与torch 2.0.0和numpy兼容。在各种基准测试中,Marlin展示了卓越的性能,尤其在持久计算和大batchsize处理方面表现出色。
hybridclr - Unity全平台原生C#热更新技术
C#GithubHybridCLRUnityil2cpp开源项目热更新
HybridCLR为Unity开发者提供了一种高效的C#热更新解决方案。它通过扩展il2cpp运行时,实现了AOT和解释器的混合运行模式,支持动态加载程序集。这一技术适用于iOS、Android等所有il2cpp支持的平台。HybridCLR实现了大部分ECMA-335规范,支持多线程、MonoBehaviour和DOTS等Unity核心功能。它具有高性能和低内存占用的特点,同时还提供了创新的差分混合执行和热重载功能,为Unity开发带来了更多灵活性。
nvidia-auto-installer-for-fedora-linux - Fedora Linux上简化NVIDIA驱动安装的命令行工具
Fedora LinuxGPUGithubNVIDIA命令行工具开源项目驱动安装
这是一个为Fedora Linux设计的命令行工具,简化了NVIDIA专有驱动程序和相关软件的安装过程。支持多种安装模式,包括驱动程序、CUDA和FFMPEG加速等。适用于Fedora 32及以上版本,并针对Optimus双显卡系统优化。该工具提供了一种安全高效的方法来配置NVIDIA GPU,使整个过程变得更加简单直观。
neural-compressor - 开源深度学习模型压缩工具库
GithubIntel Neural Compressor大语言模型开源项目模型压缩深度学习框架量化
Neural Compressor是一款开源深度学习模型压缩工具库,支持TensorFlow、PyTorch和ONNX Runtime等主流框架。它提供量化、剪枝、知识蒸馏等多种压缩技术,适用于Intel等多种硬件平台。该工具支持大语言模型优化,并与主流云服务和AI生态系统集成。其自动化的精度感知量化策略有助于平衡模型性能和精度。
algebraic-nnhw - 创新FFIP算法驱动的机器学习硬件加速器
GithubML硬件架构SystemVerilog内积算法开源项目深度神经网络加速器系统架构
项目开发的机器学习硬件加速器架构采用了创新的Free-pipeline Fast Inner Product (FFIP)算法。这种设计只需要传统方法一半的乘法器单元,就能实现相同的性能。该架构适用范围广泛,涵盖全连接、卷积、循环和注意力/transformer等多种机器学习模型层。它可以轻松集成到现有的定点系统阵列ML加速器中,显著提升吞吐量和计算效率。项目不仅提供了完整的RTL实现,还包括配套的编译器和测试环境,为机器学习硬件加速研究领域贡献了有价值的资源。
grpc - 开源高性能RPC框架 简化分布式系统开发
GithubRPC框架gRPC开源开源项目远程过程调用高性能
gRPC是一个开源的高性能远程过程调用(RPC)框架,支持多种编程语言。它实现了客户端和服务器应用程序的透明通信,简化了分布式系统的构建。gRPC具有高效、跨平台、多语言支持等特点,广泛应用于分布式系统和微服务架构。该框架提供丰富的文档和示例,便于开发者快速上手。gRPC的核心库采用C++实现,保证了优异的性能表现。
instant-ngp - 高效训练和渲染神经图形基元的开源框架
3D重建GithubNeRF实时渲染开源项目机器学习神经图形基元
instant-ngp是一个基于CUDA的开源框架,用于高效训练和渲染神经图形基元。该项目支持NeRF、SDF、神经图像和神经体积等多种基元,通过多分辨率哈希编码和tiny-cuda-nn实现快速训练。instant-ngp提供交互式GUI、VR模式和相机路径编辑等功能,便于探索和创建各类神经图形。此外,其Python接口支持自动化实验和功能扩展。
torchmd-net - 神经网络势能模型的高效训练与实现框架
GPU加速GithubPyTorchTorchMD-NET分子动力学开源项目神经网络势能
TorchMD-NET是一个先进的神经网络势能(NNP)模型框架,提供高效快速的NNP实现。该框架与ACEMD、OpenMM和TorchMD等GPU加速分子动力学代码集成,并将NNP作为PyTorch模块提供。项目支持等变Transformer、Transformer、图神经网络和TensorNet等多种架构,可通过conda-forge安装或从源代码构建。TorchMD-NET具有灵活的训练配置选项,支持自定义数据集和多节点训练,并提供预训练模型。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号