#CUDA

NVIDIA TensorRT 开源软件提供插件和 ONNX 解析器的源码，展示 TensorRT 平台功能的示例应用。这些组件是 TensorRT GA 版本的一部分，并包含扩展和修复。用户可以轻松安装 TensorRT Python 包或根据构建指南编译。企业用户可使用 NVIDIA AI Enterprise 套件，并可加入 TensorRT 社区获取最新产品更新和最佳实践。

chainer - Python深度学习框架，支持动态计算图和CUDA加速

Chainer深度学习自动微分CuPyCUDAGithub开源项目

Chainer是一个Python深度学习框架，提供基于define-by-run方法的自动微分API（动态计算图）和面向对象的高级API，用于构建和训练神经网络。通过CuPy支持CUDA/cuDNN，实现高性能训练和推理。尽管Chainer已进入维护阶段，仅进行bug修复和维护，但其文档、教程和社区资源仍然活跃，适合研究和开发深度学习模型的用户。

nerfstudio - Nerfstudio 提供了一个简单的 API，可以简化创建、训练和测试 NeRF 的端到端过程

nerfstudioNeRFAICUDA文档Github开源项目

由伯克利AI研究院创建的nerfstudio是一个开源平台，专注于易于合作的NeRFs开发。它不仅实现了NeRFs的模块化和高解释性，还通过社区贡献和全面的学习资源促进技术探索与精通。

paper-reading - 深度学习基础架构与工程应用详细介绍

Deep LearningAI compiler高性能计算CUDA深度学习框架Github开源项目

本页面介绍了深度学习基础架构及其工程应用，包括编程语言、算法训练与推理部署、AI编译器加速和硬件工程。页面提供了Deep Learning、HPC高性能计算等学习资源和工具链接，并涵盖Docker、K8S、Protobuf与gRPC等工程化解决方案。还提供相关教程与代码示例，适合深度学习和高性能计算领域的开发者和研究人员。

cutlass - 高性能矩阵乘法与混合精度计算的CUDA C++模板库

CUTLASSGEMMCUDA高性能矩阵运算Tensor CoreGithub开源项目

CUTLASS是一个高性能CUDA C++模板库，旨在高效实现矩阵乘法(GEMM)及其扩展运算。支持各种精度与多个NVIDIA架构，如Volta、Turing、Ampere和Hopper。该库的模块化设计方便用户构建和优化自定义核心和应用程序。3.5.1版本新增特性以提升性能并增加新架构支持。

willow-inference-server - 高性能语言推理的开源自托管解决方案

Willow Inference ServerASRTTSCUDAWebRTCGithub开源项目

Willow Inference Server (WIS) 是一个高效的开源语言推理服务器，支持自托管并优化了CUDA和低端设备的使用。在减少内存和显存占用的前提下，能够同时加载多种语言模型。WIS 支持语音识别 (ASR)、文本到语音合成 (TTS) 以及大语言模型 (LLM)，并通过 REST、WebRTC 和 WebSockets 等多种传输方式，实现实时、低延迟的语音与语言处理，适用于各类助理任务和视障用户。

how-to-optim-algorithm-in-cuda - 记录如何基于 cuda 优化一些常见的算法

CUDAPyTorchOneFlow算法优化深度学习Github开源项目

本项目详尽介绍了基于CUDA的算法优化方法，涉及从基本元素操作到高级并行处理，包括多个CUDA示例和性能评测。此外，配合专业课程及学习笔记，适用于各层次对CUDA感兴趣的人士。项目还整合了多种教程和代码示例，助力快速学习和应用CUDA优化技术。

rtp-llm - 大型语言模型推理加速引擎

rtp-llm大语言模型CUDA量化多模态输入Github开源项目

rtp-llm是阿里巴巴基础模型推理团队开发的大型语言模型推理加速引擎，广泛应用于支持淘宝问答、天猫、菜鸟网络等业务，并显著提升处理效率。该项目基于高性能CUDA技术，支持多种权重格式和多模态输入处理，跨多个硬件后端。新版本增强了GPU内存管理和设备后端，优化了动态批处理功能，提高了用户的使用和体验效率。

hqq - 无需校准数据即可快速精确量化大模型的工具

HQQ模型量化torch.compileCUDA8,4,3,2,1 bitsGithub开源项目

HQQ是一种无需校准数据即可快速精确量化大模型的工具，支持从8bit到1bit的多种量化模式。兼容LLMs和视觉模型，并与多种优化的CUDA和Triton内核兼容，同时支持PEFT训练和Pytorch编译，提升推理和训练速度。详细基准测试和使用指南请访问官方博客。

marlin - 专为LLM推理设计的FP16xINT4优化内核

Marlin高效推理FP16xINT4CUDANVIDIA GPUGithub开源项目

Marlin是一款专为LLM推理设计的FP16xINT4优化内核，可实现接近4倍的速度提升，并支持16-32个token的batchsize。通过高效利用GPU资源，如全局内存、L2缓存、共享内存和张量核心，Marlin克服了现代GPU的FLOP和字节比率挑战。多种优化技术包括异步权重加载和双缓冲共享内存加载，确保性能最大化。该项目适用于CUDA 11.8及以上版本，支持NVIDIA Ampere或Ada架构的GPU，并与torch 2.0.0和numpy兼容。在各种基准测试中，Marlin展示了卓越的性能，尤其在持久计算和大batchsize处理方面表现出色。

tutel - Tutel：现代动态训练和推理的优化混合专家实现

TutelPytorchCUDAROCmMoEGithub开源项目

Tutel MoE是一种优化的专家混合实现，支持Pytorch、CUDA、ROCm和CPU等多种框架和硬件。它加速了动态训练和推理，并提供了多项功能更新，例如tensorcore选项、自定义专家扩展和NCCL超时设置。Tutel支持灵活配置和转换工具，适用于多节点和多GPU分布式模式。用户可以轻松集成和测试Tutel，并通过详尽的示例和文档获得技术支持。

iAI - 在Ubuntu平台上设置AI实验环境的详细指导

AIUbuntuNVIDIACUDAPytorchGithub开源项目

这篇文章提供了在Ubuntu平台上设置AI实验环境的详细指导，涵盖硬件要求、双系统安装、NVIDIA驱动、CUDA、cuDNN、Anaconda、OpenCV、Docker、TensorRT、Pytorch等软件的安装与配置。内容包括从基础环境搭建到深度学习算法如YOLO V3和Faster R-CNN的实际应用，并附有常见问题解答和最佳实践，帮助用户高效构建AI开发环境。

TensorRT-YOLO - 为YOLO目标检测模型提供推理加速解决方案

TensorRT-YOLOYOLO目标检测CUDA推理加速Github开源项目

此项目基于TensorRT，为YOLO目标检测模型提供推理加速解决方案，支持YOLOv3至YOLOv10及PP-YOLOE系列。集成EfficientNMS插件及CUDA技术，有效提升推理效率。支持C++和Python，包含CLI快速导出和推理功能，并提供Docker一键部署。推荐CUDA 11.6及以上版本和TensorRT 8.6及以上版本。

onnx-tensorrt - ONNX 的 TensorRT 后端

TensorRTONNXProtobufCUDAInstanceNormalizationGithub开源项目

本项目实现对ONNX模型的高效解析，支持在最新TensorRT 10.2版本上运行。还覆盖了多个ONNX操作符，提供详细的安装和构建指南。项目中包含C++和Python的使用示例，方便用户集成和运行ONNX模型。常见问题解答和变更日志有助于解决使用中的问题。

YOLOv8-TensorRT - 通过TensorRT加速YOLOv8模型，提供在CUDA环境下的快速部署和推理解决方案

YOLOv8TensorRTCUDAONNXPyTorchGithub开源项目

本项目通过TensorRT加速YOLOv8模型，提供在CUDA环境下的快速部署和高效推理解决方案。包括环境准备、模型导出、引擎构建和多种推理方法，支持Python和C++语言。特性涵盖ONNX模型导出、端到端引擎构建和模型推理，适用于图像和视频的不同输入源。支持Jetson设备，并附有详细的文档和脚本，便于操作，提升深度学习应用性能。

tiny-tensorrt - 简洁易用的nvidia TensorRT封装库，支持通过C++和Python API快速部署Onnx模型

tiny-tensorrtTensorRTCUDACUDNNonnx modelGithub开源项目

tiny-tensorrt是一个简洁易用的nvidia TensorRT封装库，支持通过C++和Python API快速部署Onnx模型。依赖CUDA、CUDNN和TensorRT，兼容多个版本。项目已停止维护，建议使用TensorRT的Python API或trtexec/polygraphy工具。更多信息请参考项目Wiki。

stable-fast - 优化HuggingFace Diffusers推理性能的轻量级框架

Stable FastDiffusersPyTorchCUDATorchScriptGithub开源项目

stable-fast是一个优化HuggingFace Diffusers推理性能的轻量级框架，支持NVIDIA GPU。相比TensorRT和AITemplate需要几十分钟的编译时间，stable-fast仅需几秒钟即可完成模型编译。主要特色包括动态形状、低精度计算和多种算子融合。它还兼容ControlNet和LoRA，并支持最新的StableVideoDiffusionPipeline，是加速PyTorch推理的有效工具。

Real-Time-Latent-Consistency-Model - 实时潜在一致性模型，支持多种图像转换管道

Latent Consistency ModelDiffusersControlNetLoRACUDAGithub开源项目

此项目展示了使用Diffusers进行图像转换的实时潜在一致性模型（LCM），支持img2img、txt2img、ControlNet等多种管道。需要CUDA和Python 3.10等环境支持，提供详细的安装指南和使用示例。LCM + LoRAs可以在极少步骤内完成推理，加快处理速度。项目支持Docker部署，并提供不同平台的实时演示链接。

torch-conv-kan - 引入基于Kolmogorov-Arnold表示理论的高效卷积神经网络

TorchConv KANKolmogorov-Arnold NetworksPyTorchConvolutional layersCUDAGithub开源项目

项目展示了使用PyTorch和CUDA加速的Kolmogorov-Arnold网络（KAN）模型的训练、验证和量化，支持MNIST、CIFAR、TinyImagenet和Imagenet1k数据集的性能评估。当前项目持续开发，已发布涉及ResNet、VGG、DenseNet、U-net等架构的新模型和预训练权重，适用于医疗图像分割和高效卷积神经网络的进一步研究和优化。

CCTag - 检测和定位同心圆标记的高效工具库

CCTag检测计算机视觉GPUCUDAGithub开源项目

CCTag库是一款用于检测和定位同心圆标记的高效工具，兼容CPU和GPU实现。基于CVPR 2016会议论文，该库在严苛条件下表现出色。支持CUDA 8.0及更新版本，建议使用平面支撑材料以保证检测准确性。提供详细文档和持续集成支持，适用于Windows和Linux系统。

tiny-cuda-nn - 专注于快速训练和查询神经网络的开源框架

Tiny CUDA Neural Networks深度学习CUDAC++编程GPUGithub开源项目

Tiny CUDA Neural Networks是一个紧凑、高效的开源框架，专注于快速训练和查询神经网络。它包含优化的多层感知器（MLP）和多分辨率哈希编码，并支持多种输入编码、损失函数和优化器。适用于NVIDIA GPU，通过C++/CUDA API和PyTorch扩展，助力高性能计算和深度学习项目。

3d-ken-burns - 从单幅图像生成3D Ken Burns效果

3d-ken-burnsPyTorchCUDACuPydepth estimationGithub开源项目

这个开源项目使用PyTorch，从单幅图像生成3D Ken Burns效果。它提供全自动生成、手动调整摄像机路径、深度估计和性能基准测试等多种功能，并支持在Colab上运行。项目依赖CuPy和moviepy库，并需要正确配置CUDA环境。数据集仅限于非商业用途，更多细节参见LICENSE文件。

gocv - Go语言的OpenCV绑定，支持CUDA和OpenVINO加速

GoCVOpenCV 4Go languageCUDAIntel OpenVINOGithub开源项目

GoCV提供了Go语言对OpenCV 4的绑定，支持最新版本的Go和OpenCV（v4.10.0），兼容Linux、macOS和Windows。它支持Nvidia GPU的CUDA加速和Intel OpenVINO工具包，适用于视频捕捉和人脸检测等计算机视觉任务。详细的安装指南和示例代码帮助用户快速入门，支持Docker开发并可定制安装环境。

DeepStream-Yolo - NVIDIA DeepStream SDK的YOLO模型配置与优化指南

DeepStreamYOLONVIDIATensorRTCUDAGithub开源项目

该项目为多个版本及平台的YOLO模型提供NVIDIA DeepStream SDK配置和优化指南，包括YOLOv5、YOLOv6、YOLOv7和YOLOv8等。项目功能涵盖INT8校准、动态批处理及GPU边界框解析，并提供详细的安装、使用和自定义模型指南，帮助用户实现高效的GPU处理和模型转换。

torchrec - 旨在提供大规模推荐系统所需的常见稀疏性和并行性原语的PyTorch库

TorchRecPyTorch推荐系统CUDAFBGEMMGithub开源项目

TorchRec是一个专为大规模推荐系统设计的PyTorch库，提供稀疏性和并行性解决方案。它支持多种嵌入表分片策略，并能自动优化分片计划。通过流水线训练和优化内核，提高模型性能。还支持量化训练和推理，包含多个验证的模型架构和数据集示例，适用于需要高性能和扩展性的推荐系统项目。

TensorRT - 提升PyTorch推理效率的工具

Torch-TensorRTPyTorchCUDATensorRT安装Github开源项目

Torch-TensorRT将TensorRT的强大功能引入PyTorch，用户仅需一行代码即可显著提升推理性能。该工具支持在多个平台上安装，包括PyPI和NVIDIA NGC PyTorch容器。通过torch.compile或导出式工作流，用户可以高效优化和部署模型。Torch-TensorRT依赖CUDA和TensorRT，与Linux和Windows等多种平台兼容。提供丰富资源，包括教程、工具和技术讲座，供用户学习使用。

torch-points3d - 用于在点云上进行深度学习的 Pytorch 框架

torch-points3d深度学习点云分析PyTorchCUDAGithub开源项目

一个用于点云分析的深度学习框架，基于Pytorch Geometric和Facebook Hydra。该框架支持构建复杂模型并提供高层次API，支持PointNet、PointNet++、RSConv等常见模型，便捷实现分类、分割和检测任务。推荐使用Docker安装以确保兼容性。了解更多信息，请查阅文档和示例笔记本。

ppl.llm.kernel.cuda - 优化大语言模型计算的CUDA内核库

PPL LLMCUDAAI计算GPU加速深度学习Github开源项目

ppl.llm.kernel.cuda是PPL.LLM系统的核心组件，为大语言模型提供CUDA内核实现。该项目针对Ampere和Hopper架构优化，支持x86_64和arm64平台。它提供简单的构建流程，包含NCCL和JIT编译选项，便于性能调优。作为开源项目，ppl.llm.kernel.cuda旨在提高大规模语言模型的计算效率，为AI开发提供底层支持。

ppl.llm.serving - 基于ppl.nn的大型语言模型服务框架

PPL LLM Serving大型语言模型推理服务CUDAgRPCGithub开源项目

ppl.llm.serving是基于ppl.nn的大型语言模型服务框架，提供gRPC服务器支持LLaMA等模型推理。该项目支持多GPU、离线推理，并具备模型导出、服务部署和性能测试功能。适用于x86_64和arm64平台，可用于构建和部署大规模语言模型服务。

k2 - 高性能自动微分FSA/FST算法库支持语音识别

k2有限状态自动机语音识别PyTorchCUDAGithub开源项目

k2是一个高性能的有限状态自动机(FSA)和有限状态转换器(FST)算法库，旨在与PyTorch和TensorFlow等自动微分工具包无缝集成。该库主要应用于语音识别领域，支持交叉熵、CTC和MMI等多种训练目标的融合，并能优化多阶段解码系统。k2基于C++和CUDA实现，提供高效并行计算，并与PyTorch深度集成，为语音识别技术的进一步发展提供了灵活而强大的框架。

llm.c - 纯C和CUDA实现的高效轻量级语言模型训练框架

LLMC语言CUDAGPU训练开源项目Github

llm.c是一个使用纯C和CUDA实现的高效轻量级语言模型训练框架。该项目不依赖PyTorch或cPython等大型框架，通过简洁代码实现GPT-2和GPT-3系列模型的预训练。llm.c支持单GPU、多GPU和多节点训练，提供详细教程和实验示例。项目在保持代码可读性的同时追求高性能，适用于教育和实际应用。此外，llm.c支持多种硬件平台，并有多个编程语言的移植版本。

ThunderKittens - 高效瓦片原语框架助力深度学习内核开发

ThunderKittensCUDAGPU编程深度学习矩阵运算Github开源项目

ThunderKittens是一个用于开发高性能CUDA深度学习内核的框架。它基于现代GPU架构设计,通过操作16x16及以上的数据瓦片实现高效计算。框架支持张量核心、共享内存优化和异步数据传输等特性,充分利用GPU性能。ThunderKittens以简洁、可扩展和高速为设计原则,适用于各类深度学习算法的高效实现。

accelerated-scan - GPU加速的并行扫描算法高效解决一阶递归

Accelerated ScanGPU并行计算CUDATritonGithub开源项目

accelerated-scan是一个Python包，实现了GPU上高效的一阶并行关联扫描。该项目采用分块处理算法和GPU通信原语，能快速处理状态空间模型和线性RNN中的一阶递归问题。支持前向和后向扫描，提供C++ CUDA内核和Triton实现，在不同序列长度下均有出色性能表现。适用于深度学习和信号处理等需要高性能递归计算的领域。

lectures - GPU并行计算技术与高性能编程系列讲座

CUDAGPU编程并行计算PyTorch深度学习Github开源项目

讲座系列涉及CUDA、PyTorch优化、量化技术和稀疏计算等GPU编程前沿话题。由行业专家授课，内容包括性能分析、内存架构和优化方法。结合理论和实践，帮助学习者掌握并行计算技能，增强GPU编程水平。面向对GPU加速和深度学习优化感兴趣的技术人员。

hidet - 用Python编写的开源深度学习编译器，主要优化NVIDIA GPU上的推理任务

Hidet深度学习编译器CUDAPyTorchONNXGithub开源项目

Hidet是一个用Python编写的开源深度学习编译器，主要优化NVIDIA GPU上的推理任务。它能将PyTorch和ONNX模型编译成高效的CUDA内核，通过图级和算子级优化提升性能。Hidet易于集成，支持通过torch.compile优化PyTorch模型，为开发者提供了便捷的深度学习性能优化方案。

kohya_ss - Stable Diffusion模型训练图形界面工具

Kohya's GUIStable Diffusion训练参数LoRACUDAGithub开源项目

kohya_ss是一个开源的Stable Diffusion模型训练工具,提供图形用户界面。用户可以通过界面设置训练参数,生成所需的命令行指令。支持多个操作系统,具备LoRA训练和样本图像生成等功能。该工具简化了Stable Diffusion模型的自定义训练流程,有助于AI图像生成。

Chainer: 灵活强大的深度学习框架

2024年08月30日

Nerfstudio: 一个模块化的神经辐射场开发框架

2024年08月30日

CUTLASS: NVIDIA的高性能CUDA线性代数库

2024年08月30日

RTP-LLM: 阿里巴巴的高性能大语言模型推理引擎

2024年08月30日

HQQ: 快速高效的大型机器学习模型量化方法

2024年08月30日

Marlin固件：开源3D打印机驱动程序的革新之作

2024年08月30日

Willow推理服务器:优化的本地语音和语言处理解决方案

2024年08月31日

深入解析paper-reading项目：连接算法与工程的桥梁

2024年08月31日

TensorRT: NVIDIA的高性能深度学习推理引擎

2024年08月30日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com