#CUDA

Willow Inference Server入门指南 - 开源自托管的高性能语音和语言推理服务器

2 个月前

Willow Inference Server ASR TTS CUDA WebRTC Github 开源项目

2 个月前

Marlin入门学习资料 - 高性能LLM推理内核

2 个月前

Marlin 高效推理 FP16xINT4 CUDA NVIDIA GPU Github 开源项目

2 个月前

HQQ量化学习资料汇总 - 快速准确的大模型量化工具

2 个月前

HQQ 模型量化 torch.compile CUDA 8,4,3,2,1 bits Github 开源项目

2 个月前

rtp-llm学习资料汇总 - 阿里巴巴高性能LLM推理引擎

2 个月前

rtp-llm 大语言模型 CUDA 量化多模态输入 Github 开源项目

2 个月前

CUTLASS学习资料汇总 - CUDA矩阵乘法库

2 个月前

CUTLASS GEMM CUDA 高性能矩阵运算 Tensor Core Github 开源项目

2 个月前

nerfstudio入门指南 - 模块化神经辐射场开发框架

2 个月前

nerfstudio NeRF AI CUDA 文档 Github 开源项目

2 个月前

Chainer学习资源汇总 - 灵活的深度学习框架

2 个月前

Chainer 深度学习自动微分 CuPy CUDA Github 开源项目

2 个月前

TensorRT学习资料汇总 - 高性能深度学习推理SDK

2 个月前

TensorRT NVIDIA ONNX CUDA Docker Github 开源项目

2 个月前

CuPy: 高性能GPU加速的NumPy/SciPy替代库

3 个月前

CuPy GPU计算 NumPy兼容 CUDA Python Github 开源项目

3 个月前

ComfyUI: 强大灵活的AI图像生成工具

3 个月前

ComfyUI Docker AI-Dock CUDA ROCm Github 开源项目

3 个月前

相关项目

chainer

Chainer是一个Python深度学习框架，提供基于define-by-run方法的自动微分API（动态计算图）和面向对象的高级API，用于构建和训练神经网络。通过CuPy支持CUDA/cuDNN，实现高性能训练和推理。尽管Chainer已进入维护阶段，仅进行bug修复和维护，但其文档、教程和社区资源仍然活跃，适合研究和开发深度学习模型的用户。

nerfstudio

由伯克利AI研究院创建的nerfstudio是一个开源平台，专注于易于合作的NeRFs开发。它不仅实现了NeRFs的模块化和高解释性，还通过社区贡献和全面的学习资源促进技术探索与精通。

paper-reading

本页面介绍了深度学习基础架构及其工程应用，包括编程语言、算法训练与推理部署、AI编译器加速和硬件工程。页面提供了Deep Learning、HPC高性能计算等学习资源和工具链接，并涵盖Docker、K8S、Protobuf与gRPC等工程化解决方案。还提供相关教程与代码示例，适合深度学习和高性能计算领域的开发者和研究人员。

cutlass

CUTLASS是一个高性能CUDA C++模板库，旨在高效实现矩阵乘法(GEMM)及其扩展运算。支持各种精度与多个NVIDIA架构，如Volta、Turing、Ampere和Hopper。该库的模块化设计方便用户构建和优化自定义核心和应用程序。3.5.1版本新增特性以提升性能并增加新架构支持。

willow-inference-server

Willow Inference Server (WIS) 是一个高效的开源语言推理服务器，支持自托管并优化了CUDA和低端设备的使用。在减少内存和显存占用的前提下，能够同时加载多种语言模型。WIS 支持语音识别 (ASR)、文本到语音合成 (TTS) 以及大语言模型 (LLM)，并通过 REST、WebRTC 和 WebSockets 等多种传输方式，实现实时、低延迟的语音与语言处理，适用于各类助理任务和视障用户。

how-to-optim-algorithm-in-cuda

本项目详尽介绍了基于CUDA的算法优化方法，涉及从基本元素操作到高级并行处理，包括多个CUDA示例和性能评测。此外，配合专业课程及学习笔记，适用于各层次对CUDA感兴趣的人士。项目还整合了多种教程和代码示例，助力快速学习和应用CUDA优化技术。

rtp-llm

rtp-llm是阿里巴巴基础模型推理团队开发的大型语言模型推理加速引擎，广泛应用于支持淘宝问答、天猫、菜鸟网络等业务，并显著提升处理效率。该项目基于高性能CUDA技术，支持多种权重格式和多模态输入处理，跨多个硬件后端。新版本增强了GPU内存管理和设备后端，优化了动态批处理功能，提高了用户的使用和体验效率。

hqq

HQQ是一种无需校准数据即可快速精确量化大模型的工具，支持从8bit到1bit的多种量化模式。兼容LLMs和视觉模型，并与多种优化的CUDA和Triton内核兼容，同时支持PEFT训练和Pytorch编译，提升推理和训练速度。详细基准测试和使用指南请访问官方博客。

TensorRT

NVIDIA TensorRT 开源软件提供插件和 ONNX 解析器的源码，展示 TensorRT 平台功能的示例应用。这些组件是 TensorRT GA 版本的一部分，并包含扩展和修复。用户可以轻松安装 TensorRT Python 包或根据构建指南编译。企业用户可使用 NVIDIA AI Enterprise 套件，并可加入 TensorRT 社区获取最新产品更新和最佳实践。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com