#CUDA

Willow Inference Server入门指南 - 开源自托管的高性能语音和语言推理服务器

2 个月前
Cover of Willow Inference Server入门指南 - 开源自托管的高性能语音和语言推理服务器

Marlin入门学习资料 - 高性能LLM推理内核

2 个月前
Cover of Marlin入门学习资料 - 高性能LLM推理内核

HQQ量化学习资料汇总 - 快速准确的大模型量化工具

2 个月前
Cover of HQQ量化学习资料汇总 - 快速准确的大模型量化工具

rtp-llm学习资料汇总 - 阿里巴巴高性能LLM推理引擎

2 个月前
Cover of rtp-llm学习资料汇总 - 阿里巴巴高性能LLM推理引擎

CUTLASS学习资料汇总 - CUDA矩阵乘法库

2 个月前
Cover of CUTLASS学习资料汇总 - CUDA矩阵乘法库

nerfstudio入门指南 - 模块化神经辐射场开发框架

2 个月前
Cover of nerfstudio入门指南 - 模块化神经辐射场开发框架

Chainer学习资源汇总 - 灵活的深度学习框架

2 个月前
Cover of Chainer学习资源汇总 - 灵活的深度学习框架

TensorRT学习资料汇总 - 高性能深度学习推理SDK

2 个月前
Cover of TensorRT学习资料汇总 - 高性能深度学习推理SDK

CuPy: 高性能GPU加速的NumPy/SciPy替代库

3 个月前
Cover of CuPy: 高性能GPU加速的NumPy/SciPy替代库

ComfyUI: 强大灵活的AI图像生成工具

3 个月前
Cover of ComfyUI: 强大灵活的AI图像生成工具
相关项目
Project Cover

chainer

Chainer是一个Python深度学习框架,提供基于define-by-run方法的自动微分API(动态计算图)和面向对象的高级API,用于构建和训练神经网络。通过CuPy支持CUDA/cuDNN,实现高性能训练和推理。尽管Chainer已进入维护阶段,仅进行bug修复和维护,但其文档、教程和社区资源仍然活跃,适合研究和开发深度学习模型的用户。

Project Cover

nerfstudio

由伯克利AI研究院创建的nerfstudio是一个开源平台,专注于易于合作的NeRFs开发。它不仅实现了NeRFs的模块化和高解释性,还通过社区贡献和全面的学习资源促进技术探索与精通。

Project Cover

paper-reading

本页面介绍了深度学习基础架构及其工程应用,包括编程语言、算法训练与推理部署、AI编译器加速和硬件工程。页面提供了Deep Learning、HPC高性能计算等学习资源和工具链接,并涵盖Docker、K8S、Protobuf与gRPC等工程化解决方案。还提供相关教程与代码示例,适合深度学习和高性能计算领域的开发者和研究人员。

Project Cover

cutlass

CUTLASS是一个高性能CUDA C++模板库,旨在高效实现矩阵乘法(GEMM)及其扩展运算。支持各种精度与多个NVIDIA架构,如Volta、Turing、Ampere和Hopper。该库的模块化设计方便用户构建和优化自定义核心和应用程序。3.5.1版本新增特性以提升性能并增加新架构支持。

Project Cover

willow-inference-server

Willow Inference Server (WIS) 是一个高效的开源语言推理服务器,支持自托管并优化了CUDA和低端设备的使用。在减少内存和显存占用的前提下,能够同时加载多种语言模型。WIS 支持语音识别 (ASR)、文本到语音合成 (TTS) 以及大语言模型 (LLM),并通过 REST、WebRTC 和 WebSockets 等多种传输方式,实现实时、低延迟的语音与语言处理,适用于各类助理任务和视障用户。

Project Cover

how-to-optim-algorithm-in-cuda

本项目详尽介绍了基于CUDA的算法优化方法,涉及从基本元素操作到高级并行处理,包括多个CUDA示例和性能评测。此外,配合专业课程及学习笔记,适用于各层次对CUDA感兴趣的人士。项目还整合了多种教程和代码示例,助力快速学习和应用CUDA优化技术。

Project Cover

rtp-llm

rtp-llm是阿里巴巴基础模型推理团队开发的大型语言模型推理加速引擎,广泛应用于支持淘宝问答、天猫、菜鸟网络等业务,并显著提升处理效率。该项目基于高性能CUDA技术,支持多种权重格式和多模态输入处理,跨多个硬件后端。新版本增强了GPU内存管理和设备后端,优化了动态批处理功能,提高了用户的使用和体验效率。

Project Cover

hqq

HQQ是一种无需校准数据即可快速精确量化大模型的工具,支持从8bit到1bit的多种量化模式。兼容LLMs和视觉模型,并与多种优化的CUDA和Triton内核兼容,同时支持PEFT训练和Pytorch编译,提升推理和训练速度。详细基准测试和使用指南请访问官方博客。

Project Cover

TensorRT

NVIDIA TensorRT 开源软件提供插件和 ONNX 解析器的源码,展示 TensorRT 平台功能的示例应用。这些组件是 TensorRT GA 版本的一部分,并包含扩展和修复。用户可以轻松安装 TensorRT Python 包或根据构建指南编译。企业用户可使用 NVIDIA AI Enterprise 套件,并可加入 TensorRT 社区获取最新产品更新和最佳实践。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号