#Triton

GenerativeAIExamples - 生成式AI示例，快速部署和测试

NVIDIARAGLangChainTritonNeMoGithub开源项目

NVIDIA提供的生成式AI示例，使用CUDA-X软件栈和NVIDIA GPU，展示快速部署、测试和扩展AI模型的方法。包括最新的RAG管道构建技巧、实验性示例和企业应用，支持本地和远程推理，集成流行LLM编程框架，并附有详细开发文档。

attorch - 易于修改的Python神经网络模块

attorchPyTorchTriton深度学习神经网络模块Github开源项目

attorch是一个基于OpenAI Triton的PyTorch模块子集，提供易于修改的高效神经网络模块。支持自动混合精度、计算机视觉和自然语言处理相关层。

accelerated-scan - GPU加速的并行扫描算法高效解决一阶递归

Accelerated ScanGPU并行计算CUDATritonGithub开源项目

accelerated-scan是一个Python包，实现了GPU上高效的一阶并行关联扫描。该项目采用分块处理算法和GPU通信原语，能快速处理状态空间模型和线性RNN中的一阶递归问题。支持前向和后向扫描，提供C++ CUDA内核和Triton实现，在不同序列长度下均有出色性能表现。适用于深度学习和信号处理等需要高性能递归计算的领域。

triton - 开源高效深度学习原语编程语言与编译器

Triton深度学习GPU编程编译器LLVMGithub开源项目

Triton是一种开源编程语言和编译器，专为编写高效的自定义深度学习原语而设计。它提供了一个兼具高生产力和灵活性的开发环境，性能优于CUDA，灵活性超过其他领域特定语言。Triton支持NVIDIA和AMD GPU平台，提供完善的文档和教程。用户可通过pip轻松安装，也支持源代码构建。该项目持续更新，最新版本进行了大量性能优化和问题修复。

jax-triton - JAX与Triton集成实现GPU计算加速

JAXTritonjax-tritonCUDAGPU加速Github开源项目

jax-triton项目实现了JAX和Triton的集成，让开发者能在JAX中使用Triton的GPU计算功能。通过triton_call函数，可在JAX编译函数中应用Triton内核，提高计算密集型任务效率。项目提供文档和示例，适合机器学习和科学计算领域的GPU计算优化需求。

tensorrtllm_backend - TensorRT-LLM后端适用于Triton的大语言模型推理引擎

TensorRT-LLMTriton推理服务GPU深度学习Github开源项目

TensorRT-LLM Backend是Triton Inference Server的专用后端，用于部署和服务TensorRT-LLM模型。它集成了in-flight batching和paged attention等先进特性，显著提升了大语言模型的推理效率。通过简洁的接口设计，此后端使TensorRT-LLM模型能无缝集成到Triton服务中，为用户提供高性能、可扩展的AI推理解决方案。

相关文章

Article Cover

NVIDIA GenerativeAIExamples：加速生成式AI工作流的开源项目

Article Cover

attorch: 用 Python 和 OpenAI Triton 重写 PyTorch 神经网络模块

Article Cover

JAX-Triton: 融合JAX和Triton的高性能深度学习工具

Article Cover

TensorRT-LLM 后端: 在 Triton 推理服务器上高效部署大型语言模型

Article Cover

GenerativeAIExamples学习资料汇总 - NVIDIA开源的生成式AI参考工作流

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号