#Triton

GenerativeAIExamples学习资料汇总 - NVIDIA开源的生成式AI参考工作流

2024年09月10日
Cover of GenerativeAIExamples学习资料汇总 - NVIDIA开源的生成式AI参考工作流

TensorRT-LLM 后端: 在 Triton 推理服务器上高效部署大型语言模型

2024年09月05日
Cover of TensorRT-LLM 后端: 在 Triton 推理服务器上高效部署大型语言模型

JAX-Triton: 融合JAX和Triton的高性能深度学习工具

2024年09月05日
Cover of JAX-Triton: 融合JAX和Triton的高性能深度学习工具

attorch: 用 Python 和 OpenAI Triton 重写 PyTorch 神经网络模块

2024年08月31日
Cover of attorch: 用 Python 和 OpenAI Triton 重写 PyTorch 神经网络模块

NVIDIA GenerativeAIExamples:加速生成式AI工作流的开源项目

2024年08月30日
Cover of NVIDIA GenerativeAIExamples:加速生成式AI工作流的开源项目
相关项目
Project Cover

GenerativeAIExamples

NVIDIA提供的生成式AI示例,使用CUDA-X软件栈和NVIDIA GPU,展示快速部署、测试和扩展AI模型的方法。包括最新的RAG管道构建技巧、实验性示例和企业应用,支持本地和远程推理,集成流行LLM编程框架,并附有详细开发文档。

Project Cover

attorch

attorch是一个基于OpenAI Triton的PyTorch模块子集,提供易于修改的高效神经网络模块。支持自动混合精度、计算机视觉和自然语言处理相关层。

Project Cover

accelerated-scan

accelerated-scan是一个Python包,实现了GPU上高效的一阶并行关联扫描。该项目采用分块处理算法和GPU通信原语,能快速处理状态空间模型和线性RNN中的一阶递归问题。支持前向和后向扫描,提供C++ CUDA内核和Triton实现,在不同序列长度下均有出色性能表现。适用于深度学习和信号处理等需要高性能递归计算的领域。

Project Cover

triton

Triton是一种开源编程语言和编译器,专为编写高效的自定义深度学习原语而设计。它提供了一个兼具高生产力和灵活性的开发环境,性能优于CUDA,灵活性超过其他领域特定语言。Triton支持NVIDIA和AMD GPU平台,提供完善的文档和教程。用户可通过pip轻松安装,也支持源代码构建。该项目持续更新,最新版本进行了大量性能优化和问题修复。

Project Cover

jax-triton

jax-triton项目实现了JAX和Triton的集成,让开发者能在JAX中使用Triton的GPU计算功能。通过triton_call函数,可在JAX编译函数中应用Triton内核,提高计算密集型任务效率。项目提供文档和示例,适合机器学习和科学计算领域的GPU计算优化需求。

Project Cover

tensorrtllm_backend

TensorRT-LLM Backend是Triton Inference Server的专用后端,用于部署和服务TensorRT-LLM模型。它集成了in-flight batching和paged attention等先进特性,显著提升了大语言模型的推理效率。通过简洁的接口设计,此后端使TensorRT-LLM模型能无缝集成到Triton服务中,为用户提供高性能、可扩展的AI推理解决方案。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号