#TensorRT-LLM

FasterTransformer - 基于NVIDIA平台的高性能Transformer编解码器实现与调优

FasterTransformerTensorRT-LLMNVIDIABERTGPTGithub开源项目

FasterTransformer不仅支持多框架集成，还针对NVIDIA新一代GPU优化了编解码性能，极大提升了操作效率和处理速度。包含模型支持、性能对比及API演示的详细文档，有助于用户深入了解并有效使用FasterTransformer。

SwiftInfer - AI 推理和服务

SwiftInferTensorRT-LLMStreaming-LLM长文本模型推理性能Github开源项目

SwiftInfer 采用基于 TensorRT 的 Streaming-LLM 技术，提升长文本输入处理的有效性。借助 Attention Sink 技术，避免模型在注意力窗口变动时发生故障，确保在生产环境中的高效运行，非常适合对推理效率和稳定性要求高的大模型应用。

TensorRT-LLM - NVIDIA开发的大型语言模型推理优化工具

TensorRT-LLM大语言模型GPU加速AI推理NVIDIAGithub开源项目

TensorRT-LLM是一个用于优化大型语言模型推理的开源工具。它提供Python API来定义模型和构建TensorRT引擎，支持多GPU和多节点部署。该工具集成了多种量化技术，如INT4/INT8权重量化和SmoothQuant，以提升性能和降低内存占用。TensorRT-LLM预置了多个常用模型，可根据需求进行修改和扩展。

tensorrtllm_backend - TensorRT-LLM后端适用于Triton的大语言模型推理引擎

TensorRT-LLMTriton推理服务GPU深度学习Github开源项目

TensorRT-LLM Backend是Triton Inference Server的专用后端，用于部署和服务TensorRT-LLM模型。它集成了in-flight batching和paged attention等先进特性，显著提升了大语言模型的推理效率。通过简洁的接口设计，此后端使TensorRT-LLM模型能无缝集成到Triton服务中，为用户提供高性能、可扩展的AI推理解决方案。

相关文章

Article Cover

FasterTransformer: 加速Transformer模型推理的高性能库

Article Cover

SwiftInfer：高效的AI推理与服务框架

Article Cover

TensorRT-LLM:NVIDIA推出的大型语言模型推理加速工具箱

Article Cover

TensorRT-LLM 后端: 在 Triton 推理服务器上高效部署大型语言模型

Article Cover

FasterTransformer入门指南 - 高性能Transformer模型推理加速库

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号