#TensorRT-LLM

FasterTransformer入门指南 - 高性能Transformer模型推理加速库

2 个月前

FasterTransformer TensorRT-LLM NVIDIA BERT GPT Github 开源项目

2 个月前

TensorRT-LLM 后端: 在 Triton 推理服务器上高效部署大型语言模型

3 个月前

TensorRT-LLM Triton 推理服务 GPU 深度学习 Github 开源项目

3 个月前

TensorRT-LLM:NVIDIA推出的大型语言模型推理加速工具箱

3 个月前

TensorRT-LLM 大语言模型 GPU加速 AI推理 NVIDIA Github 开源项目

3 个月前

SwiftInfer：高效的AI推理与服务框架

3 个月前

SwiftInfer TensorRT-LLM Streaming-LLM 长文本模型推理性能 Github 开源项目

3 个月前

FasterTransformer: 加速Transformer模型推理的高性能库

3 个月前

FasterTransformer TensorRT-LLM NVIDIA BERT GPT Github 开源项目

3 个月前

相关项目

FasterTransformer

FasterTransformer不仅支持多框架集成，还针对NVIDIA新一代GPU优化了编解码性能，极大提升了操作效率和处理速度。包含模型支持、性能对比及API演示的详细文档，有助于用户深入了解并有效使用FasterTransformer。

SwiftInfer

SwiftInfer 采用基于 TensorRT 的 Streaming-LLM 技术，提升长文本输入处理的有效性。借助 Attention Sink 技术，避免模型在注意力窗口变动时发生故障，确保在生产环境中的高效运行，非常适合对推理效率和稳定性要求高的大模型应用。

TensorRT-LLM

TensorRT-LLM是一个用于优化大型语言模型推理的开源工具。它提供Python API来定义模型和构建TensorRT引擎，支持多GPU和多节点部署。该工具集成了多种量化技术，如INT4/INT8权重量化和SmoothQuant，以提升性能和降低内存占用。TensorRT-LLM预置了多个常用模型，可根据需求进行修改和扩展。

tensorrtllm_backend

TensorRT-LLM Backend是Triton Inference Server的专用后端，用于部署和服务TensorRT-LLM模型。它集成了in-flight batching和paged attention等先进特性，显著提升了大语言模型的推理效率。通过简洁的接口设计，此后端使TensorRT-LLM模型能无缝集成到Triton服务中，为用户提供高性能、可扩展的AI推理解决方案。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com