#TensorRT-LLM
FasterTransformer - 基于NVIDIA平台的高性能Transformer编解码器实现与调优
FasterTransformerTensorRT-LLMNVIDIABERTGPTGithub开源项目
FasterTransformer不仅支持多框架集成,还针对NVIDIA新一代GPU优化了编解码性能,极大提升了操作效率和处理速度。包含模型支持、性能对比及API演示的详细文档,有助于用户深入了解并有效使用FasterTransformer。
SwiftInfer - AI 推理和服务
SwiftInferTensorRT-LLMStreaming-LLM长文本模型推理性能Github开源项目
SwiftInfer 采用基于 TensorRT 的 Streaming-LLM 技术,提升长文本输入处理的有效性。借助 Attention Sink 技术,避免模型在注意力窗口变动时发生故障,确保在生产环境中的高效运行,非常适合对推理效率和稳定性要求高的大模型应用。
TensorRT-LLM - NVIDIA开发的大型语言模型推理优化工具
TensorRT-LLM大语言模型GPU加速AI推理NVIDIAGithub开源项目
TensorRT-LLM是一个用于优化大型语言模型推理的开源工具。它提供Python API来定义模型和构建TensorRT引擎,支持多GPU和多节点部署。该工具集成了多种量化技术,如INT4/INT8权重量化和SmoothQuant,以提升性能和降低内存占用。TensorRT-LLM预置了多个常用模型,可根据需求进行修改和扩展。
tensorrtllm_backend - TensorRT-LLM后端 适用于Triton的大语言模型推理引擎
TensorRT-LLMTriton推理服务GPU深度学习Github开源项目
TensorRT-LLM Backend是Triton Inference Server的专用后端,用于部署和服务TensorRT-LLM模型。它集成了in-flight batching和paged attention等先进特性,显著提升了大语言模型的推理效率。通过简洁的接口设计,此后端使TensorRT-LLM模型能无缝集成到Triton服务中,为用户提供高性能、可扩展的AI推理解决方案。
相关文章