Logo

#推理服务

AITemplate: 加速深度神经网络推理的开源Python框架

2 个月前
Cover of AITemplate: 加速深度神经网络推理的开源Python框架

TensorRT-LLM 后端: 在 Triton 推理服务器上高效部署大型语言模型

2 个月前
Cover of TensorRT-LLM 后端: 在 Triton 推理服务器上高效部署大型语言模型

ppl.llm.serving: 高性能大语言模型推理服务框架

2 个月前
Cover of ppl.llm.serving: 高性能大语言模型推理服务框架

ModelMesh Serving: 高可扩展的机器学习模型服务框架

2 个月前
Cover of ModelMesh Serving: 高可扩展的机器学习模型服务框架

PyTriton: 简化Python环境中Triton推理服务器的部署

2 个月前
Cover of PyTriton: 简化Python环境中Triton推理服务器的部署

相关项目

Project Cover
ppl.llm.serving
ppl.llm.serving是基于ppl.nn的大型语言模型服务框架,提供gRPC服务器支持LLaMA等模型推理。该项目支持多GPU、离线推理,并具备模型导出、服务部署和性能测试功能。适用于x86_64和arm64平台,可用于构建和部署大规模语言模型服务。
Project Cover
pytriton
PyTriton是一款类似Flask/FastAPI的框架,旨在优化NVIDIA Triton推理服务器在Python环境中的应用。该框架支持直接从Python部署机器学习模型,具有原生Python支持、框架无关性和性能优化等特点。通过简洁的接口,PyTriton简化了模型部署、性能优化和API开发过程。不论使用PyTorch、TensorFlow还是JAX,开发者均可将Python代码轻松转换为HTTP/gRPC API。
Project Cover
tensorrtllm_backend
TensorRT-LLM Backend是Triton Inference Server的专用后端,用于部署和服务TensorRT-LLM模型。它集成了in-flight batching和paged attention等先进特性,显著提升了大语言模型的推理效率。通过简洁的接口设计,此后端使TensorRT-LLM模型能无缝集成到Triton服务中,为用户提供高性能、可扩展的AI推理解决方案。
Project Cover
modelmesh-serving
ModelMesh Serving是一个开源的机器学习模型管理控制器,用于管理ModelMesh这一通用模型服务管理和路由层。它实现了高效的模型部署、扩展和负载均衡,支持Triton、MLServer和TorchServe等多种主流模型服务运行时。通过自定义ServingRuntime功能,ModelMesh Serving可灵活集成其他模型服务器,为机器学习模型的生产环境部署提供了可靠的解决方案。
Project Cover
AITemplate
AITemplate是一个开源Python框架,能将深度学习模型转换为CUDA或HIP C++代码,实现高效推理。它支持NVIDIA和AMD GPU,提供接近理论峰值的fp16性能。该框架特点包括独立运行无需第三方库、独特的算子融合技术、与PyTorch兼容以及易于扩展。AITemplate支持ResNet、BERT和Stable Diffusion等多种主流模型。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号