#推理服务

ppl.llm.serving - 基于ppl.nn的大型语言模型服务框架

PPL LLM Serving大型语言模型推理服务CUDAgRPCGithub开源项目

ppl.llm.serving是基于ppl.nn的大型语言模型服务框架，提供gRPC服务器支持LLaMA等模型推理。该项目支持多GPU、离线推理，并具备模型导出、服务部署和性能测试功能。适用于x86_64和arm64平台，可用于构建和部署大规模语言模型服务。

pytriton - 优化Python环境下NVIDIA Triton推理服务器的应用

PyTriton推理服务机器学习模型Python框架NVIDIAGithub开源项目

PyTriton是一款类似Flask/FastAPI的框架，旨在优化NVIDIA Triton推理服务器在Python环境中的应用。该框架支持直接从Python部署机器学习模型，具有原生Python支持、框架无关性和性能优化等特点。通过简洁的接口，PyTriton简化了模型部署、性能优化和API开发过程。不论使用PyTorch、TensorFlow还是JAX，开发者均可将Python代码轻松转换为HTTP/gRPC API。

tensorrtllm_backend - TensorRT-LLM后端适用于Triton的大语言模型推理引擎

TensorRT-LLMTriton推理服务GPU深度学习Github开源项目

TensorRT-LLM Backend是Triton Inference Server的专用后端，用于部署和服务TensorRT-LLM模型。它集成了in-flight batching和paged attention等先进特性，显著提升了大语言模型的推理效率。通过简洁的接口设计，此后端使TensorRT-LLM模型能无缝集成到Triton服务中，为用户提供高性能、可扩展的AI推理解决方案。

modelmesh-serving - 高效机器学习模型管理与部署平台

ModelMesh Serving模型服务管理容器编排推理服务KServeGithub开源项目

ModelMesh Serving是一个开源的机器学习模型管理控制器，用于管理ModelMesh这一通用模型服务管理和路由层。它实现了高效的模型部署、扩展和负载均衡，支持Triton、MLServer和TorchServe等多种主流模型服务运行时。通过自定义ServingRuntime功能，ModelMesh Serving可灵活集成其他模型服务器，为机器学习模型的生产环境部署提供了可靠的解决方案。

AITemplate - 开源高性能深度学习推理框架

AITemplate深度神经网络GPU加速推理服务模型转换Github开源项目

AITemplate是一个开源Python框架，能将深度学习模型转换为CUDA或HIP C++代码，实现高效推理。它支持NVIDIA和AMD GPU，提供接近理论峰值的fp16性能。该框架特点包括独立运行无需第三方库、独特的算子融合技术、与PyTorch兼容以及易于扩展。AITemplate支持ResNet、BERT和Stable Diffusion等多种主流模型。

gemma-2-27b-it-GGUF - Gemma-2-27b-it模型的多精度GGUF量化版本

大语言模型Github开源项目推理服务LlamaEdgeHuggingfaceGemma模型量化模型

Gemma-2-27b-it模型的GGUF量化版本提供2至16比特的多种精度选项。基于LlamaEdge框架，支持8192上下文窗口，可通过WasmEdge以服务或命令行方式运行。Q4_K_M和Q5_K_M版本在模型大小和性能间取得平衡，适合多数应用场景。

相关文章

Article Cover

ppl.llm.serving: 高性能大语言模型推理服务框架

Article Cover

PyTriton: 简化Python环境中Triton推理服务器的部署

Article Cover

TensorRT-LLM 后端: 在 Triton 推理服务器上高效部署大型语言模型

Article Cover

ModelMesh Serving: 高可扩展的机器学习模型服务框架

Article Cover

AITemplate: 加速深度神经网络推理的开源Python框架

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号