#推理服务

AITemplate: 加速深度神经网络推理的开源Python框架

3 个月前

AITemplate 深度神经网络 GPU加速推理服务模型转换 Github 开源项目

3 个月前

ModelMesh Serving: 高可扩展的机器学习模型服务框架

3 个月前

ModelMesh Serving 模型服务管理容器编排推理服务 KServe Github 开源项目

3 个月前

TensorRT-LLM 后端: 在 Triton 推理服务器上高效部署大型语言模型

3 个月前

TensorRT-LLM Triton 推理服务 GPU 深度学习 Github 开源项目

3 个月前

PyTriton: 简化Python环境中Triton推理服务器的部署

3 个月前

PyTriton 推理服务机器学习模型 Python框架 NVIDIA Github 开源项目

3 个月前

ppl.llm.serving: 高性能大语言模型推理服务框架

3 个月前

PPL LLM Serving 大型语言模型推理服务 CUDA gRPC Github 开源项目

3 个月前

相关项目

ppl.llm.serving

ppl.llm.serving是基于ppl.nn的大型语言模型服务框架，提供gRPC服务器支持LLaMA等模型推理。该项目支持多GPU、离线推理，并具备模型导出、服务部署和性能测试功能。适用于x86_64和arm64平台，可用于构建和部署大规模语言模型服务。

pytriton

PyTriton是一款类似Flask/FastAPI的框架，旨在优化NVIDIA Triton推理服务器在Python环境中的应用。该框架支持直接从Python部署机器学习模型，具有原生Python支持、框架无关性和性能优化等特点。通过简洁的接口，PyTriton简化了模型部署、性能优化和API开发过程。不论使用PyTorch、TensorFlow还是JAX，开发者均可将Python代码轻松转换为HTTP/gRPC API。

tensorrtllm_backend

TensorRT-LLM Backend是Triton Inference Server的专用后端，用于部署和服务TensorRT-LLM模型。它集成了in-flight batching和paged attention等先进特性，显著提升了大语言模型的推理效率。通过简洁的接口设计，此后端使TensorRT-LLM模型能无缝集成到Triton服务中，为用户提供高性能、可扩展的AI推理解决方案。

modelmesh-serving

ModelMesh Serving是一个开源的机器学习模型管理控制器，用于管理ModelMesh这一通用模型服务管理和路由层。它实现了高效的模型部署、扩展和负载均衡，支持Triton、MLServer和TorchServe等多种主流模型服务运行时。通过自定义ServingRuntime功能，ModelMesh Serving可灵活集成其他模型服务器，为机器学习模型的生产环境部署提供了可靠的解决方案。

AITemplate

AITemplate是一个开源Python框架，能将深度学习模型转换为CUDA或HIP C++代码，实现高效推理。它支持NVIDIA和AMD GPU，提供接近理论峰值的fp16性能。该框架特点包括独立运行无需第三方库、独特的算子融合技术、与PyTorch兼容以及易于扩展。AITemplate支持ResNet、BERT和Stable Diffusion等多种主流模型。

gemma-2-27b-it-GGUF

Gemma-2-27b-it模型的GGUF量化版本提供2至16比特的多种精度选项。基于LlamaEdge框架，支持8192上下文窗口，可通过WasmEdge以服务或命令行方式运行。Q4_K_M和Q5_K_M版本在模型大小和性能间取得平衡，适合多数应用场景。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com