Logo

#vLLM

Super-JSON-Mode入门指南 - 加速结构化输出生成的利器

1 个月前
Cover of Super-JSON-Mode入门指南 - 加速结构化输出生成的利器

vLLM入门学习资料汇总 - 高吞吐量、内存高效的LLM推理和服务引擎

1 个月前
Cover of vLLM入门学习资料汇总 - 高吞吐量、内存高效的LLM推理和服务引擎

nm-vllm: 高性能和内存高效的LLM推理与服务引擎

2 个月前
Cover of nm-vllm: 高性能和内存高效的LLM推理与服务引擎

Super JSON Mode: 加速结构化输出生成的革命性框架

2 个月前
Cover of Super JSON Mode: 加速结构化输出生成的革命性框架

vLLM:高效易用的大语言模型推理和服务引擎

2 个月前
Cover of vLLM:高效易用的大语言模型推理和服务引擎

RayLLM 学习资料汇总 - 基于Ray的开源LLM服务解决方案

1 个月前
Cover of RayLLM 学习资料汇总 - 基于Ray的开源LLM服务解决方案

RunPod vLLM Worker: 高效部署大型语言模型的利器

2 个月前
Cover of RunPod vLLM Worker: 高效部署大型语言模型的利器

TinyLLM: 在消费级硬件上运行本地大语言模型和聊天机器人

2 个月前
Cover of TinyLLM: 在消费级硬件上运行本地大语言模型和聊天机器人

RayLLM: 基于Ray的大语言模型服务解决方案

2 个月前
Cover of RayLLM: 基于Ray的大语言模型服务解决方案

相关项目

Project Cover
vllm
vLLM是一个高性能且易用的LLM推理与服务平台,具备PagedAttention内存管理、CUDA/HIP图形加速、量化支持、并行解码算法及流式输出等技术优势。vLLM无缝集成Hugging Face模型,兼容多种硬件设备,支持分布式推理和OpenAI API。最新版本支持Llama 3.1和FP8量化。用户可通过pip安装并参考详细文档快速入门。
Project Cover
ray-llm
RayLLM是一种简便的解决方案,用于部署和管理多种开源LLM,利用Ray Serve和vLLM的功能,包括自动扩展、多GPU和多节点支持。RayLLM支持连续批处理和量化,大幅提高吞吐量并降低推理成本。通过REST API轻松迁移和测试,并集成多种LLM后端,提供灵活高效的解决方案。
Project Cover
super-json-mode
Super JSON Mode 是一个通过将目标结构分解为原子组件来并行生成JSON输出的Python框架。相比传统的JSON生成方法,该框架提高了生成速度达10倍,同时减少了解析问题。它支持包括OpenAI和Hugging Face Transformers在内的主流LLM, 以及开源LLM如vLLM。安装只需运行pip命令,详细的使用说明和示例代码请参见项目文档。
Project Cover
TinyLLM
该项目帮助用户在消费级硬件上构建小型本地LLM,并提供类似ChatGPT的网页界面。支持通过Ollama、llama-cpp-python和vLLM搭建兼容OpenAI API的服务,允许访问外部网站、矢量数据库等。具备详尽的硬件要求和模型下载链接,方便用户快速上手并使用自定义提示进行互动。
Project Cover
lm-evaluation-harness
该项目提供统一框架,用于评估生成式语言模型,通过60多个标准学术基准和数百个子任务实现多样化测试。更新包括新的Open LLM Leaderboard任务、内部重构、基于配置的任务创建、Jinja2提示设计支持等高级配置选项,旨在简化和优化模型评估。支持快速高效推理、商业API、本地模型和基准测试。被广泛应用于机构如NVIDIA、Cohere、BigScience等,也支撑了🤗 Hugging Face的Open LLM Leaderboard。
Project Cover
nm-vllm
nm-vllm是Neural Magic维护的企业级大语言模型推理引擎,基于vLLM开发。支持PyPI安装和Docker部署,提供CUDA加速和稀疏化功能,可提高推理效率。项目在Hugging Face上提供多种优化模型,为大规模语言模型部署提供高效解决方案。
Project Cover
worker-vllm
worker-vllm是一个基于vLLM推理引擎的OpenAI兼容无服务器端点部署工具。该项目可在RunPod Serverless上快速部署高性能的大语言模型(LLM)推理端点,操作简单便捷。worker-vllm充分利用vLLM的高效推理能力,为开发者提供快速、易用的LLM部署方案,有助于简化AI应用的构建过程。
Project Cover
AutoFP8
AutoFP8是一个开源FP8量化库,用于生成vLLM兼容的压缩检查点。它提供FP8_E4M3精度的量化权重、激活和KV缓存比例,支持静态和动态激活方案。AutoFP8能将预训练模型转换为FP8格式,与vLLM无缝集成,提高大语言模型推理效率,同时保持模型精度。这个工具适用于优化和部署大规模语言模型。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号