#vLLM

Super-JSON-Mode入门指南 - 加速结构化输出生成的利器

3 个月前

Super JSON Mode OpenAI Hugging Face Transformers vLLM 并行生成 Github 开源项目

3 个月前

RayLLM 学习资料汇总 - 基于Ray的开源LLM服务解决方案

3 个月前

Ray Serve RayLLM vLLM Anyscale LLM Github 开源项目

3 个月前

vLLM入门学习资料汇总 - 高吞吐量、内存高效的LLM推理和服务引擎

3 个月前

vLLM LLM服务量化 PagedAttention 高吞吐量 Github 开源项目

3 个月前

RunPod vLLM Worker: 高效部署大型语言模型的利器

3 个月前

vLLM RunPod OpenAI LLM 推理引擎 Github 开源项目

3 个月前

nm-vllm: 高性能和内存高效的LLM推理与服务引擎

3 个月前

nm-vllm vLLM PyPI Docker 模型优化 Github 开源项目

3 个月前

TinyLLM: 在消费级硬件上运行本地大语言模型和聊天机器人

2024年09月02日

TinyLLM Ollama llama.cpp vLLM ChatGPT Github 开源项目

2024年09月02日

Super JSON Mode: 加速结构化输出生成的革命性框架

2024年08月31日

Super JSON Mode OpenAI Hugging Face Transformers vLLM 并行生成 Github 开源项目

2024年08月31日

RayLLM: 基于Ray的大语言模型服务解决方案

2024年08月30日

Ray Serve RayLLM vLLM Anyscale LLM Github 开源项目

2024年08月30日

vLLM:高效易用的大语言模型推理和服务引擎

2024年08月30日

vLLM LLM服务量化 PagedAttention 高吞吐量 Github 开源项目

2024年08月30日

相关项目

ray-llm

RayLLM是一种简便的解决方案，用于部署和管理多种开源LLM，利用Ray Serve和vLLM的功能，包括自动扩展、多GPU和多节点支持。RayLLM支持连续批处理和量化，大幅提高吞吐量并降低推理成本。通过REST API轻松迁移和测试，并集成多种LLM后端，提供灵活高效的解决方案。

super-json-mode

Super JSON Mode 是一个通过将目标结构分解为原子组件来并行生成JSON输出的Python框架。相比传统的JSON生成方法，该框架提高了生成速度达10倍，同时减少了解析问题。它支持包括OpenAI和Hugging Face Transformers在内的主流LLM, 以及开源LLM如vLLM。安装只需运行pip命令，详细的使用说明和示例代码请参见项目文档。

TinyLLM

该项目帮助用户在消费级硬件上构建小型本地LLM，并提供类似ChatGPT的网页界面。支持通过Ollama、llama-cpp-python和vLLM搭建兼容OpenAI API的服务，允许访问外部网站、矢量数据库等。具备详尽的硬件要求和模型下载链接，方便用户快速上手并使用自定义提示进行互动。

lm-evaluation-harness

该项目提供统一框架，用于评估生成式语言模型，通过60多个标准学术基准和数百个子任务实现多样化测试。更新包括新的Open LLM Leaderboard任务、内部重构、基于配置的任务创建、Jinja2提示设计支持等高级配置选项，旨在简化和优化模型评估。支持快速高效推理、商业API、本地模型和基准测试。被广泛应用于机构如NVIDIA、Cohere、BigScience等，也支撑了🤗 Hugging Face的Open LLM Leaderboard。

nm-vllm

nm-vllm是Neural Magic维护的企业级大语言模型推理引擎，基于vLLM开发。支持PyPI安装和Docker部署，提供CUDA加速和稀疏化功能，可提高推理效率。项目在Hugging Face上提供多种优化模型，为大规模语言模型部署提供高效解决方案。

worker-vllm

worker-vllm是一个基于vLLM推理引擎的OpenAI兼容无服务器端点部署工具。该项目可在RunPod Serverless上快速部署高性能的大语言模型(LLM)推理端点,操作简单便捷。worker-vllm充分利用vLLM的高效推理能力,为开发者提供快速、易用的LLM部署方案,有助于简化AI应用的构建过程。

AutoFP8

AutoFP8是一个开源FP8量化库，用于生成vLLM兼容的压缩检查点。它提供FP8_E4M3精度的量化权重、激活和KV缓存比例，支持静态和动态激活方案。AutoFP8能将预训练模型转换为FP8格式，与vLLM无缝集成，提高大语言模型推理效率，同时保持模型精度。这个工具适用于优化和部署大规模语言模型。

Mistral-7B-Instruct-v0.3-GPTQ-4bit

Mistral-7B-Instruct-v0.3-GPTQ-4bit是Mistral-7B指令模型的4位量化版本。通过GPTQ技术，该模型在大幅缩小体积的同时，保持了原模型99.75%的准确率。在多项基准测试中，该模型平均准确率达65.05%。它兼容vLLM优化推理，可作为高效的自然语言处理服务器部署。

vllm

vLLM是一个高性能且易用的LLM推理与服务平台，具备PagedAttention内存管理、CUDA/HIP图形加速、量化支持、并行解码算法及流式输出等技术优势。vLLM无缝集成Hugging Face模型，兼容多种硬件设备，支持分布式推理和OpenAI API。最新版本支持Llama 3.1和FP8量化。用户可通过pip安装并参考详细文档快速入门。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com