#vLLM
vllm - 高性能与易用性的LLM推理与服务平台
vLLMLLM服务量化PagedAttention高吞吐量Github开源项目
vLLM是一个高性能且易用的LLM推理与服务平台,具备PagedAttention内存管理、CUDA/HIP图形加速、量化支持、并行解码算法及流式输出等技术优势。vLLM无缝集成Hugging Face模型,兼容多种硬件设备,支持分布式推理和OpenAI API。最新版本支持Llama 3.1和FP8量化。用户可通过pip安装并参考详细文档快速入门。
ray-llm - 简化LLM部署,利用Ray Serve和vLLM实现高效性能
Ray ServeRayLLMvLLMAnyscaleLLMGithub开源项目
RayLLM是一种简便的解决方案,用于部署和管理多种开源LLM,利用Ray Serve和vLLM的功能,包括自动扩展、多GPU和多节点支持。RayLLM支持连续批处理和量化,大幅提高吞吐量并降低推理成本。通过REST API轻松迁移和测试,并集成多种LLM后端,提供灵活高效的解决方案。
super-json-mode - 以并行方式高效生成JSON结构化输出的Python框架
Super JSON ModeOpenAIHugging Face TransformersvLLM并行生成Github开源项目
Super JSON Mode 是一个通过将目标结构分解为原子组件来并行生成JSON输出的Python框架。相比传统的JSON生成方法,该框架提高了生成速度达10倍,同时减少了解析问题。它支持包括OpenAI和Hugging Face Transformers在内的主流LLM, 以及开源LLM如vLLM。安装只需运行pip命令,详细的使用说明和示例代码请参见项目文档。
TinyLLM - 在本地硬件上构建小型LLM,支持多种模型和ChatGPT界面
TinyLLMOllamallama.cppvLLMChatGPTGithub开源项目
该项目帮助用户在消费级硬件上构建小型本地LLM,并提供类似ChatGPT的网页界面。支持通过Ollama、llama-cpp-python和vLLM搭建兼容OpenAI API的服务,允许访问外部网站、矢量数据库等。具备详尽的硬件要求和模型下载链接,方便用户快速上手并使用自定义提示进行互动。
lm-evaluation-harness - 统一测试生成式语言模型的多任务评估框架
Language Model Evaluation HarnessOpen LLM LeaderboardGPT-NeoXHugging FacevLLMGithub开源项目
该项目提供统一框架,用于评估生成式语言模型,通过60多个标准学术基准和数百个子任务实现多样化测试。更新包括新的Open LLM Leaderboard任务、内部重构、基于配置的任务创建、Jinja2提示设计支持等高级配置选项,旨在简化和优化模型评估。支持快速高效推理、商业API、本地模型和基准测试。被广泛应用于机构如NVIDIA、Cohere、BigScience等,也支撑了🤗 Hugging Face的Open LLM Leaderboard。
nm-vllm - 基于vLLM的企业级大语言模型推理引擎
nm-vllmvLLMPyPIDocker模型优化Github开源项目
nm-vllm是Neural Magic维护的企业级大语言模型推理引擎,基于vLLM开发。支持PyPI安装和Docker部署,提供CUDA加速和稀疏化功能,可提高推理效率。项目在Hugging Face上提供多种优化模型,为大规模语言模型部署提供高效解决方案。
worker-vllm - 基于vLLM的OpenAI兼容无服务器LLM推理端点
vLLMRunPodOpenAILLM推理引擎Github开源项目
worker-vllm是一个基于vLLM推理引擎的OpenAI兼容无服务器端点部署工具。该项目可在RunPod Serverless上快速部署高性能的大语言模型(LLM)推理端点,操作简单便捷。worker-vllm充分利用vLLM的高效推理能力,为开发者提供快速、易用的LLM部署方案,有助于简化AI应用的构建过程。
AutoFP8 - 量化库优化大语言模型推理性能
AutoFP8FP8量化vLLM模型压缩神经网络Github开源项目
AutoFP8是一个开源FP8量化库,用于生成vLLM兼容的压缩检查点。它提供FP8_E4M3精度的量化权重、激活和KV缓存比例,支持静态和动态激活方案。AutoFP8能将预训练模型转换为FP8格式,与vLLM无缝集成,提高大语言模型推理效率,同时保持模型精度。这个工具适用于优化和部署大规模语言模型。
Mistral-7B-Instruct-v0.3-GPTQ-4bit - Mistral-7B指令模型的4位量化版本 保持高准确率
模型Github开源项目HuggingfacevLLM自然语言处理Mistral-7B-Instruct量化模型GPTQ
Mistral-7B-Instruct-v0.3-GPTQ-4bit是Mistral-7B指令模型的4位量化版本。通过GPTQ技术,该模型在大幅缩小体积的同时,保持了原模型99.75%的准确率。在多项基准测试中,该模型平均准确率达65.05%。它兼容vLLM优化推理,可作为高效的自然语言处理服务器部署。
Phi-3-medium-128k-instruct-quantized.w8a16 - 优化为INT8的14亿参数开源模型,提升计算效率
vLLMGithubPhi-3-medium-128k-instruct文本生成开源项目量化模型优化Huggingface模型
Phi-3模型的量化版本,通过将权重量化为INT8,将参数位数从16减少至8,约减少50%的磁盘和GPU使用,仍保有高性能。专为英语商业与研究用设计,不适用于违法行为。支持在vLLM和Transformers中高效部署,平均分数74.04逼近未量化版本。在OpenLLM基准中展现优异准确性与恢复能力。
Meta-Llama-3.1-8B-Instruct-FP8 - FP8量化优化的多语言AI助手模型
Meta-Llama-3.1Huggingface模型FP8量化Github开源项目自然语言处理神经魔法vLLM
Meta-Llama-3.1-8B-Instruct-FP8是Meta-Llama-3.1-8B-Instruct的FP8量化版本。该模型将参数位数从16位减少到8位,在保持99.52%性能的同时,显著降低了存储和计算资源需求。支持vLLM后端部署,适用于多语言对话任务,可用于商业和研究用途。
llama-160m-accelerator - 基于多阶段MLP的LLaMA-160M模型推理加速器
模型开源项目HuggingfaceDocker文本生成深度学习Github模型加速vLLM
这是一个为JackFram/llama-160m模型设计的加速器项目,借鉴了Medusa推测解码架构的思想。该加速器通过改造MLP为多阶段结构,实现了基于状态向量和先前采样令牌的单token预测,有效提升了模型推理速度。项目支持与vLLM和Hugging Face TGI等工具集成,为大型语言模型的高效部署提供了实用解决方案。加速器的训练过程轻量化,能够在短时间内完成,适用于各种规模的生成式模型。
Meta-Llama-3.1-70B-Instruct-quantized.w4a16 - Meta-Llama 3.1 70B模型的INT4量化版本 性能几乎不损
Meta-Llama-3.1量化模型Huggingface模型INT4Github开源项目自然语言处理vLLM
Meta-Llama-3.1-70B-Instruct模型的INT4量化版本,模型大小减少75%,但性能几乎不损。支持多语言,适用于商业和研究。可通过vLLM高效部署,在Arena-Hard、OpenLLM和HumanEval等测试中表现优异,展示出卓越的推理和编码能力。
Meta-Llama-3.1-70B-Instruct-FP8 - Meta-Llama-3.1-70B模型的FP8量化版本 提升效率降低资源需求
语言模型Huggingface模型FP8量化人工智能Github开源项目vLLMMeta-Llama-3.1-70B-Instruct
Meta-Llama-3.1-70B-Instruct模型的FP8量化版本,通过将权重和激活量化为8位浮点数,大幅降低了模型体积和GPU内存需求。支持多语言商业和研究应用,在OpenLLM基准测试中平均得分84.29,性能接近原始模型。可通过vLLM后端高效部署,适用于智能对话等多种场景。
Meta-Llama-3-70B-Instruct-FP8 - FP8量化优化的Meta-Llama-3-70B指令模型实现高效部署
模型量化Llama3开源项目FP8HuggingfaceGithub大语言模型vLLM
Meta-Llama-3-70B-Instruct-FP8是一个经FP8量化优化的大型语言模型。通过AutoFP8技术,该模型将参数位数从16减至8,大幅降低存储和GPU内存需求。在OpenLLM基准测试中,其平均得分为79.16,与原始模型的79.51相近。这个英语助手式聊天模型适用于商业和研究领域,可通过vLLM后端实现高效部署。
Meta-Llama-3.1-8B-Instruct-quantized.w8a8 - 量化优化的多语言文本生成模型
多语言Github量化模型开源项目Meta-Llama-3vLLMHuggingface文本生成
该模型通过INT8量化优化,实现了GPU内存效率和计算吞吐量的提升,支持多语言文本生成,适用于商业和研究中的辅助聊天任务。在多个基准测试中,该模型实现了超越未量化模型的恢复率,尤其在OpenLLM和HumanEval测试中表现突出。使用GPTQ算法进行量化,有效降低了内存和磁盘的占用。可通过vLLM后端快速部署,并支持OpenAI兼容服务。
Llama-3.2-11B-Vision-Instruct-FP8-dynamic - Meta-Llama视觉语言模型FP8量化版支持多语言部署
Llama-3.2视觉识别vLLM人工智能Github模型量化压缩Huggingface开源项目
基于Meta-Llama-3.2架构的视觉语言模型,通过FP8动态量化技术实现模型压缩,在保持原有性能的同时将显存需求降低50%。模型支持图文输入和多语言输出,可通过vLLM实现快速部署,提供OpenAI兼容接口,适合商业场景应用。
Meta-Llama-3.1-8B-Instruct-quantized.w4a16 - 基于LLaMA 3.1的INT4量化指令模型
评估基准vLLM多语言支持模型GithubMeta-Llama量化模型Huggingface开源项目
Meta-Llama-3.1-8B-Instruct模型的INT4量化版本,将模型参数从16bit压缩至4bit,有效降低75%的存储和显存占用。模型在Arena-Hard、OpenLLM、HumanEval等基准测试中表现稳定,量化后性能恢复率保持在93%-99%之间。通过vLLM后端部署,支持8种语言处理,适合商业及研究领域应用。
Meta-Llama-3.1-70B-Instruct-quantized.w8a8 - 经INT8量化优化的Llama-3指令模型实现内存节省和性能提升
vLLMGithub开源项目Meta-Llama-3.1语言模型评估AI助手Huggingface模型量化模型
Meta-Llama-3.1-70B-Instruct模型通过INT8量化优化后,GPU内存占用减少50%,计算性能提升两倍。模型保持多语言处理能力,在Arena-Hard、OpenLLM、HumanEval等基准测试中性能恢复率达98%以上。支持vLLM后端部署及OpenAI兼容API。
Meta-Llama-3-8B-Instruct-FP8-KV - 基于FP8量化技术的Meta Llama 3指令模型
Github模型开源项目深度学习Meta-Llama-3vLLMHuggingface人工智能模型量化
Meta-Llama-3-8B-Instruct-FP8-KV是一个采用FP8权重和激活量化的语言模型,通过每张量量化技术和FP8量化的KV缓存实现性能优化。模型与vLLM 0.5.0及以上版本兼容,基于AutoFP8框架和UltraChat数据集完成校准,适用于大规模语言模型的部署场景。
Llama-3.2-90B-Vision-Instruct-FP8-dynamic - 基于Meta-Llama架构的FP8量化多语言视觉对话模型
Llama-3.2开源项目视觉语言模型模型人工智能HuggingfacevLLM模型量化Github
这是一个基于Meta-Llama-3.2架构开发的视觉语言模型,包含900亿参数。通过FP8量化技术优化,将模型存储空间和GPU内存需求降低约50%。模型支持图像理解和多语言文本生成,主要应用于智能对话系统。借助vLLM后端可实现高效部署和OpenAI兼容服务。
DeepSeek-Coder-V2-Lite-Instruct-FP8 - FP8量化模型优化提高大语言模型部署效率
vLLMGithub开源项目文本生成DeepSeek-Coder-V2-Lite-Instruct-FP8量化FP8Huggingface模型
DeepSeek-Coder-V2-Lite-Instruct-FP8是一种经过FP8量化优化的模型,旨在提升商业与研究中英文聊天助手的效率。此优化通过减少参数位数,有效降低内存和存储器需求,达到了79.60的HumanEval+基准测试得分。在vLLM 0.5.2及以上版本中实现高效部署。
Meta-Llama-3.1-8B-Instruct-FP8-dynamic - Meta-Llama-3.1-8B的FP8量化技术优化多语言文本生成
开源项目模型模型优化多语言HuggingfacevLLM量化GithubMeta-Llama-3.1
Meta-Llama-3.1-8B-Instruct-FP8-dynamic利用FP8量化技术优化内存使用,适用于多语言商业和研究用途,提升推理效率。该模型在Arena-Hard评估中实现105.4%回收率,在OpenLLM v1中达成99.7%回收率,展示接近未量化模型的性能表现。支持多语言文本生成,尤其适合聊天机器人及语言理解任务,且通过vLLM后端简化部署流程。利用LLM Compressor进行量化,降低存储成本并提高部署效率,保持高质量文本生成能力。
Meta-Llama-3-8B-Instruct-FP8 - FP8量化版Meta Llama 3实现内存占用减半
模型优化FP8量化vLLM模型Github开源项目Meta-Llama-3大语言模型Huggingface
这是一个通过8位浮点(FP8)量化技术优化的Meta Llama 3模型,在仅占用原模型一半存储空间和GPU内存的同时,保持了99.28%的性能水平。模型基于vLLM后端运行,支持英语对话场景下的商业及研究应用,可用于构建AI助手等应用。
相关文章
vLLM:高效易用的大语言模型推理和服务引擎
2024年08月30日
RayLLM: 基于Ray的大语言模型服务解决方案
2024年08月30日
Super JSON Mode: 加速结构化输出生成的革命性框架
2024年08月31日
TinyLLM: 在消费级硬件上运行本地大语言模型和聊天机器人
2024年09月02日
nm-vllm: 高性能和内存高效的LLM推理与服务引擎
2024年09月05日
RunPod vLLM Worker: 高效部署大型语言模型的利器
2024年09月05日
vLLM入门学习资料汇总 - 高吞吐量、内存高效的LLM推理和服务引擎
2024年09月10日
RayLLM 学习资料汇总 - 基于Ray的开源LLM服务解决方案
2024年09月10日
Super-JSON-Mode入门指南 - 加速结构化输出生成的利器
2024年09月10日