#量化模型

AutoGPTQ: 一个用户友好的大型语言模型量化工具包

2024年08月30日

AutoGPTQ GPTQ算法量化模型推理速度安装指南 Github 开源项目

2024年08月30日

OpenLLM：简化大型语言模型的部署与运营

2024年08月29日

OpenLLM 自托管LLM OpenAI兼容API 云部署量化模型 Github 开源项目热门

2024年08月29日

相关项目

OpenLLM

OpenLLM为开发者提供一键部署各种开源大型语言模型(LLM)到企业级云环境的解决方案，支持OpenAI兼容的API端点。该项目集成最新的加速解码技术，并提供内置的ChatGPT界面，能够快速实现模型的互动和部署。用户只需简单的命令，即可本地运行或部署到云端，轻松管理和使用各种顶尖LLM，如Llama 3.1、Mistral和Qwen2等。

Chinese-Llama-2-7b

项目提供开源且商用的中文Llama2模型及中英文SFT数据集，兼容llama-2-chat格式并支持优化。项目包含在线演示、多模态模型、Docker部署和API接口，支持多种硬件配置，用户可快速下载与测试。

fastembed-rs

FastEmbed-rs为基于Rust的高效文本嵌入工具，无需Tokio依赖，支持同步操作。允许使用Hugging Face等多种模型，并通过并行处理实现高效批量嵌入。支持加载自定义.ONNX模型，提供简洁API以快速实现文本嵌入和重排，适合追求高性能文本处理的开发者。

Jlama

Jlama是一款面向Java应用的大型语言模型推理引擎，提供对GPT-2、BERT等模型的支持，集成多种分词器。其功能包括闪电注意力、专家混合，同时支持多种数据类型处理。Jlama借助最新Vector API加速推理，可实现分布式处理，适合集成LLM推理的开发者使用。

chatllm.cpp

ChatLLM.cpp项目支持从1B到300B多种模型的高效推理，适用于本地电脑的实时聊天。通过优化的KV缓存和并行计算提升内存使用效率，并提供int4/int8量化以减少内存占用。该项目基于ggml库实现，支持Retrieval Augmented Generation、LoRA以及Python和JavaScript绑定等功能。发布了多种最新模型和工具调用，适合深度学习和自监督学习研究者。

qwen.cpp

qwen.cpp是Qwen-LM的开源C++实现，基于ggml开发，支持实时对话、纯C++ tiktoken和流式生成。项目兼容x86/arm CPU、NVIDIA GPU，适用于Linux和MacOS平台。提供模型量化、Python绑定等功能，可在本地设备运行高性能Qwen对话模型。

Wizard-Vicuna-7B-Uncensored-GPTQ

项目提供多样的GPTQ模型文件，支持多种推理配置和硬件平台需求。通过多种量化参数优化，提升推理质量及多样化VRAM使用。基础模型由Eric Hartford创建，专为NLP应用而设计，无需内容审核，用户可自由定制对齐方式，适用广泛领域的AI助手开发。

saiga_llama3_8b_gguf

页面提供Llama.cpp兼容的8B模型版本，用户可下载并运行各种量化模型。包括wget命令下载和Python脚本运行说明，适用于需大模型推理的用户，尤其是专注Llama3的开发者。

AutoGPTQ

AutoGPTQ是基于GPTQ算法的LLM量化工具包，支持多种模型类型和硬件平台的推理优化，整合Marlin与Exllama内核，提升推理速度与性能，适合在资源受限环境中部署高效的语言模型。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com