#量化模型

AutoGPTQ - 基于GPTQ算法的LLM量化与推理优化工具包
AutoGPTQGPTQ算法量化模型推理速度安装指南Github开源项目
AutoGPTQ是基于GPTQ算法的LLM量化工具包,支持多种模型类型和硬件平台的推理优化,整合Marlin与Exllama内核,提升推理速度与性能,适合在资源受限环境中部署高效的语言模型。
OpenLLM - 一键部署开源LLM,支持企业级云部署和OpenAI兼容API
OpenLLM自托管LLMOpenAI兼容API云部署量化模型Github开源项目热门
OpenLLM为开发者提供一键部署各种开源大型语言模型(LLM)到企业级云环境的解决方案,支持OpenAI兼容的API端点。该项目集成最新的加速解码技术,并提供内置的ChatGPT界面,能够快速实现模型的互动和部署。用户只需简单的命令,即可本地运行或部署到云端,轻松管理和使用各种顶尖LLM,如Llama 3.1、Mistral和Qwen2等。
Chinese-Llama-2-7b - 开源且可商用的中文Llama2模型,兼容中英文SFT数据集与llama-2-chat格式
Chinese Llama 2 7BLlama2HuggingFace模型开源量化模型Github开源项目
项目提供开源且商用的中文Llama2模型及中英文SFT数据集,兼容llama-2-chat格式并支持优化。项目包含在线演示、多模态模型、Docker部署和API接口,支持多种硬件配置,用户可快速下载与测试。
fastembed-rs - 基于Rust的无需Tokio依赖,支持同步操作的高效文本嵌入工具
FastEmbed-rs文本嵌入Rust量化模型ONNXGithub开源项目
FastEmbed-rs为基于Rust的高效文本嵌入工具,无需Tokio依赖,支持同步操作。允许使用Hugging Face等多种模型,并通过并行处理实现高效批量嵌入。支持加载自定义.ONNX模型,提供简洁API以快速实现文本嵌入和重排,适合追求高性能文本处理的开发者。
Jlama - 面向Java应用的大型语言模型推理引擎
JlamaJavaLLM推理模型支持量化模型Github开源项目
Jlama是一款面向Java应用的大型语言模型推理引擎,提供对GPT-2、BERT等模型的支持,集成多种分词器。其功能包括闪电注意力、专家混合,同时支持多种数据类型处理。Jlama借助最新Vector API加速推理,可实现分布式处理,适合集成LLM推理的开发者使用。
chatllm.cpp - 跨多模型的高效纯C++实时推理工具
ChatLLM.cppggmlGPT模型量化模型CPU推理Github开源项目
ChatLLM.cpp项目支持从1B到300B多种模型的高效推理,适用于本地电脑的实时聊天。通过优化的KV缓存和并行计算提升内存使用效率,并提供int4/int8量化以减少内存占用。该项目基于ggml库实现,支持Retrieval Augmented Generation、LoRA以及Python和JavaScript绑定等功能。发布了多种最新模型和工具调用,适合深度学习和自监督学习研究者。
qwen.cpp - Qwen-LM的高性能C++实现
qwen.cppQwen-LMC++实现ggml量化模型Github开源项目
qwen.cpp是Qwen-LM的开源C++实现,基于ggml开发,支持实时对话、纯C++ tiktoken和流式生成。项目兼容x86/arm CPU、NVIDIA GPU,适用于Linux和MacOS平台。提供模型量化、Python绑定等功能,可在本地设备运行高性能Qwen对话模型。
Wizard-Vicuna-7B-Uncensored-GPTQ - 支持多平台推理的高效GPTQ模型文件
Github模型人工智能助手开源项目量化模型GPTQHuggingfaceWizard Vicuna 7B未过滤
项目提供多样的GPTQ模型文件,支持多种推理配置和硬件平台需求。通过多种量化参数优化,提升推理质量及多样化VRAM使用。基础模型由Eric Hartford创建,专为NLP应用而设计,无需内容审核,用户可自由定制对齐方式,适用广泛领域的AI助手开发。
saiga_llama3_8b_gguf - 8B模型下载与运行 Llama.cpp兼容指南
量化模型Llama.cpp下载兼容HuggingfaceGithub开源项目系统要求模型
页面提供Llama.cpp兼容的8B模型版本,用户可下载并运行各种量化模型。包括wget命令下载和Python脚本运行说明,适用于需大模型推理的用户,尤其是专注Llama3的开发者。
Qwen2-1.5B-Instruct-GGUF - Qwen2-1.5B指令模型的GGUF格式压缩版本
语言模型模型人工智能Github量化模型QwenHuggingface开源项目GGUF
本项目提供Qwen2-1.5B-Instruct模型的GGUF格式文件,包含多种量化级别。GGUF是llama.cpp团队开发的新格式,取代了旧有的GGML。这些文件兼容多个支持GGUF的平台,如llama.cpp和LM Studio,便于高效本地部署和推理。项目提供多种选择,可适应不同性能和资源需求。
calme-2.3-legalkit-8b-GGUF - 针对法律领域优化的多精度量化语言模型
文本生成量化模型Huggingface模型大语言模型法律领域Github开源项目GGUF
calme-2.3-legalkit-8b-GGUF是一个针对法律领域优化的8B参数量化语言模型。该模型支持2-bit到8-bit多种量化精度,采用GGUF格式,可在多种平台上运行。它适用于法律文本生成任务,在保证性能的同时降低资源需求。模型支持llama.cpp、LM Studio等多种客户端,具有良好的兼容性。这个开源项目为需要在本地部署法律AI助手的用户提供了实用的选择。
Llama-3-8B-Instruct-DPO-v0.1-GGUF - Llama-3指令型语言模型的GGUF量化版本
文本生成Llama-3量化模型Huggingface模型人工智能Github开源项目GGUF
该项目提供Llama-3-8B-Instruct-DPO-v0.1模型的GGUF格式量化版本,支持2至8位多种位宽。模型采用ChatML提示模板,兼容多种GGUF客户端和库,如llama.cpp和LM Studio。作为文本生成模型,它为本地部署提供了高性能和灵活的选择。
Llama-3-8B-Instruct-v0.9-GGUF - 高效量化Llama-3-8B-Instruct模型支持多种位宽
文本生成Llama-3量化模型Huggingface模型人工智能Github开源项目GGUF
Llama-3-8B-Instruct-v0.9模型的GGUF格式量化版本提供2-bit至8-bit多种位宽选择。GGUF作为llama.cpp团队推出的新格式取代了GGML。该模型兼容多种GGUF支持的客户端和库,如llama.cpp和LM Studio,支持GPU加速,适合本地部署文本生成任务。
Llama-3-Groq-8B-Tool-Use-GGUF - 高性能文本生成模型的GGUF格式优化版
文本生成量化模型Huggingface模型Llama-3-Groq-8B-Tool-Use人工智能Github开源项目GGUF
Llama-3-Groq-8B-Tool-Use模型的GGUF格式版本由MaziyarPanahi量化优化。GGUF作为llama.cpp团队推出的新格式,取代了旧有的GGML。该模型兼容多种客户端和库,如llama.cpp、LM Studio等,支持GPU加速和跨平台运行。GGUF格式优化后的模型能够提供高效的本地文本生成功能,适用于多种应用场景。
Mistral-7B-Instruct-v0.3-GPTQ-4bit - Mistral-7B指令模型的4位量化版本 保持高准确率
模型Github开源项目HuggingfacevLLM自然语言处理Mistral-7B-Instruct量化模型GPTQ
Mistral-7B-Instruct-v0.3-GPTQ-4bit是Mistral-7B指令模型的4位量化版本。通过GPTQ技术,该模型在大幅缩小体积的同时,保持了原模型99.75%的准确率。在多项基准测试中,该模型平均准确率达65.05%。它兼容vLLM优化推理,可作为高效的自然语言处理服务器部署。
solar-pro-preview-instruct-GGUF - 高效量化的GGUF格式Solar-Pro-Instruct模型
solar-pro-preview-instruct模型llama.cppGithub文本生成量化模型Huggingface开源项目GGUF
该项目提供Solar-Pro-Preview-Instruct模型的GGUF格式文件,支持2-8位量化。GGUF是llama.cpp团队开发的新格式,替代了旧有的GGML。这一格式广泛应用于llama.cpp、LM Studio等多个流行的本地部署工具和库中,为高效的本地文本生成任务提供支持。
Llama-3-8B-Instruct-32k-v0.1-GGUF - Llama-3 8B指令模型GGUF版本支持多位量化及广泛应用
开源AILlama-3量化模型Huggingface模型Github开源项目自然语言处理GGUF
本项目提供Llama-3-8B-Instruct-32k-v0.1模型的GGUF格式文件。GGUF是llama.cpp团队开发的新格式,取代了旧有的GGML。该模型支持2至8位量化,主要用于文本生成。它与多款主流本地运行框架和界面工具兼容,如llama.cpp、LM Studio和text-generation-webui等。这些工具普遍支持GPU加速,使模型能够适应多样化的应用需求。
Llama-3-8B-Instruct-64k-GGUF - 指令调优型64k上下文窗口大语言模型
模型GGUF开源项目Huggingface文本生成Github本地部署量化模型Llama
Llama-3-8B-Instruct-64k-GGUF 是一款采用 GGUF 格式量化的指令调优大语言模型。该模型支持 2 至 8 位多种量化精度,具有 64k 上下文窗口,适用于长文本处理任务。它可通过多种开源工具使用,如命令行接口、Python 库和 Web 界面等,在各类硬件上实现高效运行。
Meta-Llama-3-70B-Instruct-GGUF - Llama 3 70B语言模型介绍与应用
Meta-Llama开源项目量化模型商业用途责任与安全模型自然语言生成HuggingfaceGithub
了解由Meta研发的Llama 3 70B模型,其通过定量化处理优化推理性能,适用于多种对话场景,支持多种模式的使用,为用户提供安全高效的互动能力。
MythoMax-L2-13B-GPTQ - 多样化GPTQ参数选择,满足多种硬件配置需求
量化模型GPTQ角色扮演TheBlokeMythoMax L2 13B模型Github开源项目Huggingface
MythoMax L2 13B提供多种GPTQ量化配置,适用于多种硬件环境,提升模型性能。用户可选择不同分支进行下载,包括4-bit和8-bit版本,支持VRAM高效利用和精确推理。该项目兼容多种平台如ExLlama、AutoGPTQ和Huggingface的Text Generation Inference,为AI开发者提供灵活的工具和高效的解决方案。
Phi-3.5-mini-instruct-GGUF - Microsoft Phi-3.5-mini模型的GGUF格式多位宽量化版本
本地部署模型Github文本生成量化模型Phi-3.5Huggingface开源项目GGUF
此项目提供Microsoft Phi-3.5-mini-instruct模型的GGUF格式量化版本。GGUF是llama.cpp团队推出的新格式,取代了GGML。支持2-bit至8-bit多种量化位宽,兼容多个GGUF支持工具,如llama.cpp和LM Studio。这些工具具备GPU加速和Web界面,便于本地部署和使用大型语言模型。
Midnight-Miqu-70B-v1.5-4bit - 为大规模语言模型提供高效4位量化部署方案
AWQ量化模型Huggingface模型Midnight-Miqu-70BGithub开源项目lmdeployAI模型压缩
Midnight-Miqu-70B-v1.5-4bit是一个经过lmdeploy工具优化的4位量化模型,旨在实现大规模语言模型的高效部署。该项目通过自动量化技术显著减小模型体积,同时保持性能稳定。这为在资源受限环境中部署强大语言模型提供了实用解决方案,可应用于多种自然语言处理任务。
Llama-3-8B-Instruct-v0.10-GGUF - Llama-3指令模型的GGUF格式量化版本 支持2-8比特精度
模型Llama-3开源项目HuggingfaceGGUF格式文本生成Github本地部署量化模型
这是Llama-3-8B-Instruct-v0.10模型的GGUF格式量化版本,提供2-bit至8-bit的精度选项。GGUF是llama.cpp团队开发的新格式,取代了GGML,支持多种客户端和库。该项目使用户能够在本地设备上高效运行大型语言模型,适用于文本生成任务。
Chronos-Gold-12B-1.0-i1-GGUF - 多种量化版本适配通用语言模型
模型GGUFGithub开源项目HuggingfacetransformersChronos-Gold-12B自然语言处理量化模型
Chronos-Gold-12B-1.0-i1-GGUF是Chronos-Gold-12B通用语言模型的量化版本,提供多种量化类型,文件大小从3.1GB到10.2GB不等。该项目采用GGUF格式,便于在资源受限环境中部署。模型适用于角色扮演、故事写作等多种场景,可根据不同的性能和存储需求选择合适的版本。
Yi-1.5-6B-Chat-GGUF - 多精度量化的高效中文对话模型
模型GGUF开源项目Huggingface对话系统文本生成量化模型GithubYi-1.5-6B-Chat
Yi-1.5-6B-Chat-GGUF是01-ai开发的中文大语言模型Yi-1.5-6B-Chat的GGUF格式量化版本。该模型支持2-bit至8-bit的多种量化精度,适用于文本生成和对话任务。兼容多种GGUF格式推理框架,如llama.cpp、LM Studio等,可在CPU或GPU上高效运行。Yi-1.5-6B-Chat-GGUF为开发者和研究者提供了一个性能优异的中文语言模型选项,在保持模型能力的同时大幅降低了硬件需求。
Mistral-Nemo-Instruct-2407-GPTQ - 基于Mistral-Nemo的轻量级4比特量化指令模型
Apache许可证Mistral-Nemo-Instruct-2407量化模型Huggingface模型GPTQGithub开源项目HuggingFace
Mistral-Nemo-Instruct-2407-GPTQ是基于Mistral-Nemo-Instruct-2407的量化版本。该模型采用4比特GPTQ技术进行压缩,配合128的分组大小和ExLlama设置,在保持性能的同时显著减小了模型体积。项目提供了完整的量化参数和源代码链接,为开发者提供了一个兼具效率和性能的指令型模型选择。
Codestral-22B-v0.1-GGUF - 针对80多种编程语言优化的开源代码助手模型
模型人工智能Github量化模型Codestral-22B开源项目Huggingface机器学习代码生成
Codestral-22B-v0.1-GGUF是一个支持80多种编程语言的开源代码助手模型。它能够回答代码问题、生成代码,并提供Fill in the Middle功能。该模型已被量化为多个版本,以适应不同的硬件配置,让开发者能够在本地设备上高效运行这一代码辅助工具。模型支持Python、Java、C++等主流编程语言,可用于代码文档编写、解释和重构等任务。
Llama-3-ELYZA-JP-8B-GGUF - Llama 3衍生的日英双语大型语言模型 增强日语处理能力
模型Llama-3-ELYZA-JP-8B开源项目HuggingfaceLM Studio量化模型Github大语言模型日语优化
Llama-3-ELYZA-JP-8B是一个基于Meta Llama 3的大型语言模型,通过额外预训练和指令微调优化了日语处理能力。模型提供GGUF和AWQ两种量化版本,可在本地设备运行。用户可使用llama.cpp或LM Studio等工具,实现日英双语对话和任务处理。该模型在保持英语能力的同时,显著提升了日语性能。
Meta-Llama-3.1-70B-Instruct-quantized.w4a16 - Meta-Llama 3.1 70B模型的INT4量化版本 性能几乎不损
Meta-Llama-3.1量化模型Huggingface模型INT4Github开源项目自然语言处理vLLM
Meta-Llama-3.1-70B-Instruct模型的INT4量化版本,模型大小减少75%,但性能几乎不损。支持多语言,适用于商业和研究。可通过vLLM高效部署,在Arena-Hard、OpenLLM和HumanEval等测试中表现优异,展示出卓越的推理和编码能力。
MiniCPM-V-2_6-int4 - 精简高效的多语言视觉AI对话模型
模型MiniCPM-V开源项目HuggingfaceHugging Face图像识别多模态Github量化模型
MiniCPM-V-2_6-int4是一款经过int4量化的多语言视觉对话模型,GPU内存占用仅约7GB。该模型支持图像理解、OCR、多图像处理和视频分析等视觉任务,可通过Python代码实现流式输出。作为一个资源友好型视觉AI工具,MiniCPM-V-2_6-int4在保持性能的同时提高了部署效率,适合开发者进行各类视觉AI应用开发。
gemma-2-2b-it-GGUF - Gemma 2B-it模型的多种量化版本及使用指南
模型GGUF开源项目HuggingfaceGemmahuggingfaceGithubLLM量化模型
本项目提供Google Gemma 2B-it模型的11种量化版本,使用llama.cpp处理。量化级别从F32到IQ3_M,文件大小1.39GB至10.46GB。详细介绍各版本特点、使用场景和选择建议,并提供下载方法、提示词格式等说明。适合不同硬件配置的轻量级Gemma模型部署需求。
FLUX.1-dev-gguf - 高效文本到图像生成 轻量级GGUF格式镜像
文本转图像模型图像生成FLUX.1-devGithub量化模型Huggingface开源项目GGUF
FLUX.1-dev GGUF镜像是black-forest-labs原始模型的量化版本,由city96处理。这一文本到图像生成模型采用GGUF格式,具有更小的体积和更高的部署便利性。该版本在保持原模型性能的同时,提升了运行效率,适用于多种图像生成场景。该项目遵循非商业许可协议,为开发者和研究人员提供了一个高效的图像生成工具。
StarCoder2-7B-GGUF - 多种量化模型版本,提升代码生成性能与存储效率
Github开源项目StarCoder2代码生成量化模型模型LlamaEdgeHuggingface模型压缩
此项目提供多种量化模型版本,旨在优化代码生成任务中的性能与存储效率。可选范围包括小容量、质量损失较大的版本到大容量、质量损失低的版本,以满足各种需求。Q4_K_M与Q5_K_M模型在质量与容量间表现出良好的平衡。该项目使用llama.cpp进行量化,适合空间与性能有特定需求的开发者。
DeepSeek-V2-Lite-Chat-GGUF - DeepSeek量化聊天模型介绍与常用配置
系统消息质量损失DeepSeek-V2-Lite-ChatGithub开源项目量化模型LlamaEdgeHuggingface模型
DeepSeek-V2-Lite-Chat-GGUF通过多种量化版本适配多样需求,其中推荐Q5_K_M版本以保证质量。用户可通过LlamaEdge实现模型运行,并根据多种上下文配置,应对不同应用场景。
Mistral-Nemo-Instruct-2407-gptq-4bit - 采用GPTQ技术的4位量化语言模型
开源项目模型GPTQModel神经网络优化模型压缩低位量化量化模型GithubHuggingface
Mistral-Nemo-Instruct-2407-gptq-4bit是一个使用GPTQModel进行4位量化的语言模型。该模型采用128组大小和真实顺序等技术,在维持性能的同时大幅缩减模型体积。这种量化方法提高了模型的部署效率,适用于计算资源有限的场景。
Llama-3.1-Nemotron-70B-Instruct-HF-GGUF - NVIDIA推出支持128K上下文的70B参数指令调优语言模型
Huggingface指令微调开源项目模型Github量化模型大语言模型Llama 3.1Nvidia
NVIDIA基于Llama 3.1框架开发的Nemotron-70B指令模型采用GGUF量化格式,具备128K上下文处理能力。模型在Arena Hard评测中获得85.0分,AlpacaEval 2 LC达到57.6分,GPT-4-Turbo MT-Bench评分8.98。通过优化提升了语言理解和生成能力,可应用于多样化的自然语言处理场景。