#模型量化

Noromaid-13B-v0.3-GGUF - 高效本地部署的大规模语言模型GGUF量化版本，支持多种精度选项

NoromaidGithubllama.cppHuggingfaceAI推理GGUF开源项目模型量化模型

Noromaid-13B模型的GGUF量化版本提供2-8位精度选项，支持CPU和GPU部署。模型采用Alpaca提示模板，与llama.cpp等框架兼容。文件大小范围为5.43GB至13.83GB，Q4_K_M版本可实现性能与质量的平衡。模型基于cc-by-nc-4.0和Meta Llama 2许可发布。

Mistral-7B-Instruct-v0.3-AWQ - Mistral模型AWQ量化版支持高级函数调用和三代分词

AWQ量化Mistral-7B-Instruct-v0.3Github模型量化自然语言处理Huggingface开源项目模型大语言模型

作为Mistral-7B-Instruct-v0.3的AWQ量化版本，该模型采用4比特压缩技术，在提供快速推理性能的同时保持了原有精度。通过扩展词汇表和引入第三代分词技术，增强了模型的理解能力。目前已集成到主流AI框架平台，可在搭载NVIDIA显卡的Linux或Windows系统上运行。

glm-4-9b-chat-1m-GGUF - 基于GLM-4的轻量级中文对话模型量化版本

GLM-4Github模型量化HuggingfaceGPU优化开源项目模型大语言模型GGUF

该项目基于GLM-4-9b-chat-1m模型开发,通过llama.cpp实现多种精度的模型量化。从18GB的F16版本到4GB的IQ2版本,提供了丰富的量化选项。项目中包含详细的性能对比和部署建议,方便开发者根据硬件条件选择合适的量化版本进行本地化部署。

Meta-Llama-3-8B-Instruct-quantized.w8a16 - 智能LLM量化技术实现50%体积压缩并完整保留性能

OpenLLM模型量化人工智能模型权重优化Meta-Llama-3GithubHuggingface开源项目

Meta-Llama-3-8B-Instruct模型经INT8量化优化后，参数位数从16位降至8位，减少约50%磁盘空间和GPU内存占用。在OpenLLM基准测试中，量化模型平均得分68.69，与原版68.54分相当。模型支持vLLM和transformers框架部署，适用于英语环境中商业和研究领域的AI助手应用。

gemma-2-9b-it-GGUF - AI语言模型量化版本满足多种硬件需求

gemma-2-9b-it模型量化开源项目模型GithubGPU内存优化机器学习文件格式转换Huggingface

本项目提供Google Gemma 2 9B模型的多种量化版本，涵盖从高质量Q8_0到轻量级IQ2_M。详细介绍了各版本特点、文件大小和推荐用途，并附有下载使用指南。这些优化版本在保持性能的同时大幅减小体积，适配不同硬件和内存需求，使模型能在更多设备上运行。

Phind-CodeLlama-34B-v2-GGUF - 利用GGUF格式提升模型性能，兼容多平台GPU加速

Github开源项目文本生成CodeLlamaGPU加速格式转换Huggingface模型量化模型

Phind's CodeLlama 34B v2采用GGUF格式，由llama.cpp团队在2023年8月21日推出替代GGML。GGUF实现了更优的标记化及特殊标记支持，并且具有可扩展性。兼容多种第三方界面与库（如text-generation-webui和KoboldCpp），并支持GPU加速。量化模型在保持高质量的同时降低了资源占用，适用多种场景，建议使用Q4_K_M与Q5_K_M模型以实现最佳性能及质量平衡。

zephyr-7B-beta-GGUF - 专注对话场景的开源大语言模型

Github人工智能模型量化HuggingfaceLLM开源项目模型Zephyr-7BGGUF

Zephyr-7B-beta是Hugging Face H4团队基于Mistral-7B-v0.1开发的开源大语言模型。通过UltraChat和UltraFeedback数据集微调,该模型在对话场景中表现出色。采用MIT许可证发布,支持英语并可用于多种推理任务。开发者可使用提供的prompt模板与模型交互,探索其对话生成能力。

Qwen2.5-Coder-7B-Instruct-GGUF - 基于5.5万亿数据训练的大规模代码生成模型

Qwen2.5-Coder代码调试Github代码生成模型量化人工智能代码Huggingface开源项目模型

Qwen2.5-Coder-7B-Instruct的量化版本模型，经过5.5万亿数据规模训练，具备代码生成、推理和bug修复等核心功能。模型支持128K长文本处理，可满足大规模代码开发需求。基于llama.cpp实现量化，在保持原有性能的同时优化了模型部署效率。

MiniCPM-Llama3-V-2_5-int4 - 轻量级视觉问答模型实现实时图像对话

Github开源项目GPU内存优化图像识别Huggingface深度学习MiniCPM-Llama3-V模型量化模型

MiniCPM-Llama3-V-2_5-int4通过int4量化技术实现低内存视觉问答功能，仅需9GB显存即可运行。基于Hugging Face框架开发，支持实时图像对话和流式输出，为视觉AI应用提供高效且资源友好的解决方案。

Mistral-Ita-7b - 基于Mistral架构的意大利语自然语言处理模型

意大利语言模型开源项目自然语言处理模型Mistral-7BHuggingface文本生成模型量化Github

Mistral-Ita-7b是基于Mistral-7B-v0.1架构开发的意大利语言模型，在hellaswag_it、arc_it和m_mmlu_it测试中平均准确率为58.66%。模型支持4位量化，可降低资源占用并提升处理效率。通过Python接口可实现意大利语文本生成及其他自然语言处理功能。

Qwen2.5-14B-Instruct-GGUF - 针对不同硬件环境优化的大模型量化版本

Qwen2.5-14B-Instruct模型推理开源项目模型HuggingfaceGPU运算模型量化Github人工智能模型

Qwen2.5-14B-Instruct模型的量化优化项目，通过F16到Q2_K等多种精度量化方案，将模型体积压缩至5.36GB-29.55GB范围。项目集成了ARM芯片优化版本和创新的I-quant量化技术，实现了模型性能、速度与硬件适配的平衡。量化版本涵盖了从高精度到轻量级的多个选项，方便在不同计算资源条件下部署使用。

Mistral-Small-Instruct-2409-GGUF - Mistral小型指令模型的多精度GGUF量化版本

性能优化Github开源项目模型Huggingface机器学习文件格式转换模型量化Mistral-Small-Instruct

Mistral-Small-Instruct模型的GGUF量化版本集合，文件大小从6GB到44GB不等。采用llama.cpp量化技术，提供从IQ2到F16的多种精度选择。包含详细的硬件兼容性说明和模型选择指南，支持多语言处理。

Llama-2-13B-chat-GPTQ - 经GPTQ量化的Llama 2对话模型

人工智能对话MetaGithub开源项目HuggingfaceLlama 2深度学习模型量化模型

Llama 2 13B Chat的GPTQ量化版本,提供4-bit和8-bit多种量化选项。模型支持AutoGPTQ和ExLlama等框架,可用于对话和文本生成。通过量化技术降低显存占用并保持模型性能,适合在GPU设备上部署使用。

DeepSeek-Coder-V2-Lite-Instruct-GGUF - 完整的DeepSeek代码助手模型量化版集合

DeepSeek-CoderGithub开源项目LlamaEdge代码开发Huggingface深度学习模型量化模型

这是一个专为代码编写优化的DeepSeek量化模型系列，提供从2位到16位的多种精度选项，支持通过LlamaEdge和WasmEdge进行部署。模型拥有12.8万token的上下文长度，文件大小从6.43GB到31.4GB不等。Q4_K_M和Q5_K_M版本在性能和资源占用上达到最佳平衡，适合大多数应用场景。

gemma-2-27b-it-GGUF - Gemma-2-27b-it模型的多精度GGUF量化版本

大语言模型Github开源项目推理服务LlamaEdgeHuggingfaceGemma模型量化模型

Gemma-2-27b-it模型的GGUF量化版本提供2至16比特的多种精度选项。基于LlamaEdge框架，支持8192上下文窗口，可通过WasmEdge以服务或命令行方式运行。Q4_K_M和Q5_K_M版本在模型大小和性能间取得平衡，适合多数应用场景。

OpenELM-3B-Instruct-GGUF - 轻量级开源语言模型的多版本量化实现

语言模型Github开源项目GGUFHuggingface提示模板OpenELM模型量化模型

基于GGUF格式量化，提供从Q2到F16共16种量化版本。模型采用层级缩放策略优化参数分配，基于1.8万亿token数据训练，支持指令微调，可在3.14GB至7.72GB内存环境下运行。

Meta-Llama-3.1-70B-Instruct-GGUF - LLaMA 3.1模型量化版本集合及性能参数对比

大语言模型Github开源项目模型人工智能Huggingface模型量化机器学习Llama 3.1

Meta-Llama-3.1-70B-Instruct模型量化版本集合采用llama.cpp的imatrix压缩方式，包含从Q8_0到IQ3_M共13种量化等级选择。模型文件大小范围为74.98GB至31.94GB，适配LM Studio运行环境。Q6_K、Q5_K系列及IQ4_XS等中等压缩比版本在性能与资源占用方面达到较好平衡。

Llama-3.2-11b-vision-uncensored - 图像处理与自然语言生成的先进集成工具

AI助手图像处理HuggingfaceGithub开源项目模型自然语言生成alpindale/Llama-3.2-11B-Vision-Instruct模型量化

Llama-3.2-11b-vision-uncensored项目结合了图像处理和自然语言生成，使用Peft和torch库，专注于提供直接且无偏见的AI响应。自定义配置支持高效模型加载，适合要求高度注意力的场景。

Meta-Llama-3.1-70B-Instruct-quantized.w8a8 - 经INT8量化优化的Llama-3指令模型实现内存节省和性能提升

vLLMGithub开源项目Meta-Llama-3.1语言模型评估AI助手Huggingface模型量化模型

Meta-Llama-3.1-70B-Instruct模型通过INT8量化优化后，GPU内存占用减少50%，计算性能提升两倍。模型保持多语言处理能力，在Arena-Hard、OpenLLM、HumanEval等基准测试中性能恢复率达98%以上。支持vLLM后端部署及OpenAI兼容API。

Meta-Llama-3-8B-Instruct-FP8-KV - 基于FP8量化技术的Meta Llama 3指令模型

Github模型开源项目深度学习Meta-Llama-3vLLMHuggingface人工智能模型量化

Meta-Llama-3-8B-Instruct-FP8-KV是一个采用FP8权重和激活量化的语言模型，通过每张量量化技术和FP8量化的KV缓存实现性能优化。模型与vLLM 0.5.0及以上版本兼容，基于AutoFP8框架和UltraChat数据集完成校准，适用于大规模语言模型的部署场景。

Meta-Llama-3.1-405B-Instruct-GPTQ-INT4 - Meta Llama 3.1模型的INT4量化版本实现多语言对话

开源项目模型GithubHuggingfaceLlama 3.1大语言模型模型量化深度学习推理部署

Meta-Llama-3.1-405B-Instruct量化模型通过AutoGPTQ技术将FP16压缩至INT4格式，实现了更高效的多语言对话能力。模型集成了transformers、AutoGPTQ、TGI和vLLM等多种推理框架，方便灵活部署。经过基准测试验证，该社区驱动的量化版本在降低内存占用的同时保持了原有性能水平。

FLUX.1-schnell-gguf - 基于FLUX.1-schnell的GGUF转换图像生成模型

FLUXAI生成开源项目ComfyUI图像生成模型Huggingface模型量化Github

FLUX.1-schnell-gguf是一个基于black-forest-labs/FLUX.1-schnell模型的GGUF格式转换项目，通过与ComfyUI-GGUF自定义节点集成实现文本到图像的生成。模型支持多种量化类型，安装时需将文件放置于ComfyUI/models/unet目录。该项目采用Apache-2.0开源协议发布，可用于图像生成相关的开发和研究工作。

Llama-3.2-90B-Vision-Instruct-FP8-dynamic - 基于Meta-Llama架构的FP8量化多语言视觉对话模型

Llama-3.2开源项目视觉语言模型模型人工智能HuggingfacevLLM模型量化Github

这是一个基于Meta-Llama-3.2架构开发的视觉语言模型，包含900亿参数。通过FP8量化技术优化，将模型存储空间和GPU内存需求降低约50%。模型支持图像理解和多语言文本生成，主要应用于智能对话系统。借助vLLM后端可实现高效部署和OpenAI兼容服务。

Llava-v1.5-7B-GGUF - 轻量级多模态图文处理模型支持多种精度量化

模型量化模型Github开源项目LLaVA大语言模型图文理解LlamaEdgeHuggingface

Llava-v1.5-7B-GGUF是Llava 1.5 7B模型的GGUF量化版本,提供2位至8位多种精度选择,可根据性能和质量需求灵活使用。项目支持通过LlamaEdge快速部署,适用于多模态AI应用场景。该模型具备图像理解和文本生成能力,在保持性能的同时实现了模型体积的压缩。

Reflection-70b-PreciseQuant-6bpw-gguf - 高精度量化模型实现接近完美的性能保留

开源项目高精度性能优化Github模型HuggingfaceReflection-Llama-3.1-70B大语言模型模型量化

本项目提供Reflection-Llama-3.1-70B模型的高精度量化版本。采用精细调优的量化技术，将模型压缩至50GB，同时保持99.96%的困惑度性能。相较于常规FP8量化，精度显著提升。项目包含快速下载指南和运行说明，便于部署使用。

Qwen2.5-72B-Instruct-GGUF - 大语言模型多种量化版本集合适配不同硬件配置

模型量化HuggingfaceQwen2.5-72B内存优化开源项目模型Github人工智能模型llama.cpp

该项目提供了Qwen2.5-72B-Instruct模型的18种量化版本，文件大小范围为23GB至77GB。使用llama.cpp的最新量化技术，包括K-quants和I-quants系列。所有版本均经imatrix优化，并更新了上下文长度设置和分词器。项目还提供了详细的性能对比和设备兼容性指南，方便用户根据自身硬件配置选择合适版本。这些模型特别适合在LM Studio等推理引擎上运行。

llama-2-7b-bnb-4bit - 提升Llama模型性能，实现速度翻倍与内存节省

模型量化HuggingfaceLlama内存优化开源项目模型Github参数调优Unsloth

项目通过4bit量化模型和Unsloth技术，优化Llama系列模型的性能。用户可在Google Colab上进行简单操作，免费获取如Gemma、Mistral、TinyLlama等模型，并实现性能提升和内存节省。以Llama 2为例，其推理速度可提高2.2倍，内存使用减少43%。项目适合初学者，支持导出为GGUF和vLLM格式，可上传至Hugging Face。

codegemma-7b-GGUF - 经过量化优化的代码生成模型，支持多种精度选择的GGUF格式

GGUF文件大小HuggingfaceGithub开源项目模型CodeGemma性能对比模型量化

这个项目提供了CodeGemma-7b模型的多种量化版本，文件大小从2.16GB到9.07GB不等，采用GGUF格式。支持从Q8到IQ1的多种精度等级，可适应不同的硬件配置。其中Q6_K、Q5_K和Q4_K系列版本在性能和空间优化方面表现较好，适合生产环境使用。用户可根据自身的内存和显存情况选择合适的版本。

saiga2_13b_gguf - Llama.cpp支持的GGUF格式俄语对话模型

Llama.cpp自然语言处理HuggingfaceGithub开源项目模型模型量化俄语数据集语言模型

saiga2_13b_gguf是一个GGUF格式的俄语对话模型，基于多个俄语数据集训练，支持Llama.cpp部署。模型提供q4_K和q8_K两种量化版本，运行内存需求分别为10GB和18GB RAM。通过模型文件和交互脚本的配合，可实现命令行环境下的对话功能。

Mistral-Nemo-Instruct-2407-GGUF - 高效模型量化与优化指南

LlamaEdge高搜索量Mistral-Nemo-Instruct-2407语言支持HuggingfaceGithub开源项目模型模型量化

该项目介绍了多语言支持的Mistral-Nemo-Instruct-2407模型，其量化版本是由Second State Inc.完成的，涵盖从2位到16位的不同精度和质量损失模型。特别推荐使用具有最小质量损失的Q5_K_M和Q5_K_S版本。此外，还提供了在LlamaEdge上运行的服务和命令行应用指南，以便在配置上下文大小和自定义提示模板时满足不同应用的需求。本项目适合于在资源有限的环境中追求性能优化的用户。

Reflection-Llama-3.1-70B-GGUF - Llama-3.1-70B模型的GGUF量化版本集合

Github模型开源项目深度学习GPU内存优化HuggingfaceLlama人工智能推理模型量化

Reflection-Llama-3.1-70B模型的GGUF量化集合，包含从74.98GB到22.24GB的多个版本。采用K-quants和I-quants量化技术，并对embed和output权重进行了特别处理。项目提供了详细的版本特性说明、安装指南以及基于不同硬件配置的选型建议。

LlamaGuard-7B-AWQ - 使用低位量化技术提升模型推理速度和效率

AWQGithub模型开源项目安装指南LlamaGuard 7B安全分类Huggingface模型量化

LlamaGuard-7B-AWQ采用了AWQ的4位量化技术，提升了模型在Linux和Windows平台上的推理效率和精度，需使用NVidia GPU。此模型相较于传统GPTQ设置，具备更快速度和良好的输出质量，兼容Text Generation Webui、vLLM及Transformers等系统，支持多用户推理服务，适合对时延和精度有较高要求的应用场景。

MythoMax-L2-Kimiko-v2-13B-GGUF - 了解多种量化选项和GGUF格式特色

GPU加速格式兼容性模型量化MythoMax L2 Kimiko v2 13B模型Github开源项目GGUFHuggingface

此项目提供MythoMax L2 Kimiko v2 13B模型在GGUF格式中的多种量化文件，优化了标记化及特殊标记支持。用户可选择适用于GPU和CPU推理的版本，并通过llama.cpp、text-generation-webui等多种客户端和库获得支持，兼具兼容性与灵活性，适合不同硬件平台的需求。

Llama-2-13B-chat-AWQ - 增强Transformer模型推理效率的AWQ量化技术

Github模型开源项目MetaHuggingface文本生成Llama 2对话优化模型量化

Llama-2-13B-chat-AWQ项目利用AWQ低比特量化提高Transformer模型推理效率，支持4比特量化技术，相较于传统GPTQ方法，能更快速地实现多用户并发推理，降低硬件要求和部署成本。AWQ现已兼容vLLM平台进行高吞吐量推理，尽管总体吞吐量较未量化模型略有不如，但可通过较小的GPU实现高效部署，比如70B模型仅需一台48GB GPU即可运行。

aya-expanse-32b-GGUF - 多语言文本生成模型的量化版本与适用策略

模型量化嵌入输出权重Huggingface文本生成开源项目模型文件下载GithubCohereForAI

该项目涵盖了使用llama.cpp量化的aya-expanse-32b多语言文本生成模型。提供多种量化版本，用户可根据硬件需求选择合适的文件，优化性能与速度。项目详细介绍量化方法与使用建议，以提高文本生成质量，限定于非商业用途。

Mistral.rs: 高性能LLM推理平台的革新之作

2024年08月30日

HQQ: 快速高效的大型机器学习模型量化方法

2024年08月30日

AI模型效率工具包(AIMET):深度神经网络优化的利器

2024年09月04日

GPT-Fast: 高性能原生PyTorch文本生成的简洁实现

2024年09月04日

DashInfer: 高性能原生LLM推理引擎

2024年09月04日

AWQ: 提升大语言模型推理效率的激活感知权重量化技术

2024年09月05日

mlc-MiniCPM:在Android设备上运行的轻量级大语言模型

2024年09月05日

MiniCPM: 突破性的端侧大语言模型

2024年09月05日

CodeFuse-DevOps-Model: 赋能DevOps全生命周期的开源中文大模型

2024年09月05日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com