#模型量化

CodeLlama-13B-Instruct-GGUF - 探索GGUF在高效处理与兼容性上的独特优势
Github编程助手CodeLlama 13B InstructGPU加速Huggingface模型量化模型开源项目文本生成
CodeLlama 13B Instruct项目引入了由llama.cpp团队开发的GGUF格式,提供了比GGML更优的解决方案。在标记分词、特殊标记及元数据支持方面有所改进,并提供多种量化模型选项,从Python到Web UI的广泛兼容性及GPU加速支持,使其成为性能与便捷性的优秀结合。
Noromaid-13B-v0.3-GGUF - 高效本地部署的大规模语言模型GGUF量化版本,支持多种精度选项
NoromaidGithubllama.cppHuggingfaceAI推理GGUF开源项目模型量化模型
Noromaid-13B模型的GGUF量化版本提供2-8位精度选项,支持CPU和GPU部署。模型采用Alpaca提示模板,与llama.cpp等框架兼容。文件大小范围为5.43GB至13.83GB,Q4_K_M版本可实现性能与质量的平衡。模型基于cc-by-nc-4.0和Meta Llama 2许可发布。
Mistral-7B-Instruct-v0.3-AWQ - Mistral模型AWQ量化版支持高级函数调用和三代分词
AWQ量化Mistral-7B-Instruct-v0.3Github模型量化自然语言处理Huggingface开源项目模型大语言模型
作为Mistral-7B-Instruct-v0.3的AWQ量化版本,该模型采用4比特压缩技术,在提供快速推理性能的同时保持了原有精度。通过扩展词汇表和引入第三代分词技术,增强了模型的理解能力。目前已集成到主流AI框架平台,可在搭载NVIDIA显卡的Linux或Windows系统上运行。
glm-4-9b-chat-1m-GGUF - 基于GLM-4的轻量级中文对话模型量化版本
GLM-4Github模型量化HuggingfaceGPU优化开源项目模型大语言模型GGUF
该项目基于GLM-4-9b-chat-1m模型开发,通过llama.cpp实现多种精度的模型量化。从18GB的F16版本到4GB的IQ2版本,提供了丰富的量化选项。项目中包含详细的性能对比和部署建议,方便开发者根据硬件条件选择合适的量化版本进行本地化部署。
Meta-Llama-3-8B-Instruct-quantized.w8a16 - 智能LLM量化技术实现50%体积压缩并完整保留性能
OpenLLM模型量化人工智能模型权重优化Meta-Llama-3GithubHuggingface开源项目
Meta-Llama-3-8B-Instruct模型经INT8量化优化后,参数位数从16位降至8位,减少约50%磁盘空间和GPU内存占用。在OpenLLM基准测试中,量化模型平均得分68.69,与原版68.54分相当。模型支持vLLM和transformers框架部署,适用于英语环境中商业和研究领域的AI助手应用。
gemma-2-9b-it-GGUF - AI语言模型量化版本满足多种硬件需求
gemma-2-9b-it模型量化开源项目模型GithubGPU内存优化机器学习文件格式转换Huggingface
本项目提供Google Gemma 2 9B模型的多种量化版本,涵盖从高质量Q8_0到轻量级IQ2_M。详细介绍了各版本特点、文件大小和推荐用途,并附有下载使用指南。这些优化版本在保持性能的同时大幅减小体积,适配不同硬件和内存需求,使模型能在更多设备上运行。
Phind-CodeLlama-34B-v2-GGUF - 利用GGUF格式提升模型性能,兼容多平台GPU加速
Github开源项目文本生成CodeLlamaGPU加速格式转换Huggingface模型量化模型
Phind's CodeLlama 34B v2采用GGUF格式,由llama.cpp团队在2023年8月21日推出替代GGML。GGUF实现了更优的标记化及特殊标记支持,并且具有可扩展性。兼容多种第三方界面与库(如text-generation-webui和KoboldCpp),并支持GPU加速。量化模型在保持高质量的同时降低了资源占用,适用多种场景,建议使用Q4_K_M与Q5_K_M模型以实现最佳性能及质量平衡。
zephyr-7B-beta-GGUF - 专注对话场景的开源大语言模型
Github人工智能模型量化HuggingfaceLLM开源项目模型Zephyr-7BGGUF
Zephyr-7B-beta是Hugging Face H4团队基于Mistral-7B-v0.1开发的开源大语言模型。通过UltraChat和UltraFeedback数据集微调,该模型在对话场景中表现出色。采用MIT许可证发布,支持英语并可用于多种推理任务。开发者可使用提供的prompt模板与模型交互,探索其对话生成能力。
Qwen2.5-Coder-7B-Instruct-GGUF - 基于5.5万亿数据训练的大规模代码生成模型
Qwen2.5-Coder代码调试Github代码生成模型量化人工智能代码Huggingface开源项目模型
Qwen2.5-Coder-7B-Instruct的量化版本模型,经过5.5万亿数据规模训练,具备代码生成、推理和bug修复等核心功能。模型支持128K长文本处理,可满足大规模代码开发需求。基于llama.cpp实现量化,在保持原有性能的同时优化了模型部署效率。
MiniCPM-Llama3-V-2_5-int4 - 轻量级视觉问答模型实现实时图像对话
Github开源项目GPU内存优化图像识别Huggingface深度学习MiniCPM-Llama3-V模型量化模型
MiniCPM-Llama3-V-2_5-int4通过int4量化技术实现低内存视觉问答功能,仅需9GB显存即可运行。基于Hugging Face框架开发,支持实时图像对话和流式输出,为视觉AI应用提供高效且资源友好的解决方案。
Mistral-Ita-7b - 基于Mistral架构的意大利语自然语言处理模型
意大利语言模型开源项目自然语言处理模型Mistral-7BHuggingface文本生成模型量化Github
Mistral-Ita-7b是基于Mistral-7B-v0.1架构开发的意大利语言模型,在hellaswag_it、arc_it和m_mmlu_it测试中平均准确率为58.66%。模型支持4位量化,可降低资源占用并提升处理效率。通过Python接口可实现意大利语文本生成及其他自然语言处理功能。
Qwen2.5-14B-Instruct-GGUF - 针对不同硬件环境优化的大模型量化版本
Qwen2.5-14B-Instruct模型推理开源项目模型HuggingfaceGPU运算模型量化Github人工智能模型
Qwen2.5-14B-Instruct模型的量化优化项目,通过F16到Q2_K等多种精度量化方案,将模型体积压缩至5.36GB-29.55GB范围。项目集成了ARM芯片优化版本和创新的I-quant量化技术,实现了模型性能、速度与硬件适配的平衡。量化版本涵盖了从高精度到轻量级的多个选项,方便在不同计算资源条件下部署使用。
Mistral-Small-Instruct-2409-GGUF - Mistral小型指令模型的多精度GGUF量化版本
性能优化Github开源项目模型Huggingface机器学习文件格式转换模型量化Mistral-Small-Instruct
Mistral-Small-Instruct模型的GGUF量化版本集合,文件大小从6GB到44GB不等。采用llama.cpp量化技术,提供从IQ2到F16的多种精度选择。包含详细的硬件兼容性说明和模型选择指南,支持多语言处理。
Llama-2-13B-chat-GPTQ - 经GPTQ量化的Llama 2对话模型
人工智能对话MetaGithub开源项目HuggingfaceLlama 2深度学习模型量化模型
Llama 2 13B Chat的GPTQ量化版本,提供4-bit和8-bit多种量化选项。模型支持AutoGPTQ和ExLlama等框架,可用于对话和文本生成。通过量化技术降低显存占用并保持模型性能,适合在GPU设备上部署使用。
DeepSeek-Coder-V2-Lite-Instruct-GGUF - 完整的DeepSeek代码助手模型量化版集合
DeepSeek-CoderGithub开源项目LlamaEdge代码开发Huggingface深度学习模型量化模型
这是一个专为代码编写优化的DeepSeek量化模型系列,提供从2位到16位的多种精度选项,支持通过LlamaEdge和WasmEdge进行部署。模型拥有12.8万token的上下文长度,文件大小从6.43GB到31.4GB不等。Q4_K_M和Q5_K_M版本在性能和资源占用上达到最佳平衡,适合大多数应用场景。
gemma-2-27b-it-GGUF - Gemma-2-27b-it模型的多精度GGUF量化版本
大语言模型Github开源项目推理服务LlamaEdgeHuggingfaceGemma模型量化模型
Gemma-2-27b-it模型的GGUF量化版本提供2至16比特的多种精度选项。基于LlamaEdge框架,支持8192上下文窗口,可通过WasmEdge以服务或命令行方式运行。Q4_K_M和Q5_K_M版本在模型大小和性能间取得平衡,适合多数应用场景。
OpenELM-3B-Instruct-GGUF - 轻量级开源语言模型的多版本量化实现
语言模型Github开源项目GGUFHuggingface提示模板OpenELM模型量化模型
基于GGUF格式量化,提供从Q2到F16共16种量化版本。模型采用层级缩放策略优化参数分配,基于1.8万亿token数据训练,支持指令微调,可在3.14GB至7.72GB内存环境下运行。
Meta-Llama-3.1-70B-Instruct-GGUF - LLaMA 3.1模型量化版本集合及性能参数对比
大语言模型Github开源项目模型人工智能Huggingface模型量化机器学习Llama 3.1
Meta-Llama-3.1-70B-Instruct模型量化版本集合采用llama.cpp的imatrix压缩方式,包含从Q8_0到IQ3_M共13种量化等级选择。模型文件大小范围为74.98GB至31.94GB,适配LM Studio运行环境。Q6_K、Q5_K系列及IQ4_XS等中等压缩比版本在性能与资源占用方面达到较好平衡。
Llama-3.2-11b-vision-uncensored - 图像处理与自然语言生成的先进集成工具
AI助手图像处理HuggingfaceGithub开源项目模型自然语言生成alpindale/Llama-3.2-11B-Vision-Instruct模型量化
Llama-3.2-11b-vision-uncensored项目结合了图像处理和自然语言生成,使用Peft和torch库,专注于提供直接且无偏见的AI响应。自定义配置支持高效模型加载,适合要求高度注意力的场景。
Meta-Llama-3.1-70B-Instruct-quantized.w8a8 - 经INT8量化优化的Llama-3指令模型实现内存节省和性能提升
vLLMGithub开源项目Meta-Llama-3.1语言模型评估AI助手Huggingface模型量化模型
Meta-Llama-3.1-70B-Instruct模型通过INT8量化优化后,GPU内存占用减少50%,计算性能提升两倍。模型保持多语言处理能力,在Arena-Hard、OpenLLM、HumanEval等基准测试中性能恢复率达98%以上。支持vLLM后端部署及OpenAI兼容API。
Meta-Llama-3-8B-Instruct-FP8-KV - 基于FP8量化技术的Meta Llama 3指令模型
Github模型开源项目深度学习Meta-Llama-3vLLMHuggingface人工智能模型量化
Meta-Llama-3-8B-Instruct-FP8-KV是一个采用FP8权重和激活量化的语言模型,通过每张量量化技术和FP8量化的KV缓存实现性能优化。模型与vLLM 0.5.0及以上版本兼容,基于AutoFP8框架和UltraChat数据集完成校准,适用于大规模语言模型的部署场景。
Meta-Llama-3.1-405B-Instruct-GPTQ-INT4 - Meta Llama 3.1模型的INT4量化版本实现多语言对话
开源项目模型GithubHuggingfaceLlama 3.1大语言模型模型量化深度学习推理部署
Meta-Llama-3.1-405B-Instruct量化模型通过AutoGPTQ技术将FP16压缩至INT4格式,实现了更高效的多语言对话能力。模型集成了transformers、AutoGPTQ、TGI和vLLM等多种推理框架,方便灵活部署。经过基准测试验证,该社区驱动的量化版本在降低内存占用的同时保持了原有性能水平。
FLUX.1-schnell-gguf - 基于FLUX.1-schnell的GGUF转换图像生成模型
FLUXAI生成开源项目ComfyUI图像生成模型Huggingface模型量化Github
FLUX.1-schnell-gguf是一个基于black-forest-labs/FLUX.1-schnell模型的GGUF格式转换项目,通过与ComfyUI-GGUF自定义节点集成实现文本到图像的生成。模型支持多种量化类型,安装时需将文件放置于ComfyUI/models/unet目录。该项目采用Apache-2.0开源协议发布,可用于图像生成相关的开发和研究工作。
Llama-3.2-90B-Vision-Instruct-FP8-dynamic - 基于Meta-Llama架构的FP8量化多语言视觉对话模型
Llama-3.2开源项目视觉语言模型模型人工智能HuggingfacevLLM模型量化Github
这是一个基于Meta-Llama-3.2架构开发的视觉语言模型,包含900亿参数。通过FP8量化技术优化,将模型存储空间和GPU内存需求降低约50%。模型支持图像理解和多语言文本生成,主要应用于智能对话系统。借助vLLM后端可实现高效部署和OpenAI兼容服务。
Llava-v1.5-7B-GGUF - 轻量级多模态图文处理模型 支持多种精度量化
模型量化模型Github开源项目LLaVA大语言模型图文理解LlamaEdgeHuggingface
Llava-v1.5-7B-GGUF是Llava 1.5 7B模型的GGUF量化版本,提供2位至8位多种精度选择,可根据性能和质量需求灵活使用。项目支持通过LlamaEdge快速部署,适用于多模态AI应用场景。该模型具备图像理解和文本生成能力,在保持性能的同时实现了模型体积的压缩。
Reflection-70b-PreciseQuant-6bpw-gguf - 高精度量化模型 实现接近完美的性能保留
开源项目高精度性能优化Github模型HuggingfaceReflection-Llama-3.1-70B大语言模型模型量化
本项目提供Reflection-Llama-3.1-70B模型的高精度量化版本。采用精细调优的量化技术,将模型压缩至50GB,同时保持99.96%的困惑度性能。相较于常规FP8量化,精度显著提升。项目包含快速下载指南和运行说明,便于部署使用。
Qwen2.5-72B-Instruct-GGUF - 大语言模型多种量化版本集合 适配不同硬件配置
模型量化HuggingfaceQwen2.5-72B内存优化开源项目模型Github人工智能模型llama.cpp
该项目提供了Qwen2.5-72B-Instruct模型的18种量化版本,文件大小范围为23GB至77GB。使用llama.cpp的最新量化技术,包括K-quants和I-quants系列。所有版本均经imatrix优化,并更新了上下文长度设置和分词器。项目还提供了详细的性能对比和设备兼容性指南,方便用户根据自身硬件配置选择合适版本。这些模型特别适合在LM Studio等推理引擎上运行。
llama-2-7b-bnb-4bit - 提升Llama模型性能,实现速度翻倍与内存节省
模型量化HuggingfaceLlama内存优化开源项目模型Github参数调优Unsloth
项目通过4bit量化模型和Unsloth技术,优化Llama系列模型的性能。用户可在Google Colab上进行简单操作,免费获取如Gemma、Mistral、TinyLlama等模型,并实现性能提升和内存节省。以Llama 2为例,其推理速度可提高2.2倍,内存使用减少43%。项目适合初学者,支持导出为GGUF和vLLM格式,可上传至Hugging Face。
codegemma-7b-GGUF - 经过量化优化的代码生成模型,支持多种精度选择的GGUF格式
GGUF文件大小HuggingfaceGithub开源项目模型CodeGemma性能对比模型量化
这个项目提供了CodeGemma-7b模型的多种量化版本,文件大小从2.16GB到9.07GB不等,采用GGUF格式。支持从Q8到IQ1的多种精度等级,可适应不同的硬件配置。其中Q6_K、Q5_K和Q4_K系列版本在性能和空间优化方面表现较好,适合生产环境使用。用户可根据自身的内存和显存情况选择合适的版本。
saiga2_13b_gguf - Llama.cpp支持的GGUF格式俄语对话模型
Llama.cpp自然语言处理HuggingfaceGithub开源项目模型模型量化俄语数据集语言模型
saiga2_13b_gguf是一个GGUF格式的俄语对话模型,基于多个俄语数据集训练,支持Llama.cpp部署。模型提供q4_K和q8_K两种量化版本,运行内存需求分别为10GB和18GB RAM。通过模型文件和交互脚本的配合,可实现命令行环境下的对话功能。
Mistral-Nemo-Instruct-2407-GGUF - 高效模型量化与优化指南
LlamaEdge高搜索量Mistral-Nemo-Instruct-2407语言支持HuggingfaceGithub开源项目模型模型量化
该项目介绍了多语言支持的Mistral-Nemo-Instruct-2407模型,其量化版本是由Second State Inc.完成的,涵盖从2位到16位的不同精度和质量损失模型。特别推荐使用具有最小质量损失的Q5_K_M和Q5_K_S版本。此外,还提供了在LlamaEdge上运行的服务和命令行应用指南,以便在配置上下文大小和自定义提示模板时满足不同应用的需求。本项目适合于在资源有限的环境中追求性能优化的用户。
Reflection-Llama-3.1-70B-GGUF - Llama-3.1-70B模型的GGUF量化版本集合
Github模型开源项目深度学习GPU内存优化HuggingfaceLlama人工智能推理模型量化
Reflection-Llama-3.1-70B模型的GGUF量化集合,包含从74.98GB到22.24GB的多个版本。采用K-quants和I-quants量化技术,并对embed和output权重进行了特别处理。项目提供了详细的版本特性说明、安装指南以及基于不同硬件配置的选型建议。
LlamaGuard-7B-AWQ - 使用低位量化技术提升模型推理速度和效率
AWQGithub模型开源项目安装指南LlamaGuard 7B安全分类Huggingface模型量化
LlamaGuard-7B-AWQ采用了AWQ的4位量化技术,提升了模型在Linux和Windows平台上的推理效率和精度,需使用NVidia GPU。此模型相较于传统GPTQ设置,具备更快速度和良好的输出质量,兼容Text Generation Webui、vLLM及Transformers等系统,支持多用户推理服务,适合对时延和精度有较高要求的应用场景。
MythoMax-L2-Kimiko-v2-13B-GGUF - 了解多种量化选项和GGUF格式特色
GPU加速格式兼容性模型量化MythoMax L2 Kimiko v2 13B模型Github开源项目GGUFHuggingface
此项目提供MythoMax L2 Kimiko v2 13B模型在GGUF格式中的多种量化文件,优化了标记化及特殊标记支持。用户可选择适用于GPU和CPU推理的版本,并通过llama.cpp、text-generation-webui等多种客户端和库获得支持,兼具兼容性与灵活性,适合不同硬件平台的需求。
Llama-2-13B-chat-AWQ - 增强Transformer模型推理效率的AWQ量化技术
Github模型开源项目MetaHuggingface文本生成Llama 2对话优化模型量化
Llama-2-13B-chat-AWQ项目利用AWQ低比特量化提高Transformer模型推理效率,支持4比特量化技术,相较于传统GPTQ方法,能更快速地实现多用户并发推理,降低硬件要求和部署成本。AWQ现已兼容vLLM平台进行高吞吐量推理,尽管总体吞吐量较未量化模型略有不如,但可通过较小的GPU实现高效部署,比如70B模型仅需一台48GB GPU即可运行。
aya-expanse-32b-GGUF - 多语言文本生成模型的量化版本与适用策略
模型量化嵌入输出权重Huggingface文本生成开源项目模型文件下载GithubCohereForAI
该项目涵盖了使用llama.cpp量化的aya-expanse-32b多语言文本生成模型。提供多种量化版本,用户可根据硬件需求选择合适的文件,优化性能与速度。项目详细介绍量化方法与使用建议,以提高文本生成质量,限定于非商业用途。