#量化

meditron-7B-AWQ - 通过低比特量化方法优化变换器模型性能

医疗Github开源项目量化开源HuggingfaceMeditron 7B推理模型

此项目提供EPFL LLM团队的Meditron 7B模型的AWQ量化文件，采用高效的4位低比特量化方法，在提升变换器推理速度的同时保证质量。兼容多种平台和工具，如Text Generation Webui、vLLM、Hugging Face Text Generation Inference及Transformers。

Meta-Llama-3-70B-Instruct-FP8 - FP8量化优化的Meta-Llama-3-70B指令模型实现高效部署

模型量化Llama3开源项目FP8HuggingfaceGithub大语言模型vLLM

Meta-Llama-3-70B-Instruct-FP8是一个经FP8量化优化的大型语言模型。通过AutoFP8技术，该模型将参数位数从16减至8，大幅降低存储和GPU内存需求。在OpenLLM基准测试中，其平均得分为79.16，与原始模型的79.51相近。这个英语助手式聊天模型适用于商业和研究领域，可通过vLLM后端实现高效部署。

Meta-Llama-3.1-8B-Instruct-quantized.w8a8 - 量化优化的多语言文本生成模型

多语言Github量化模型开源项目Meta-Llama-3vLLMHuggingface文本生成

该模型通过INT8量化优化，实现了GPU内存效率和计算吞吐量的提升，支持多语言文本生成，适用于商业和研究中的辅助聊天任务。在多个基准测试中，该模型实现了超越未量化模型的恢复率，尤其在OpenLLM和HumanEval测试中表现突出。使用GPTQ算法进行量化，有效降低了内存和磁盘的占用。可通过vLLM后端快速部署，并支持OpenAI兼容服务。

Llama-3.1-Nemotron-70B-Instruct-HF-FP8-dynamic - 多语种量化优化模型，显著降低内存占用

开源项目Llama-3.1-Nemotron-70B-Instruct-HF-FP8-dynamic模型模型优化Huggingface文本生成多语言支持量化Github

通过将权重和激活量化为FP8格式，该项目优化了Llama-3.1-Nemotron模型，显著降低了GPU内存与磁盘的占用。模型适用于商业与研究，支持多语言开发和会话助手的构建。利用vLLM，可以实现高效部署并具有OpenAI兼容性。Llama-3.1-Nemotron-70B-Instruct-HF-FP8-dynamic在诸多测试中表现优良，在Arena-Hard评估中达99.41%的恢复率。

codegemma-1.1-7b-it-GGUF - 文本生成的多样化量化模型选择

模型下载Hugging Face量化HuggingfaceGithub开源项目模型transformers文本生成

项目使用llama.cpp进行模型量化，提供多种模型版本以优化文本生成性能。用户可以依据硬件配置选择合适的模型版本，推荐选用Q6_K等高质量量化格式。多样化的模型版本在内存占用和性能表现之间提供灵活选择，适用于多种硬件平台。I-quant模型在较低量化级别上表现优异，适合需要高效运行的场景。

EstopianMaid-13B-GGUF - 量化格式的EstopianMaid-13B模型，兼容多平台与多UI

HuggingfaceLlama量化开源项目模型GithubGPU加速EstopianMaid 13BApache 2.0

EstopianMaid 13B的GGUF格式文件由llama.cpp团队推出取代GGML。项目涵盖多种量化与文件规格，兼容包括llama.cpp在内的多种平台和UI。详细的下载指导帮助用户选择最佳配置，支持GPU和CPU推理，适用于多种文本生成场景。

TinyLlama-1.1B-Chat-v1.0-marlin - TinyLlama-1.1B量化推理解决方案

HuggingfaceTinyLlama-1.1B-Chat-v1.0量化推理开源项目基于模型模型Neural MagicGithub

本项目提供了一种以TinyLlama-1.1B为基础的量化聊天模型，运用GPTQ技术实现内存优化与推理加速，支持高效的4位推理。借助nm-vllm引擎，用户能快速实现部署，并可通过Python管道进行本地推理。详细的量化与Marlin格式转换流程保障了模型的高效表现。此外，Neural Magic的Slack社区欢迎加入以获取支持和交流更多关于神经网络及AI的资讯。

MadMix-Unleashed-12B-i1-GGUF - MadMix-Unleashed-12B模型量化文件的使用与性能分析

MadMix-Unleashed-12BHuggingface服务器量化模型开源项目Hugging FaceGithub

项目MadMix-Unleashed-12B提供多种量化文件，适用于不同应用需求。量化文件如i1-IQ1_S和i1-IQ1_M等，可以根据性能和质量要求进行选择。文档中详细阐述了GGUF文件的使用方法，并提供了使用说明和质量比较。感谢nethype GmbH和@nicoboss的技术支持，他们的贡献提升了量化模型的质量。

Mixtral-8x7B-Instruct-v0.1-GGUF - Mixtral-8x7B多语言模型的GGUF量化版本

AI模型HuggingfaceMistral AI模型Github开源项目GGUFMixtral 8X7B量化

本项目提供Mixtral-8x7B-Instruct-v0.1模型的GGUF量化版本。GGUF格式支持CPU和GPU高效推理，项目包含2至8比特多种量化等级文件。模型支持英、法、意、德、西等语言，适用多种NLP任务。用户可通过llama.cpp等工具便捷运行这些模型。

Phi-3-mini-4k-instruct-int4-ov - Phi-3-mini-4k-instruct模型的OpenVINO INT4量化与兼容性概览

Phi-3-mini-4k-instructGithub开源项目量化OpenVINO模型推理MIT许可证Huggingface模型

Phi-3-mini-4k-instruct模型通过NNCF的INT4权重压缩被转换为OpenVINO™ IR格式，增强OpenVINO推理效率。适用于OpenVINO 2024.4.0及以上版本，与Optimum Intel 1.23.1兼容，实现高效模型推理。

Tiger-Gemma-9B-v3-GGUF - ARM推理优化与量化模型文件的综合指南

llama.cpp量化开源项目模型Github质量优化HuggingfaceTiger-Gemma-9B-v3模型下载

Tiger-Gemma-9B-v3-GGUF项目提供了一系列专为ARM推理优化的量化模型文件，格式涵盖f16至Q2_K。项目采用llama.cpp的imatrix方法确保模型的输出和嵌入权重高精度，并允许通过huggingface-cli灵活下载文件。用户可根据设备资源选择'I-quant'或'K-quant'格式，以平衡高性能和空间效率，适用于文本生成任务的开发与研究。

DeepSeek-Coder-V2-Lite-Base-GGUF - 文本生成量化模型的高效选择方案

Huggingface高质量模型量化开源项目模型文件下载Githubgguf格式DeepSeek-Coder-V2-Lite-Base

该项目通过llama.cpp和imatrix技术对文本生成模型进行量化处理，为不同硬件配置提供优化选择。模型文件允许根据RAM和VRAM大小选择最佳方案，从而提升运行效率。K-quants在多数应用中表现理想，而I-quants提供更优性能但在硬件兼容性上有特定要求。项目提供的工具和文档为用户在进行文本生成任务的过程中提供指导，帮助选择兼顾速度与质量的量化模型。

Gemma-2b-it-GGUF - 多样化选择的Gemma量化模型

HuggingfaceLlamaEdge量化模型开源项目gemma-2b-itGithubGoogle

该项目以多种量化格式提供Gemma模型，从低质量损失的小型号到几乎无质量损失的大型号，满足多样化的应用需求。模型的量化由Second State Inc.负责，旨在优化性能和存储空间，适合多种AI部署环境。选择合适型号可在性能与资源使用间达到平衡。

CodeLlama-13B-GGUF - GGUF格式的创新特点与适用范围

Huggingface机器学习量化开源项目模型CodeLlama 13BMetaGithub模型格式

Meta推出的GGUF格式替代了GGML，优化了编码生成的效能和兼容性。它增强了标记处理和元数据支持，并适用于多种程序和库，如llama.cpp和text-generation-webui。这种格式推动了编码模型的发展，提供了便于GPU加速和降低内存需求的量化模型，提升了开发者的灵活性和解决方案质量。

Tiny-Vicuna-1B-GGUF - 量化的Tiny Vicuna 1B GGUF模型文件优化文本生成效率

量化开源项目模型GithubHuggingface文本生成Tiny-Vicuna-1B文件

此项目提供了afrideva量化的Tiny Vicuna 1B GGUF模型文件，涵盖q2_k、q3_k_m、q4_k_m、q5_k_m、q6_k和q8_0等量化方法，文件大小从482.14 MB到1.17 GB不等。模型由Jiayi-Pan在TinyLLama 1.1B基础上创建，利用WizardVicuna数据集进行微调，适合早期的实验迭代。模型旨在提升文本生成任务的效率，具备高效性能和简便操作，适合紧凑存储需求的应用。

Replete-LLM-V2.5-Qwen-14b-GGUF - Replete-LLM-V2.5-Qwen-14b模型的多量化处理与硬件优化概述

Rombos-LLM-V2.5-Qwen-14b模型优化量化ARM芯片模型Github开源项目性能比较Huggingface

该项目对Rombos-LLM-V2.5-Qwen-14b模型进行了多种量化优化，使用了llama.cpp的b3825版本。支持多种量化格式，如f16、Q8_0、Q6_K_L等，适用不同硬件环境，推荐Q6_K_L和Q5_K_L以实现高质量和资源节省。用户可根据硬件需求选择合适的格式，并使用huggingface-cli进行下载。针对ARM芯片提供了特定的优化量化选项Q4_0_X_X，广泛适用于文本生成应用，提升运行效率和输出质量。

Qwen2.5-Coder-7B-Instruct-GPTQ-Int4 - Qwen2.5-Coder高效代码生成与长文本处理

HuggingfaceQwen2.5-Coder长上下文支持量化开源项目代码生成模型Hugging FaceGithub

Qwen2.5-Coder项目通过5.5万亿训练令牌的使用，显著提升了代码生成、推理和修正能力。该模型支持长达128K的上下文长度，采用GPTQ 4位量化，并保持数学与通用能力优势。搭载transformers架构，具备RoPE和SwiGLU等技术，优化代码生成和处理过程。

Hermes-3-Llama-3.1-70B-Uncensored-GGUF - 静态与多变量量化技术在Hermes-3-Llama模型中的应用

工作站Huggingface量化开源项目模型Hermes-3-Llama-3.1-70B-UncensoredtransformersHugging FaceGithub

Hermes-3-Llama-3.1-70B-Uncensored项目提供多种量化文件类型，包括更优的IQ-quants，适用于不同的性能需求。用户可参考TheBloke的材料了解GGUF文件的使用方法。不同的量化文件按大小排序，推荐使用性能较佳的Q4_K_S文件。项目特别感谢nethype GmbH提供的技术支持。

Ruqiya_-_Merge-Gemma-2b-it-with-a-Fine-Tuned-one-for-Arabic-gguf - 通过量化技术增强阿拉伯语模型的表现力

Huggingface阿拉伯语fine-tuning量化开源项目模型Merge-Gemma-2b-it-with-a-Fine-Tuned-one-for-Arabic模型合并Github

项目旨在通过融合与微调Merge-Gemma-2b-it模型，提升阿拉伯语语言模型的精确性。借助LazyMergekit工具，将Ruqiya团队开发的微调模型与Google基准模型结合，并采用多个量化方法，提升模型的性能与存储效率。量化工作由Richard Erkhov完成，GitHub上提供了多种模型版本供用户使用。从数据配置到实际应用，项目提供全面的技术支持，以优化语言生成任务。

Qwen2.5-Math-72B-Instruct-GGUF - Llamacpp在Qwen2.5-Math代码量化中的应用

量化开源项目ARM芯片模型GithubHuggingfaceQwen2.5-Math-72B-InstructHugging Face性能

项目应用llama.cpp对Qwen2.5-Math模型进行量化，提供多种量化格式以适应不同硬件配置。更新包括改进的分词器，涵盖高至极低质量的量化文件，适用于不同RAM和VRAM需求，并支持在ARM芯片上运行。使用K-quant和I-quant等量化方法，有助于优化模型性能与速度。下载和安装可通过huggingface-cli实现，灵活快捷。

Llama-3.1-8B-Lexi-Uncensored-V2-GGUF - 提升文本生成技术的精度和合规性

Llama-3.1-8B-Lexi-Uncensored-V2量化开源项目模型GithubHuggingface未过滤准确性

基于Llama-3.1-8B-Instruct的项目，旨在提高文本生成的精确性和合规性，并遵循Meta的Llama 3.1社区协议。量化的Lexi模型在多种数据集上评估，IFEval数据集精度达77.92%。用户可自定义系统提示以优化效果，建议在服务部署前添加对齐层以确保合规。使用生成内容时需谨慎负责。

NVLM-D-72B-nf4 - 多模态模型NF4量化与性能优化研究

GPU内存量化模型模型转换Github图像文本生成Huggingface开源项目NVLM-D-72B

NVLM-D-72B模型NF4量化转换项目利用BitsAndBytes技术实现双重量化，旨在优化性能。目前纯文本处理表现出色，但图像处理功能仍需完善。项目优化了modeling_intern_vit.py文件，提高了量化模块兼容性。模型运行需48GB以上显存，遵循CC BY-NC 4.0许可。该项目为探索大型多模态模型量化提供了宝贵经验。

Reasoning-0.5b-GGUF - 量化推理模型优化文本生成效果

量化Reasoning-0.5b模型Github开源项目llama.cpp嵌入/输出权重文本生成Huggingface

页面介绍了Reasoning-0.5b模型的多种量化版本，优化了ARM及其他平台的推理速度与性能。在LM Studio运行模型有助于在低RAM环境下展现性能优势。内容包括量化文件的特性、推荐下载链接、使用建议，以及在不同计算平台上的应用效果。用户通过huggingface-cli可依据硬件资源选择合适模型，提升性能效率。

Qwen2.5-Math-7B-Instruct-GGUF - 针对性能和空间优化的Qwen2.5数学模型GGUF量化版本

大语言模型GGUF开源项目模型Github模型压缩量化Qwen2.5-Math-7B-InstructHuggingface

Qwen2.5-Math-7B-Instruct模型的GGUF量化版本集合，文件大小从2.78GB到15GB不等。采用K-quant和I-quant量化技术，适配主流GPU平台。Q6_K和Q5_K系列在模型性能和资源占用上取得较好平衡，可通过LM Studio实现便捷部署。

Phi-3.5-mini-instruct_Uncensored-GGUF - 优化的量化模型提供多种压缩方案支持不同运行环境

LLMGGUF开源项目Phi-3.5模型Github量化llama.cppHuggingface

该项目基于llama.cpp框架，将Phi-3.5-mini-instruct模型转换为GGUF格式，提供从F16到IQ2_M共19种量化版本。模型文件大小范围在1.32GB至7.64GB之间，适配CPU和GPU环境。Q6_K、Q5_K系列及IQ4_XS等版本在性能与体积上表现均衡，可根据硬件配置选择适合的版本使用。

Llama-3.2-3B-Instruct-uncensored-GGUF - 量化的语言模型版本，促进文本生成与信息获取

Llama-3.2-3B-Instruct-uncensoredHuggingface文本生成量化开源项目模型Hugging FaceGithub内幕交易

Llama-3.2-3B-Instruct-uncensored-GGUF项目是一个未过滤的量化语言模型版本，增强了文本生成的多样性和信息获取效率。通过llama.cpp的量化处理，该模型在保持高效性能的同时输出高质量响应。其特点包括在敏感话题上的信息提供更全面，响应拒绝次数少。支持研究和开发中的多场景应用，用户可以在相关平台上进行交互，实现从文本生成到信息提取的多领域应用。

MIstral-QUantized-70b_Miqu-1-70b-iMat.GGUF - 优质法语对话能力的70B模型，适用于大容量VRAM

Github开源项目量化法语Miqu 1 70bHuggingface上下文大小Mistral AI模型

Miqu 1 70b是Mistral Medium Alpha的一个模型，由Mistral AI公司开发，适合法语使用者。该模型在法语对话中表现出色，智能性能与精调的Llama 2 70b相当，并倾向于避免过拟合。Miqu提供多种量化格式，Q4_K_S和Q3_K_M在48GB和36GB VRAM上支持完全卸载，满足大容量VRAM用户需求。虽然Miqu与CodeLlama 70b有相同的100万theta值，但在实验中证明其最大上下文能力为32k，相较于4k更具优势，并提供较低的周转率。

MiniCPM-V-2_6-gguf - 高性能GGUF格式多模态模型转换与部署指南

GithubMiniCPM-V模型转换Huggingface多模态开源项目模型量化推理

MiniCPM-V-2.6是一个支持GGUF格式转换的多模态模型项目。项目展示了PyTorch模型到GGUF格式的转换流程，实现F16和INT4量化，并在Linux及Mac平台实现本地部署。项目提供完整的模型转换、构建和推理步骤，方便开发者进行多模态模型的本地化部署。

Llama-3.1-Nemotron-lorablated-70B-i1-GGUF - Llama-3.1的矩阵量化技术优化模型性能

HuggingfaceLlama-3.1-Nemotron-lorablated-70B量化开源项目模型Hugging FaceGithubQuants使用方法

该项目提供了一系列用于Llama-3.1-Nemotron模型的加权和矩阵量化文件，旨在优化模型的性能和运行效率。这些文件在缩小模型尺寸的同时保持了质量，适用于多种场景。用户可依据需求选择适合的量化级别，具体使用说明请参阅指南。项目的成功得益于各方支持和资源，推动了更多高质量量化文件的开发，助力广泛的研究和应用。

MN-12B-Mag-Mell-R1-GGUF - 优化的GGUF量化模型集合，提供多种量化精度选项和详细性能对比

MN-12B-Mag-Mell-R1Github模型压缩机器学习量化HuggingfaceGGUF开源项目模型

MN-12B-Mag-Mell-R1模型的GGUF量化版本包含从Q2到Q8的多种精度选项，文件大小范围在4.9GB至13.1GB之间。Q4_K系列在速度和质量上达到较好平衡，Q8_0版本则提供最高质量表现。项目通过性能对比图表和详细说明，展示了各量化版本的特点及适用场景。

Llama-3.1-70B-Instruct-lorablated - Llama 3.1 70B的未删减版本与高效LoRA技术的应用

应用程序开源项目合并方法模型Huggingface模型适配量化GithubLlama 3.1

Llama 3.1 70B的未删减模型采用LoRA技术，实现了高效的模型融合。项目通过abliteration和任务算术技术创新地处理LoRA适配器，确保模型的完全开放性和高水平输出。在角色扮演等多功能应用中表现出色。该项目得到了@grimjim和@FailSpy的技术支持，并提供了详细的量化与配置指南，经过多次测试验证有效。用户可使用提供的命令轻松复现模型。

buddhi-128k-chat-7b-GGUF - 高效的文本生成模型量化方式，保障性能与质量

开源项目模型高精度Huggingface质量量化Githubllama.cpp

本项目通过llama.cpp的量化处理，满足多样硬件需求，提供不同文件格式。i-matrix选项的应用和各类量化方式的整合，提升了模型精度与效率。根据RAM和VRAM情况，用户可以选择合适的量化版本。通过特性图表选择K-quants或I-quants，尤其是I-quants在性能和体积方面更具优势。下载指引详细，便于用户节省存储空间并优化性能，支持多种GPU平台，适合专业用户高效部署。

Open_Gpt4_8x7B_v0.2-GGUF - 提供多格式兼容量化模型，提升推理效率

开源项目GGUF模型兼容性模型Huggingfacerombo dawgOpen Gpt4 8X7B V0.2量化Github

此项目提供GGUF格式的多精度量化模型文件，旨在优化CPU和GPU的推理效率。作为GGML的替代，GGUF与多种第三方UI和库兼容，支持多平台AI模型的高效运行。项目包含2至8位量化模型以满足不同精度与内存要求，适合多种场景需求。通过详细的下载指导，用户能快速找到适合的模型文件，并利用llama.cpp、text-generation-webui等高性能运行时实现模型在不同硬件上的高效推理。

TinyLlama-1.1B-Chat-v1.0-GGUF - TinyLlama 轻量级语言模型的量化优化版

TinyLlama大语言模型llama.cppGithubHuggingface开源项目模型量化GGUF

TinyLlama-1.1B-Chat-v1.0-GGUF是经量化处理的轻量级语言模型,提供多种量化方法和文件大小。支持CPU和GPU推理,兼容多种客户端和库。适用于资源受限环境,在保持性能的同时显著缩小模型体积。用户可根据需求选择量化版本,平衡模型大小和质量。

WizardLM-13B-V1.2-GGUF - 引入GGUF格式，实现增强的Token化和特殊Token支持

兼容性量化人工智能模型Github开源项目HuggingfaceWizardLM

WizardLM-13B-V1.2-GGUF采用llama.cpp团队发布的创新GGUF格式，替代传统的GGML。相比之下，GGUF在Token化和特殊Token支持方面更具优势，同时能够处理元数据，具有良好的扩展性。该模型兼容多种客户端和库，支持GPU加速，适合于多平台应用，提供高效推理。在量化参数选择上，该模型支持2至8位的CPU+GPU推理，以实现性能与质量的平衡。

Llama3-8B-1.58-100B-tokens - 基于BitNet架构的Llama3 8B量化版本

BitNetLlama3-8B-1.58语言模型量化模型Github模型训练开源项目Huggingface

这是一个基于BitNet 1.58b架构的语言模型，通过对Llama-3-8B-Instruct进行微调开发。模型在FineWeb-edu数据集上完成了1000亿token的训练，采用1e-5学习率。测评显示其部分性能指标接近原版Llama3 8B，体现了极限量化在大型语言模型领域的应用潜力。

相关文章

Article Cover

vLLM:高效易用的大语言模型推理和服务引擎

Article Cover

LMDeploy: 高效的大语言模型压缩、部署与服务工具包

Article Cover

Curated Transformers: 可组合的最先进Transformer模型库

Article Cover

Awesome-Efficient-LLM: 大型语言模型高效化技术的最新进展

Article Cover

RTP-LLM: 阿里巴巴的高性能大语言模型推理引擎

Article Cover

OmniQuant: 大语言模型的全方位校准量化技术

Article Cover

SqueezeLLM: 大语言模型的高效量化压缩技术

Article Cover

Docker LLaMA2 Chat:三步上手大型语言模型

Article Cover

深入解析Hugging Face的Text Generation Inference工具包:为大型语言模型赋能

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号