#量化

Phi-3.5-mini-instruct_Uncensored-GGUF - 优化的量化模型提供多种压缩方案支持不同运行环境

LLMGGUF开源项目Phi-3.5模型Github量化llama.cppHuggingface

该项目基于llama.cpp框架，将Phi-3.5-mini-instruct模型转换为GGUF格式，提供从F16到IQ2_M共19种量化版本。模型文件大小范围在1.32GB至7.64GB之间，适配CPU和GPU环境。Q6_K、Q5_K系列及IQ4_XS等版本在性能与体积上表现均衡，可根据硬件配置选择适合的版本使用。

Llama-3.2-3B-Instruct-uncensored-GGUF - 量化的语言模型版本，促进文本生成与信息获取

Llama-3.2-3B-Instruct-uncensoredHuggingface文本生成量化开源项目模型Hugging FaceGithub内幕交易

Llama-3.2-3B-Instruct-uncensored-GGUF项目是一个未过滤的量化语言模型版本，增强了文本生成的多样性和信息获取效率。通过llama.cpp的量化处理，该模型在保持高效性能的同时输出高质量响应。其特点包括在敏感话题上的信息提供更全面，响应拒绝次数少。支持研究和开发中的多场景应用，用户可以在相关平台上进行交互，实现从文本生成到信息提取的多领域应用。

MIstral-QUantized-70b_Miqu-1-70b-iMat.GGUF - 优质法语对话能力的70B模型，适用于大容量VRAM

Github开源项目量化法语Miqu 1 70bHuggingface上下文大小Mistral AI模型

Miqu 1 70b是Mistral Medium Alpha的一个模型，由Mistral AI公司开发，适合法语使用者。该模型在法语对话中表现出色，智能性能与精调的Llama 2 70b相当，并倾向于避免过拟合。Miqu提供多种量化格式，Q4_K_S和Q3_K_M在48GB和36GB VRAM上支持完全卸载，满足大容量VRAM用户需求。虽然Miqu与CodeLlama 70b有相同的100万theta值，但在实验中证明其最大上下文能力为32k，相较于4k更具优势，并提供较低的周转率。

MiniCPM-V-2_6-gguf - 高性能GGUF格式多模态模型转换与部署指南

GithubMiniCPM-V模型转换Huggingface多模态开源项目模型量化推理

MiniCPM-V-2.6是一个支持GGUF格式转换的多模态模型项目。项目展示了PyTorch模型到GGUF格式的转换流程，实现F16和INT4量化，并在Linux及Mac平台实现本地部署。项目提供完整的模型转换、构建和推理步骤，方便开发者进行多模态模型的本地化部署。

Llama-3.1-Nemotron-lorablated-70B-i1-GGUF - Llama-3.1的矩阵量化技术优化模型性能

HuggingfaceLlama-3.1-Nemotron-lorablated-70B量化开源项目模型Hugging FaceGithubQuants使用方法

该项目提供了一系列用于Llama-3.1-Nemotron模型的加权和矩阵量化文件，旨在优化模型的性能和运行效率。这些文件在缩小模型尺寸的同时保持了质量，适用于多种场景。用户可依据需求选择适合的量化级别，具体使用说明请参阅指南。项目的成功得益于各方支持和资源，推动了更多高质量量化文件的开发，助力广泛的研究和应用。

MN-12B-Mag-Mell-R1-GGUF - 优化的GGUF量化模型集合，提供多种量化精度选项和详细性能对比

MN-12B-Mag-Mell-R1Github模型压缩机器学习量化HuggingfaceGGUF开源项目模型

MN-12B-Mag-Mell-R1模型的GGUF量化版本包含从Q2到Q8的多种精度选项，文件大小范围在4.9GB至13.1GB之间。Q4_K系列在速度和质量上达到较好平衡，Q8_0版本则提供最高质量表现。项目通过性能对比图表和详细说明，展示了各量化版本的特点及适用场景。

Llama-3.1-70B-Instruct-lorablated - Llama 3.1 70B的未删减版本与高效LoRA技术的应用

应用程序开源项目合并方法模型Huggingface模型适配量化GithubLlama 3.1

Llama 3.1 70B的未删减模型采用LoRA技术，实现了高效的模型融合。项目通过abliteration和任务算术技术创新地处理LoRA适配器，确保模型的完全开放性和高水平输出。在角色扮演等多功能应用中表现出色。该项目得到了@grimjim和@FailSpy的技术支持，并提供了详细的量化与配置指南，经过多次测试验证有效。用户可使用提供的命令轻松复现模型。

buddhi-128k-chat-7b-GGUF - 高效的文本生成模型量化方式，保障性能与质量

开源项目模型高精度Huggingface质量量化Githubllama.cpp

本项目通过llama.cpp的量化处理，满足多样硬件需求，提供不同文件格式。i-matrix选项的应用和各类量化方式的整合，提升了模型精度与效率。根据RAM和VRAM情况，用户可以选择合适的量化版本。通过特性图表选择K-quants或I-quants，尤其是I-quants在性能和体积方面更具优势。下载指引详细，便于用户节省存储空间并优化性能，支持多种GPU平台，适合专业用户高效部署。

Open_Gpt4_8x7B_v0.2-GGUF - 提供多格式兼容量化模型，提升推理效率

开源项目GGUF模型兼容性模型Huggingfacerombo dawgOpen Gpt4 8X7B V0.2量化Github

此项目提供GGUF格式的多精度量化模型文件，旨在优化CPU和GPU的推理效率。作为GGML的替代，GGUF与多种第三方UI和库兼容，支持多平台AI模型的高效运行。项目包含2至8位量化模型以满足不同精度与内存要求，适合多种场景需求。通过详细的下载指导，用户能快速找到适合的模型文件，并利用llama.cpp、text-generation-webui等高性能运行时实现模型在不同硬件上的高效推理。

TinyLlama-1.1B-Chat-v1.0-GGUF - TinyLlama 轻量级语言模型的量化优化版

TinyLlama大语言模型llama.cppGithubHuggingface开源项目模型量化GGUF

TinyLlama-1.1B-Chat-v1.0-GGUF是经量化处理的轻量级语言模型,提供多种量化方法和文件大小。支持CPU和GPU推理,兼容多种客户端和库。适用于资源受限环境,在保持性能的同时显著缩小模型体积。用户可根据需求选择量化版本,平衡模型大小和质量。

WizardLM-13B-V1.2-GGUF - 引入GGUF格式，实现增强的Token化和特殊Token支持

兼容性量化人工智能模型Github开源项目HuggingfaceWizardLM

WizardLM-13B-V1.2-GGUF采用llama.cpp团队发布的创新GGUF格式，替代传统的GGML。相比之下，GGUF在Token化和特殊Token支持方面更具优势，同时能够处理元数据，具有良好的扩展性。该模型兼容多种客户端和库，支持GPU加速，适合于多平台应用，提供高效推理。在量化参数选择上，该模型支持2至8位的CPU+GPU推理，以实现性能与质量的平衡。

Llama3-8B-1.58-100B-tokens - 基于BitNet架构的Llama3 8B量化版本

BitNetLlama3-8B-1.58语言模型量化模型Github模型训练开源项目Huggingface

这是一个基于BitNet 1.58b架构的语言模型，通过对Llama-3-8B-Instruct进行微调开发。模型在FineWeb-edu数据集上完成了1000亿token的训练，采用1e-5学习率。测评显示其部分性能指标接近原版Llama3 8B，体现了极限量化在大型语言模型领域的应用潜力。

aya-23-8B-GGUF - 更精细的文本生成量化选项分析

开源项目质心模型文本生成Huggingfacetransformers量化Github

项目使用最先进的llama.cpp imatrix量化技术，支持多语言文本生成。多种量化格式，例如Q8_0和紧凑型IQ系列，提供应用的灵活性。用户依据硬件选择文件，以优化性能。创新量化处理为多语言文本生成提供了更高效的实现路径。

Qwen2.5-72B-Instruct-GPTQ-Int4 - Qwen2.5-72B模型4位量化版支持128K长文本及多语言处理

Qwen2.5Github长文本处理Huggingface量化多语言支持开源项目模型大语言模型

Qwen2.5-72B指令微调模型通过GPTQ技术实现4位量化，降低了模型部署门槛。模型支持中英等29种语言，具有出色的代码开发和数学运算能力，可处理128K tokens长度的输入文本并生成8K tokens的输出。基于RoPE等技术的transformers架构使其在长文本理解、结构化数据处理等任务中表现稳定。

mini-magnum-12b-v1.1-iMat-GGUF - 基于mini-magnum的量化优化大语言模型

llama.cppGithubmini-magnum-12bHuggingface量化开源项目模型大语言模型GGUF

mini-magnum-12b-v1.1模型的量化优化版本，采用iMatrix技术和fp16 GGUF进行量化处理。经验证可在llama.cpp、text-generation-web-ui等主流平台稳定运行，支持Flash Attention加速，并提供多种优化配置方案。项目包含详细的性能对比数据和部署指南，方便开发者快速上手使用。

JSL-MedLlama-3-8B-v1.0-GGUF - JSL-MedLlama-3-8B量化版本适应不同性能需求

模型下载JSL-MedLlama-3-8B-v1.0量化Huggingface医学Github开源项目模型性能

项目提供多个适用于JSL-MedLlama-3-8B模型的量化方案，涵盖不同计算性能和存储需求。采用llama.cpp进行的量化涵盖从高到低的质量选项，满足不同设备资源条件。推荐使用Q5_K_M或Q4_K_M量化版本，以实现质量与性能的平衡，确保硬件资源的最佳利用和精准的医疗文本生成。

Rombos-LLM-V2.6-Qwen-14b-GGUF - 基于llama.cpp的Qwen-14B量化模型集合

Rombos-LLM模型压缩llama.cpp量化GGUF模型GithubHuggingface开源项目

llama.cpp量化的Qwen-14B开源项目，通过imatrix方案优化生成多种GGUF格式模型文件。模型尺寸从2GB到29GB不等，覆盖Q2至F16多种量化精度，并针对不同硬件架构进行优化。项目提供完整的模型选择指南，方便本地部署时根据实际硬件环境选择合适版本。

guanaco-65B-GGUF - 解析新型GGUF格式及其多平台兼容性

Guanaco 65BGithub开源项目量化GPU加速模型格式HuggingfaceTim Dettmers模型

此项目涵盖了2023年8月21日由llama.cpp团队推出的GGUF格式，作为已停用的GGML格式的替代方案。该项目提供了多种比特的量化文件，适用于CPU和GPU的推理需求。用户能够通过多种客户端和库，如llama.cpp和text-generation-webui，下载并高效使用这些模型，提供本地及网络接口支持。所支持的量化方法包括GGML_TYPE_Q4_K，提供质量与性能的平衡。

Llama-3.2-3B-Instruct-uncensored-GGUF - 高效文本生成的前沿模型格式

GPU加速量化模型格式Llama-3.2-3B-Instruct-uncensored-GGUF模型Github开源项目文本生成Huggingface

Llama-3.2-3B-Instruct-uncensored-GGUF采用了最新的GGUF格式，替代了不再支持的GGML，提升了大规模文本生成的性能。它兼容多种客户端与库，从llama.cpp到进阶GPU工具，包括Python库和用户友好的图形界面，如LM Studio和text-generation-webui，以及适用于故事创作的KoboldCpp。此更新提升了模型推理效率，具有广泛的兼容性，适用于多种系统平台，实现快速响应与多功能扩展。

Llama-3-8B-Instruct-GPTQ-4-Bit - 利用GPTQ量化优化模型性能的新方法

数据协调HuggingfaceGPTQ量化Meta-Llama-3-8B-InstructApache Airflow模型Github开源项目

Astronomer的4比特量化模型通过GPTQ技术减少VRAM占用至不足6GB，比原始模型节省近10GB。此优化提高了延迟和吞吐量，即便在较便宜的Nvidia T4、K80或RTX 4070 GPU上也能实现高效性能。量化过程基于AutoGPTQ，并按照最佳实践进行，使用wikitext数据集以减小精度损失。此外，针对vLLM和oobabooga平台提供详细配置指南，以有效解决加载问题。

Qwen2.5-Coder-7B-Instruct-GGUF - 深度学习模型的多规格量化版本适配不同硬件和性能要求

大语言模型开源项目GGUFQwen2.5-Coder-7B-Instruct模型Huggingface量化Githubllama.cpp

本项目为Qwen2.5-Coder-7B-Instruct模型提供了从15GB到2.78GB的多种量化版本。采用llama.cpp最新技术，包括K-quants和I-quants两种量化方案，并针对ARM架构优化。用户可根据设备内存容量和性能需求选择适合版本。各版本保留原始模型核心功能，适用于多种部署场景。

Mixtral-8x7B-Instruct-v0.1-llamafile - 多语言支持的创新llamafile格式

Github开源项目兼容性量化Mixtral 8X7B InstructllamafileHuggingfaceMistral AI模型

探索适用于Mixtral 8X7B Instruct版本的创新llamafile格式，该格式支持在六个操作系统平台上的兼容性，并支持法语、意大利语、德语、西班牙语和英语等多种语言。通过使用Cosmopolitan Libc将LLM权重转换为可运行的二进制文件，使其成为高级机器学习项目的理想选择。根据应用需求利用高效的量化方法，实现与llama.cpp、LM Studio和koboldcpp等软件的无缝集成。通过Q4_K_M等量化选项平衡质量，或通过Q5_K_M实现机器学习任务的最佳性能。

granite-3b-code-instruct-GGUF - IBM开发的3B参数代码智能模型

Githubgranite-3b-code-instruct开源项目代码模型量化自然语言处理Huggingface机器学习模型

这是一个由IBM Research开发的代码智能模型,采用3B规模参数架构,针对指令跟随、逻辑推理和编程问题解决进行优化。模型采用Apache 2.0许可证开源,支持多种量化版本以适配不同计算资源,通过标准提示模板即可快速部署使用。

Llama-2-13B-chat-GGUF - Llama 2聊天模型的量化压缩版本

大语言模型Github开源项目量化模型GGUFHuggingfaceLlama 2人工智能

Llama 2 13B聊天模型的GGUF格式优化版本,采用2-bit到8-bit不等的量化方案,实现模型体积的大幅压缩。支持CPU和GPU环境下的高效推理,适配主流框架如llama.cpp、text-generation-webui等。通过不同量化级别的选择,可在推理性能与资源占用间实现灵活平衡。

Wizard-Vicuna-13B-Uncensored-GGUF - Wizard Vicuna大语言模型的GGUF量化实现

Github开源项目量化AI模型GPU加速GGUFHuggingfaceLLM模型

Wizard Vicuna 13B模型的GGUF量化版本，提供2-bit至8-bit多种量化精度选项。GGUF作为llama.cpp最新支持的模型格式，可实现高效的本地部署和推理。模型支持CPU与GPU加速，采用Vicuna对话模板，适用于多种文本生成场景。

LongWriter-llama3.1-8b-GGUF - 长上下文自然语言生成的突破与模型量化技术

开源项目LongWriter-llama3.1-8b量化格式模型下载模型Huggingfacetransformers量化Github

LongWriter-llama3.1-8b-GGUF项目通过llama.cpp实现imatrix量化，为长上下文自然语言生成提供全面解决方案。支持英文和中文，涵盖多种量化类型，满足不同硬盘和速度需求。用户可根据VRAM和RAM选择合适的模型文件，获取最佳运行速度或质量。项目兼容多种硬件，包括Nvidia的cuBLAS、AMD的rocBLAS和Apple Metal，并提供I-quant与K-quant使用指南。文件可通过huggingface-cli下载，帮助用户提高自然语言处理效率。

Llama-3.2-3B-Instruct-uncensored-GGUF - 多硬件兼容的Llama-3.2量化模型

数据集开源项目ARM推理Llama-3.2-3B-Instruct-uncensored模型嵌入权重Huggingface量化Github

LLama-3.2-3B-Instruct模型经过imatrix量化处理，确保在多种硬件配置（如ARM架构）下的高效表现。可在LM Studio中运行并支持多种格式选择，以满足不同内存和性能要求。通过huggingface-cli下载特定文件或全集成，方便易用。K-quants和I-quants提供多样化速度与性能的选择，是研究及开发人员的灵活工具。用户反馈能有效提升量化模型的适用性。

Qwen2.5-14B_Uncensored_Instruct-GGUF - 高性能量化版本适用于多种设备和场景

Qwen2.5-14B开源项目GGUF模型Huggingface模型压缩文本生成量化Github

此项目为Qwen2.5-14B无审查指令模型提供多种量化版本，涵盖从29.55GB的F16到5.36GB的IQ2_M等不同规格。量化类型包括Q8_0、Q6_K、Q5_K、Q4_K、Q3_K和IQ系列，适应不同硬件配置需求。项目详细介绍了各版本特点、文件大小和适用场景，并提供选择指南和下载方法，方便用户根据设备性能选择合适版本。

merlinite-7b-lab-GGUF - Merlinite 7b的4-bit量化版本，适用于优化性能和灵活性

merlinite开源项目模型IBMmistralHuggingfaceApache License量化Github

Merlinite 7b的4-bit量化版本由IBM Research开发，针对优化模型性能和灵活性而设计，结合了前沿技术，为数据处理提供更高效的表现，同时确保结果的准确性。

llama-30b-supercot-GGUF - Llama 30B Supercot GGUF：多种量化格式与GPU加速

开源项目模型文件模型GPU加速HuggingfaceLlama 30B Supercot量化Github新格式

GGUF格式的Llama 30B Supercot模型支持GPU加速，具备多个量化选项。由ausboss创建，提供多种格式适应不同需求，推荐Q4_K_M格式以实现性能与质量的平衡。GGUF是GGML的替代格式，兼容多种用户界面和库，如llama.cpp、text-generation-webui，适合于机器学习和AI领域应用。

WhiteRabbitNeo-13B-GGUF - 深入分析问题的多路径推理模型

兼容性量化格式模型Github开源项目HuggingfaceWhiteRabbitNeo

WhiteRabbitNeo 13B模型采用多路径推理，支持多种UI和库的高效运行。提供GGUF格式模型文件，支持GPU加速，并具备从2-bit到8-bit的量化选项，以满足不同需求。

Phi-3-medium-128k-instruct-GGUF - Phi-3-medium-128k-instruct模型的多硬件平台适配与量化选项

llama.cpp自然语言处理量化开源项目模型GithubHuggingfacePhi-3-medium-128k-instruct模型下载

Phi-3-medium-128k-instruct项目以llama.cpp最新版本为基础，提供多种量化模型以适应不同内存与性能需求，支持包括Nvidia的cuBLAS、AMD的rocBLAS、CPU及Apple Metal在内的多种硬件平台。推荐使用Q6_K_L和Q5_K_M版本以实现高精度场景需求。用户可利用huggingface-cli选择性下载所需模型，以达到速度与质量的最佳平衡。

molmo-7B-D-bnb-4bit - 量化技术优化，模型尺寸有效缩减

深度学习基准测试Huggingface机器学习模型量化开源项目模型transformersGithub

采用4bit量化技术的Molmo-7B-D模型，从30GB压缩至7GB，运行需求缩减至约12GB VRAM。项目致力于在保持低资源消耗的基础上提升模型性能。进一步的信息及示例代码可在GitHub和Hugging Face上获取，性能指标及基准测试结果预定于下周发布。

Mistral-Small-22B-ArliAI-RPMax-v1.1-GGUF - 高创意RP模型，强调多样性与个性化

训练Github模型量化开源项目Mistral-Small-22B-ArliAI-RPMax-v1.1非重复性Huggingface

Mistral-Small-22B-ArliAI-RPMax-v1.1基于Mistral-Small-Instruct-2409开发，特别强调多样性和独创性。该模型经过精心的数据选择，避免重复，具备良好的创意表达能力。模型在多种量化格式中可用，训练过程注重减少重复情况，仅供个人使用。用户可以通过多种平台获取此模型，并参与社区讨论。

flux.1-lite-8B-alpha-gguf - 量化模型转化与图像生成的精准实现

非商业许可量化Freepik模型Github图像生成开源项目文本到图像Huggingface

通过GGUF转换，该项目实现了Freepik/flux.1-lite-8B-alpha模型的量化版本。该量化模型适用于ComfyUI-GGUF自定义节点的图像生成及文本转图像任务，同时遵循原始的限制和许可条款。模型文件需要存放在ComfyUI/models/unet路径下，安装说明请参见GitHub页面。该模型的量化转换有助于图像生成的灵活性。

vLLM:高效易用的大语言模型推理和服务引擎

2024年08月30日

LMDeploy: 高效的大语言模型压缩、部署与服务工具包

2024年08月30日

Curated Transformers: 可组合的最先进Transformer模型库

2024年08月30日

Awesome-Efficient-LLM: 大型语言模型高效化技术的最新进展

2024年08月30日

RTP-LLM: 阿里巴巴的高性能大语言模型推理引擎

2024年08月30日

OmniQuant: 大语言模型的全方位校准量化技术

2024年08月30日

SqueezeLLM: 大语言模型的高效量化压缩技术

2024年08月30日

Docker LLaMA2 Chat:三步上手大型语言模型

2024年08月30日

深入解析Hugging Face的Text Generation Inference工具包:为大型语言模型赋能

2024年08月30日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com