#量化

bge-small-en-v1.5-quant - 高效量化嵌入模型提升自然语言处理性能

稀疏性量化深度稀疏模型Github开源项目嵌入MTEBHuggingface

bge-small-en-v1.5-quant是一种应用量化和稀疏技术的自然语言处理模型，适合资源受限环境，支持多种分类和检索任务，并在MTEB数据集上展现出坚实的表现。在AmazonPolarityClassification数据集上，实现了91.89%的准确率。其结合了量化和稀疏性技术，使得模型具备轻量化并易于在低算力设备上部署，是自然语言处理应用的理想选择。

Llama-3.1-WhiteRabbitNeo-2-8B-GGUF - Llama-3.1量化模型实现优化文本生成

RAM量化Llama-3.1-WhiteRabbitNeo-2-8B模型Github开源项目数据集文本生成Huggingface

Llama-3.1-WhiteRabbitNeo-2-8B使用llama.cpp进行量化，以优化文本生成功能。项目提供多种量化方案，如Q6_K_L和Q5_K_L，适应不同内存条件，特别推荐Q6_K_L用于嵌入及输出权重以获取优异表现。用户可以使用huggingface-cli快捷下载所需文件，并通过Q4_0_X_X对ARM芯片进行性能优化。此项目提供详细决策指南，帮助选择合适的量化版本。

falcon-180B-i1-GGUF - 深入解析量化模型在质量与速度之间的平衡

Falcon-180B量化Huggingface模型使用条件Github开源项目transformers

项目运用weighted/imatrix量化方法以提升质量、速度和文件大小。用户可依据需求选择不同类型和大小的量化模型，并通过性能对比获取最优方案。得益于nethype GmbH和@nicoboss提供的技术和计算资源支持，项目确保高质量的用户成果，并提供FAQ解答常见问题及模型请求功能。

Llama-3SOME-8B-v2-GGUF - Llama-3SOME-8B-v2量化模型下载和选择的实用指南

模型下载Llama-3SOME-8B-v2量化Huggingface内存需求Github开源项目模型高品质

该项目通过llama.cpp的imatrix选项实现了Llama-3SOME-8B-v2模型的多种量化版本下载，以适应不同的内存需求。根据系统RAM和GPU的VRAM，用户可以选择最佳量化格式来在性能和质量之间取得平衡。建议使用K量化格式，如Q5_K_M，或在某些情况下选择性能优异的I量化格式，如IQ3_M。项目提供了从低RAM需求到最高质量的多种选择，用户可以根据需求进行灵活选择。

llama2_7b_chat_uncensored-GGUF - Llama2 7B Chat Uncensored的多样化推理兼容性

兼容性Github模型量化开源项目Llama2 7B Chat UncensoredHuggingface下载

项目主要提供Llama2 7B Chat Uncensored模型的GGUF格式，这是由llama.cpp团队在2023年引入的格式，具备更强的分词能力和扩展功能。用户可利用该项目在CPU和GPU上进行推理，并支持多款兼容的第三方UI和库，如text-generation-webui和KoboldCpp等，这些支持GPU加速的接口使用户选择和使用不同模型版本更加便捷，优化推理效率以及减少质量损失。

Phi-3.1-mini-128k-instruct-GGUF - 量化指导优化内存资源使用

Phi-3-mini-128k-instruct模型选择下载文件量化HuggingfaceGithub高质量开源项目模型

项目利用llama.cpp和imatrix技术对模型进行量化，提供适合不同内存需求的文件。用户可通过huggingface-cli根据硬件选择量化格式，实现速度与质量平衡。同时，项目提供特性图表以指引用户选择‘I-quant’或‘K-quant’方法，满足不同硬件环境性能要求。

faster-distil-whisper-large-v2 - 通过CTranslate2实现的高效音频转录转换方案

CTranslate2量化自动语音识别模型GithubWhisper开源项目模型转换Huggingface

此项目将distil-whisper/distil-large-v2模型转换为CTranslate2格式，适用于CTranslate2项目如faster-whisper，并支持FP16计算，增强了自动语音识别的性能和效率。

Phi-3-medium-128k-instruct-quantized.w8a16 - 优化为INT8的14亿参数开源模型，提升计算效率

vLLMGithubPhi-3-medium-128k-instruct文本生成开源项目量化模型优化Huggingface模型

Phi-3模型的量化版本，通过将权重量化为INT8，将参数位数从16减少至8，约减少50%的磁盘和GPU使用，仍保有高性能。专为英语商业与研究用设计，不适用于违法行为。支持在vLLM和Transformers中高效部署，平均分数74.04逼近未量化版本。在OpenLLM基准中展现优异准确性与恢复能力。

WizardLM-7B-uncensored-GGUF - WizardLM-7B模型的GGUF格式转换与兼容性详解

量化开源项目GPTQ模型GithubHuggingfaceLLMWizardlm 7B Uncensored

本文档提供了对Wizardlm 7B Uncensored模型的GGUF格式的全面介绍，涵盖了与其兼容的各种客户端和库。GGUF是一种新推出的模型格式，取代了不再支持的GGML，支持多种量化方法，可用于GPU加速并适应多种平台。该项目由Eric Hartford设计，由TheBloke进行量化，包含不同比特级别的量化版本，以便用户依据需求选择适当的模型格式和质量。本文还详细说明了下载、安装和运行这些模型的多种方法，包括Python代码示例和LangChain集成演示，为开发者提供详尽指南。

Mythalion-13B-AWQ - 利用高效的低比特量化提升Transformer推理速度

Huggingface文本生成Mythalion 13B量化开源项目模型模型整合Github伪人AI

该项目提供高效的AWQ模型文件，支持4比特量化在多用户环境中实现快速Transformer推理。虽然未量化模型的整体吞吐量更高，但通过使用更小的GPU，AWQ模型显著降低了部署成本，例如仅需1台48GB GPU即可运行70B模型。该模型适合需要高吞吐量并行推理的场景，用户可借助vLLM或AutoAWQ轻松调用以降低成本并简化部署。

Upstage-Llama-2-70B-instruct-v2-AWQ - 先进的低比特量化技术优化文本生成模型

Huggingface文本生成量化模型开源项目GithubUpstageLlama 2 70B Instruct v2

Upstage通过AWQ模型实现高效的4比特量化，相较于GPTQ提供更快的推理速度。AWQ支持高吞吐量的多用户服务器环境，可在更小的GPU上运行，从而降低部署成本。此外，模型在多项基准测试中表现卓越，能够在单个48GB GPU上运行70B模型，便于快速部署。了解更多关于该模型的性能和应用场景。

CodeLlama-7B-Python-GGUF - 适用于多平台的文本生成开源模型

Github模型量化开源项目CodeLlamaGGUFPythonHuggingface

CodeLlama 7B Python GGUF格式模型提供多平台下的文本生成功能。由llama.cpp团队推出的GGUF格式，替代GGML，增强了标记和元数据支持。兼容多种UI和库，如text-generation-webui和LM Studio，并提供多种量化选项，以适应不同硬件需求，支持与LangChain等Python项目的高级整合。

Mistral-7B-Instruct-v0.3-GGUF - 高性能量化版指令微调大语言模型

提示模板模型量化Mistral-7B-Instruct-v0.3大型语言模型硬件要求GithubHuggingface开源项目

Mistral-7B-Instruct-v0.3 GGUF是一系列针对不同硬件条件优化的量化模型。支持32k上下文长度、扩展词表和函数调用，适用于对话等交互任务。模型大小从2.72GB到14.5GB不等，提供多种精度选择，平衡性能和资源消耗。GGUF格式便于在各类设备上高效部署和使用。

Llama-3-8B-Instruct-DPO-v0.2-GGUF - Llama-3-8B的GGUF格式量化模型

模型大型语言模型量化GGUFLlama-3开源项目Huggingface文本生成Github

Llama-3-8B-Instruct-DPO-v0.2模型的GGUF格式量化版本，提供2-bit至8-bit多级量化选项。该版本显著减小模型体积和内存需求，同时维持性能。采用ChatML提示模板，兼容多种GGUF格式支持工具，如llama.cpp和LM Studio。此轻量化版本使大型语言模型能在更多设备上本地运行，扩展了应用范围。

Ministral-8B-Instruct-2410-HF-GGUF-TEST - Ministral-8B多种量化版本支持本地AI部署

模型Ministral-8B-Instruct-2410-HF模型文件量化内存优化开源项目HuggingfaceGithub人工智能

Ministral-8B-Instruct-2410-HF模型的量化版本项目,提供从f16到Q2_K等多种精度,文件大小3GB至16GB不等。支持LM Studio等工具本地部署,详细介绍各版本特点和适用场景,并提供选择指南。用户可根据硬件条件选择合适版本,实现高效本地AI部署。

Meta-Llama-3.1-8B-Instruct-awq-4bit - 高效4位量化的大型指令模型适用GPU推理

模型量化GithubLlama 3.1开源项目Huggingface自然语言处理GPUAutoAWQ

Meta-Llama-3.1-8B-Instruct模型的4位量化版本，采用AutoAWQ技术实现。This Kaitchup开发的这一版本旨在提高GPU推理效率，在保持原始性能的同时显著降低内存占用。适合在资源受限环境中运行，项目页面提供了量化过程、评估结果及使用方法的详细信息。

Mistral-7B-Instruct-v0.2-GGUF - Mistral 7B指令模型的GGUF量化版本

AI模型Huggingface模型Mistralllama.cppGithub开源项目GGUF量化

本仓库提供Mistral AI的Mistral 7B Instruct v0.2模型的GGUF格式文件。GGUF是llama.cpp的新格式,替代了GGML。包含2至8比特多种量化版本,文件大小3GB至7.7GB,适合不同硬件。支持文本生成和对话任务,可用于CPU和GPU。仓库包含下载指南和使用示例,便于快速上手。

deepseek-coder-33B-instruct-GGUF - DeepSeek Coder 33B Instruct模型GGUF量化版本

AI编程助手Huggingface模型llama.cppGithub开源项目Deepseek CoderGGUF量化

本项目提供DeepSeek Coder 33B Instruct模型的GGUF量化版本。GGUF是llama.cpp团队开发的新格式,替代了旧有的GGML。该模型专注于计算机科学领域,不回答政治敏感或安全隐私等无关问题。项目包含多种量化参数选项,支持CPU和GPU推理,兼容多种第三方界面和库。用户可根据硬件配置和使用需求选择适合的量化版本。

Meta-Llama-3.1-8B-Instruct-AWQ-INT4 - 高性能4比特量化优化版本

Meta-Llama-3.1AutoAWQHuggingface模型大语言模型Github开源项目推理量化

Meta-Llama-3.1-8B-Instruct模型的社区驱动4比特量化版本,采用AutoAWQ技术从FP16量化到INT4。该版本仅需4GB显存即可加载,大幅降低内存占用。支持Transformers、AutoAWQ、TGI和vLLM等多种推理方式,适用于不同部署场景。量化模型在保持原始性能的同时,为资源受限环境提供了高效的大语言模型方案。

Mistral-7B-Instruct-v0.3-GGUF - Mistral-7B-Instruct模型的多种量化版本优化性能与文件大小

Huggingface模型性能模型Mistral-7B-Instruct-v0.3llama.cppGithub开源项目GGUF量化

该项目为Mistral-7B-Instruct-v0.3模型提供多种量化版本,采用llama.cpp的imatrix选项。量化类型从Q8_0到IQ1_S不等,文件大小范围为1.61GB至7.70GB。项目详细介绍了各版本特点,并提供下载指南和选择建议,方便用户根据硬件条件和性能需求选择最佳版本。

Llama-3.1-Nemotron-70B-Instruct-HF-GGUF - Llama-3.1-Nemotron-70B多级量化模型适配不同硬件

语言模型模型量化Llama-3.1-Nemotron-70B-Instruct-HF人工智能GithubGPUHuggingface开源项目

该项目为Llama-3.1-Nemotron-70B-Instruct-HF模型提供多种量化版本，涵盖Q8_0至IQ1_M级别。针对不同硬件和性能需求，项目提供详细的文件选择指南，并包含模型提示格式及下载方法说明。用户可根据设备选择适合的版本，便于快速部署和使用。

Llama-3.2-1B-Instruct-GGUF - Llama 3.2模型的多精度量化版本

语言模型模型量化开源人工智能GithubLlamaHuggingface开源项目

Llama-3.2-1B-Instruct-GGUF是Llama 3.2模型的量化版本,使用llama.cpp和imatrix方法进行处理。该项目提供从f16到Q3_K_XL多种精度选项,文件大小在0.80GB至2.48GB之间。这些模型支持多语言处理,适合在资源受限的设备上运行,用户可根据需求选择合适版本以平衡性能和资源占用。

Mixtral-8x7B-Instruct-v0.1-GPTQ - Mixtral-8x7B多语言推理模型的GPTQ量化版本

模型量化推理GPTQGithub大语言模型Mixtral 8X7BHuggingface开源项目

本项目提供Mistral AI的Mixtral-8x7B-Instruct-v0.1模型的GPTQ量化版本,支持法语、意大利语、德语、西班牙语和英语多语言推理。模型采用Mixtral架构,提示模板为'[INST] {prompt} [/INST]'。项目提供多种量化参数选项,可适应不同硬件和需求,在保证性能的同时降低资源消耗。该模型使用Apache 2.0许可发布。

Meta-Llama-3.1-70B-Instruct-AWQ-INT4 - Llama 3.1 70B指令模型INT4量化版多语言对话优化

AutoAWQHuggingface模型大语言模型Meta Llama 3.1Github开源项目推理量化

Meta AI的Llama 3.1 70B指令模型经社区量化为INT4精度，显著降低内存需求。这一多语言模型针对对话场景优化，在行业基准测试中表现优异。支持通过Transformers、AutoAWQ、TGI和vLLM等多种方式部署使用，为开发者提供灵活选择。

mixtral-instruct-awq - AWQ量化的Mixtral Instruct模型替代方案

AWQHuggingface模型人工智能Github开源项目Mixtral Instruct量化

这是一个经AWQ量化的Mixtral Instruct工作版本，旨在解决官方版本的功能问题。项目提供了Mixtral-8x7B-Instruct-v0.1模型的稳定实现，适合在资源受限环境中部署大型语言模型。该替代方案为开发者和研究人员提供了一个可靠的选择，有助于提高模型在实际应用中的效率。

gemma-2-9b-it-GGUF - Gemma轻量级语言模型提供多种文本生成功能

语言模型文本生成Huggingface模型人工智能Github开源项目Gemma量化

gemma-2-9b-it-GGUF是Gemma系列轻量级开源语言模型的GGUF格式版本。这个由Google开发的模型适用于问答、摘要和推理等多种文本生成任务。其体积小巧，易于在资源有限的环境中部署，使先进AI技术更加普及。项目提供多种量化版本，可满足不同硬件配置需求。

Meta-Llama-3.1-8B-Instruct-GGUF - Llama 3.1多语言指令模型的量化版本

Huggingface模型Meta-Llamallama.cpp人工智能Github开源项目GGUF量化

Meta-Llama-3.1-8B-Instruct-GGUF是Llama 3.1模型的量化版本,使用llama.cpp技术实现。该项目提供多种精度的模型文件,从32GB的全精度到4GB的低精度,适应不同硬件需求。模型支持英语、德语、法语等多语言指令任务,可用于对话和问答。用户可选择合适的量化版本,在保持性能的同时优化资源使用。

Meta-Llama-3.1-70B-Instruct-GPTQ-INT4 - INT4量化版提升多语言对话效率

模型量化开源项目HuggingfaceMeta-Llama-3.1-70B-InstructGithub大语言模型推理GPTQ

本项目展示了Meta Llama 3.1 70B Instruct模型的INT4量化版本。通过AutoGPTQ技术，将原FP16模型压缩至INT4精度，在维持性能的同时显著减少内存使用，仅需约35GB显存即可运行。该项目兼容多个推理框架，如Transformers、AutoGPTQ、TGI和vLLM，便于根据不同需求进行选择。项目还附有详细的量化复现指南，方便用户独立完成模型量化过程。

Llama-3.2-3B-Instruct-uncensored-GGUF - 3B参数指令微调语言模型的高效GGUF量化版本

模型量化人工智能GithubLlamaHuggingface开源项目GGUF

Llama-3.2-3B-Instruct-uncensored模型的GGUF量化版本,提供从1.6GB到7.3GB不等的多种量化类型。量化后的模型大小显著减小,便于部署使用,同时尽可能保持原模型性能。项目包含详细的量化版本说明、使用指南和常见问题解答,有助于用户选择适合的版本。

NemoMix-Unleashed-12B-GGUF - NemoMix-Unleashed-12B模型的多种量化版本

模型量化GGUF开源项目语言模型Huggingface机器学习NemoMix-Unleashed-12BGithub

NemoMix-Unleashed-12B-GGUF项目提供了多种NemoMix-Unleashed-12B模型的量化版本。这些版本采用llama.cpp进行处理,精度范围从F16到IQ2_M,文件大小在4.44GB至24.50GB之间。项目详细介绍了各量化类型、文件大小及使用建议,便于用户根据硬件选择合适版本。同时提供下载指南和性能比较资料,方便模型部署和评估。

Qwen-7B-Chat - 阿里云开发的多语言大模型AI助手

模型量化Qwen-7B-Chat开源项目HuggingfaceAI助手评测Github大语言模型

Qwen-7B-Chat是阿里云研发的大语言模型,参数规模为70亿。模型通过超大规模多样化数据训练,支持中英文和代码处理。采用RoPE位置编码、SwiGLU激活函数等先进技术,使用15万token优化词表。在各项基准测试中表现优异,具备长文本理解和外部工具调用能力。

Phi-3-medium-128k-instruct-quantized.w4a16 - Phi-3量化优化文本生成模型，支持多场景应用

神经魔法OpenLLM量化llmcompressorPhi-3模型Github开源项目Huggingface

Phi-3中型量化模型专注于优化英语文本生成，适用于商业与研究领域。通过INT4权重量化，减少存储与内存消耗，提高了部署效率。支持GPTQ算法下的量化，并可在vLLM与Transformers框架中高效运行，于OpenLLM基准测试中展现优异表现，适合用于多种对话场景。

Qwen2.5-32B-Instruct-GGUF - 全面汇总32B大语言模型量化版本多设备支持

模型量化推理优化Qwen2.5-32B-InstructGithub大语言模型Huggingface开源项目GGUF

本项目提供Qwen2.5-32B-Instruct模型的多种量化版本,精度从f16到IQ2_XXS,文件大小9GB至65GB不等。量化模型适用于CPU、GPU等设备,可根据硬件配置选择。项目包含详细的模型选择指南和下载说明,便于用户使用这个32B参数的大语言模型。特别推荐Q6_K、Q5_K和Q4_K系列,以及新型IQ系列量化版本。

Qwen2.5-7B-Instruct-GPTQ-Int4 - Qwen2.5系列4位量化模型支持长文本处理和多语言功能

Huggingface模型大语言模型长文本处理GithubQwen2.5开源项目多语言支持量化

Qwen2.5-7B-Instruct-GPTQ-Int4是Qwen2.5系列的4位量化指令微调模型，拥有76亿参数。该模型支持131,072个token的上下文长度和8192个token的生成长度，在知识储备、编程和数学能力方面有显著提升。它还改进了指令遵循、长文本生成和结构化数据理解等功能，支持29种以上语言，适用于多种自然语言处理任务。

bge-large-en-v1.5-quant - 量化ONNX模型增强句子编码效率和性能

推理Github开源项目嵌入量化DeepSparseHuggingfaceSparsify模型

该量化ONNX模型旨在利用DeepSparse加速bge-large-en-v1.5嵌入模型，提升句子编码效率。通过Sparsify实现的INT8量化和深度稀疏技术，在标准笔记本和AWS实例上分别实现了4.8倍和3.5倍的延迟性能改善。在多个数据集的测试中，该模型在分类和STS任务中展现出较高的编码效率。结合DeepSparse和ONNX技术栈，该模型适用于需要高效自然语言处理的应用场景。

text-generation-inference - 生产级高性能文本生成推理工具

Text Generation InferenceHugging Face大语言模型分布式追踪量化Github开源项目

Text Generation Inference (TGI) 是一个部署和服务大型语言模型的工具包。它支持Llama、Falcon、StarCoder、BLOOM、GPT-NeoX等流行的开源模型，提供简便的启动器、分布式追踪、张量并行、多GPU推理加速、令牌流等特性。TGI还支持权重量化和安全张量加载，具备自定义提示生成和微调功能，兼容Nvidia、AMD、Inferentia、Intel GPU、Gaudi和Google TPU等硬件平台。

相关文章

Article Cover

vLLM:高效易用的大语言模型推理和服务引擎

Article Cover

LMDeploy: 高效的大语言模型压缩、部署与服务工具包

Article Cover

Curated Transformers: 可组合的最先进Transformer模型库

Article Cover

Awesome-Efficient-LLM: 大型语言模型高效化技术的最新进展

Article Cover

RTP-LLM: 阿里巴巴的高性能大语言模型推理引擎

Article Cover

OmniQuant: 大语言模型的全方位校准量化技术

Article Cover

SqueezeLLM: 大语言模型的高效量化压缩技术

Article Cover

Docker LLaMA2 Chat:三步上手大型语言模型

Article Cover

深入解析Hugging Face的Text Generation Inference工具包:为大型语言模型赋能

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号