#量化
OpenHermes-2.5-Mistral-7B-AWQ - 使用AWQ方法提升Transformer推理速度的低位量化技术
合成数据人机对话量化AI模型Github开源项目OpenHermes-2.5-Mistral-7B模型Huggingface
AWQ通过4-bit量化提供高效、快速的Transformer推理体验,与GPTQ相比具有更优性能。它在Text Generation Webui、vLLM、Hugging Face的Text Generation Inference和AutoAWQ等多个平台上支持,为AI应用带来了显著的性能提升,适用于多用户推理服务器的开发以及Python代码中的集成使用。
Phi-3.1-mini-4k-instruct-GGUF - Phi-3.1-mini-4k-instruct量化技术在文本生成中的应用
Phi-3.1-mini-4k-instructNLP量化模型Github开源项目数据集文件下载Huggingface
该项目通过llama.cpp进行模型量化,提供多种量化文件选项,涵盖从高质量到适合低内存设备的多种场景。项目详细介绍了如何选择量化文件,并提供了在不同硬件环境下的最佳实践,对于有技术需求的用户,项目提供了功能特性对比分析,帮助理解量化与优化策略。
idefics2-8b-chatty-AWQ - 4-bit量化的多模态模型及其应用场景
HuggingFaceM4/idefics2-8b-chattyGithub开源项目量化多模态图像文本Huggingface4-bit AWQ模型
这是一款4-bit AWQ量化的多模态模型,支持多种数据集与任务,帮助提升计算效率和模型性能。
bert-base-uncased-sst2-unstructured80-int8-ov - BERT模型的非结构化剪枝与量化优化技术
量化开源项目模型蒸馏GithubHuggingfaceGLUE SST2OpenVINOBERT
该项目通过非结构化幅度剪枝、量化和蒸馏,在GLUE SST2数据集上优化了BERT模型。模型在Torch和OpenVINO IR模式下准确率达到0.9128,并在Transformer层中实现了80%的稀疏性。此项目适用于OpenVINO 2024.3.0及以上版本及Optimum Intel 1.19.0及更高版本,利用NNCF完成优化,同时提供详细的参数与训练步骤,以实现高效的文本分类。
Meta-Llama-3.1-8B-Instruct-FP8-dynamic - Meta-Llama-3.1-8B的FP8量化技术优化多语言文本生成
开源项目模型模型优化多语言HuggingfacevLLM量化GithubMeta-Llama-3.1
Meta-Llama-3.1-8B-Instruct-FP8-dynamic利用FP8量化技术优化内存使用,适用于多语言商业和研究用途,提升推理效率。该模型在Arena-Hard评估中实现105.4%回收率,在OpenLLM v1中达成99.7%回收率,展示接近未量化模型的性能表现。支持多语言文本生成,尤其适合聊天机器人及语言理解任务,且通过vLLM后端简化部署流程。利用LLM Compressor进行量化,降低存储成本并提高部署效率,保持高质量文本生成能力。
CodeQwen1.5-7B-GGUF - 丰富的量化模型选择,多平台优化性能
Hugging Face量化Huggingface内存需求Github开源项目模型模型质量CodeQwen1.5-7B
通过llama.cpp工具实现多量化模型的生成,CodeQwen1.5系列提供不同文件大小和质量选项,适用于各种设备资源和性能需求。推荐选择高质量Q6_K和Q5_K_M格式,平衡性能与存储空间。该项目适合RAM和VRAM有限的用户,并支持多种格式在不同硬件平台上运行。新方法如I-quants提高性能输出,但与Vulcan不兼容,适用于Nvidia的cuBLAS和AMD的rocBLAS。丰富的特性矩阵便于深入比较选择。
Llama-3.2-3B-Instruct-uncensored-i1-GGUF - 多种量化选项助力模型性能与效率优化
量化开源项目使用指南模型GithubHuggingfaceHugging Face机器学习模型Llama-3.2-3B-Instruct-uncensored
项目提供多种量化选项,包括i1-IQ1_S到i1-Q6_K不同规格的GGUF文件,满足研究和开发中的多样化需求。用户可参考TheBloke的指南了解使用方法,实现实际应用中的性能和效率优化,同时保持模型输出质量与资源利用的平衡。
Gemma-2-9B-It-SPPO-Iter3-GGUF - 探讨Gemma-2-9B模型量化版本的性能与存储选择
数据集量化高性能开源项目模型GithubHuggingfaceGemma-2-9B-It-SPPO-Iter3下载指南
该项目利用llama.cpp进行量化,推出多种Gemma-2-9B-It-SPPO-Iter3模型版本以适应不同的内存及性能需求。用户可按RAM和VRAM状况选择合适的量化格式,如高质量的Q6_K_L或经济型IQ2_M。量化文件大小介于4GB至37GB之间,且可通过Huggingface下载。根据VRAM选择合适模型尺寸,有助于优化运行速度,并提供多样化选项以满足不同性能与存储需求。
Flow-Judge-v0.1-AWQ - 高效的开源小型模型用于多领域AI评估
Flow-Judge-v0.1性能评估GithubHuggingface自然语言处理量化开源项目模型可定制评估
Flow-Judge-v0.1-AWQ是一个源自Phi-3.5-mini-instruct的开源模型,专为多领域LLM系统评估而设计。尽管体积小巧,这款3.8B模型在多种评分尺度下表现出色,支持定性反馈,并生成结构化评估结果,非常适合需要利用自定义评分标准进行高效低成本评估的开发者和企业。
llama-3-cat-8b-instruct-v1-GGUF - 文本生成模型的量化选择
量化模型性能质量选择模型Github开源项目llama.cpp文件下载Huggingface
此项目通过llama.cpp进行模型量化,以满足多样化的硬件限制需求。量化文件选择从Q8_0到IQ1_S不等,推荐使用Q6_K和Q5_K_M文件。使用huggingface-cli可方便下载所需文件。I-quant和K-quant适应不同硬件,特别在低于Q4时,I-quant表现出色。支持CPU和Apple Metal,需注意性能平衡。
Mistral-Nemo-Instruct-2407-FP8 - FP8量化技术在模型优化与部署中的应用
Github量化模型开源项目模型优化评估部署Mistral-Nemo-Instruct-2407-FP8Huggingface
Mistral-Nemo-Instruct-2407-FP8通过FP8量化技术提升了模型的内存和体积效率,主要用于商业和研究。该模型适用于英语聊天助手,利用参数位数的减少节省约50%的资源。结合vLLM>=0.5.0的高效推理环境,优化部署性能。量化由AutoFP8完成,Neural Magic计划转向支持更多方案的llm-compressor。尽管量化后某些评测得分略有下降,但保持的性能恢复率使其成为资源效率化的优选方案。
Llama-3-8B-Instruct-v0.8 - 高效文本生成的先进开源模型
Llama-3-8B-InstructGithub开源项目文本生成Open LLM Leaderboard量化Huggingface机器学习模型
本页面介绍了Llama-3-8B-Instruct-v0.8模型,该模型是在MaziyarPanahi的Llama-3-8B-Instruct-v0.4基础上开发的,专注于高效的文本生成。它在AI2推理挑战、HellaSwag等多个基准测试中表现出色,是前五名8B模型之一。量化的GGUF变体使其在多种应用场景下性能更高效,详细的评价结果请参考开放LLM排行榜。
granite-3.0-8b-instruct-GGUF - 文本生成模型的量化优化与性能提升
huggingface量化HuggingfaceGithub开源项目模型数据集文本生成granite-3.0
项目通过llama.cpp对granite-3.0-8b-instruct模型进行量化优化,适用于低内存环境的高效运行。根据硬件资源,用户可以从多种量化模型中选择,实现性能与质量的最佳平衡。项目支持代码生成、数学推理和多语言处理等任务,并提升了在IFEval、AGI-Eval等数据集上的表现。提供了从高质量全权重到ARM架构优化模型的多种选择,加速模型推断过程,展示了在文本生成领域的有效实践。
Qwen2.5-32B-Instruct-GPTQ-Int8 - 开源多语言大模型Qwen2.5 32B量化版支持超长文本处理
大语言模型Github开源项目文本生成量化多语言支持HuggingfaceQwen2.5模型
Qwen2.5-32B-Instruct-GPTQ-Int8是Qwen2.5系列的量化版本,通过GPTQ 8位量化技术实现高效部署。模型支持29种语言交互,具备128K超长上下文理解和8K文本生成能力。在编程、数学计算、文本理解等任务中表现优异,同时对结构化数据处理能力显著提升。该模型采用325亿参数规模,适合在资源受限环境中运行
Wizard-Vicuna-7B-Uncensored-GGUF - 了解GGUF格式的创新与多平台兼容性
GPU加速Wizard Vicuna 7B Uncensored下载指南量化模型Github开源项目AI助手Huggingface
项目详述了GGUF格式的进展,这是llama.cpp团队于2023年8月引入的创新格式,替代了GGML。该格式与多款第三方UI和库兼容,并支持多种量化方法和平台上的GPU加速,用户可根据需求下载合适的模型文件。
MiniCPM-V-2_6-GGUF - 使用imatrix量化优化模型性能
MiniCPM-V-2_6多语言Github量化transformers模型开源项目视觉处理Huggingface
项目应用llama.cpp的imatrix量化方法,优化模型的文本性能。提供多种量化文件,适配不同硬件配置,尤其适合低RAM环境。这一技术允许根据系统RAM和GPU VRAM选择合适的模型,实现性能与速度的平衡。支持多模态图像-文本转换和多语言处理,可在LM Studio中运行,为开源社区提供多样化的工具和使用选择。
guanaco-33B-GGUF - Guanaco 33B模型的高效量化格式,支持多平台部署
GPU加速Guanaco 33B量化Tim Dettmers模型Github开源项目模型格式Huggingface
该项目提供的GGUF格式量化模型文件针对Guanaco 33B进行了优化,适用于多种平台,包括llama.cpp和text-generation-webui。作为GGML的替代格式,GGUF引入了改良的量化方法,支持2到8位的量化,满足各种硬件资源需求。其优势在于提高AI推理性能与效率,并支持GPU加速,适合对AI生成及推理质量有较高要求的应用场景。
MythoMax-L2-13B-GGUF - 基于Llama2的高性能GGUF量化语言模型
GGUF量化HuggingfaceMythoMax L2 13BGithub开源项目AI模型模型LLM
MythoMax-L2-13B是一个基于Llama2的GGUF量化语言模型,提供2-8比特共13种量化版本。模型支持llama.cpp等多种终端工具,具备更强的分词能力和特殊令牌支持。模型文件大小从5.43GB到13.83GB不等,可根据设备配置选择合适版本。该模型遵循Meta Llama 2许可协议。
TinyLlama-1.1B-Chat-v1.0-llamafile - 紧凑型1.1B Llama Chat模型,适用于多种计算需求
预训练Github开源项目对话模型模型HuggingfaceGPU量化TinyLlama
TinyLlama-1.1B-Chat经过3万亿个tokens的预训练,并在90天内优化完成。它提供API和CLI接口,采用与Llama 2相同的架构和分词器,适合内存和计算受限的环境,可以兼容多种开源项目。模型在合成数据集上的微调和与开源工具的对齐,增强了对话生成的多样性和准确性,适用于各种自然语言处理应用。
gemma2-9B-daybreak-v0.5-i1-GGUF - 多规格IQ量化文件优化AI模型表现
使用方法Github量化模型文件模型开源项目Gemma2-9B-DaybreakHugging FaceHuggingface
本项目提供多种规格的量化文件,供满足不同AI性能和质量需求的应用选择。用户可通过TheBloke的指南熟悉GGUF文件的使用和多部分合并,并根据具体要求选择合适的文件版本。量化文件包括从i1-IQ1到i1-Q6的不同规格,其中部分文件在优化速度的同时,保持了优秀的质量。感谢nethype GmbH和@nicoboss的技术支持,确保了高质量imatrix量化文件的生产。
Qwen2-1.5B-Instruct-GPTQ-Int4 - 多语言大模型Qwen2,增强理解与推理性能
量化Huggingface模型Github开源项目性能Qwen2-1.5B-Instruct语言模型
Qwen2语言模型系列在开源与专有模型对比中展现出色表现。1.5B Instruct模型优化后,适合编程、数学及推理任务,支持多语言和代码处理,并具备改进的分词功能。可高效兼容Hugging Face Transformers平台,推理速度快,内存占用低。
Qwen2.5-3B-Instruct-GGUF - Qwen2.5-3B-Instruct重启量化技术提升多设备文本生成表现
模型下载文件大小Qwen2.5-3B-Instruct量化HuggingfaceGithub开源项目模型嵌入输出权重
本项目通过使用llama.cpp进行量化优化,使文本生成模型在各类设备上运行更为高效,其在ARM芯片上的性能尤为突出,同时提供多种量化类型以满足不同内存和计算需求。更新的tokenizer进一步提升了文本生成质量。项目提供多种K-quant和I-quant选项以满足特定环境需求,并深入对比不同量化格式的性能差异。为研究人员和开发者提供丰富下载资源和技术支持,助力大规模语言模型的高效实现。
Mistral-7B-OpenOrca-AWQ - 高效4比特量化,实现多用户并发推理
OpenOrcaAWQ开源项目Mistral 7B模型Huggingface并行推理量化Github
项目提供OpenOrca的Mistral 7B模型的AWQ版本。AWQ是一种4比特的低比特量化方法,在Transformers推理中更快速,与GPTQ相比具有效率优势。AWQ支持在多用户环境中实现高效的并发推理,有助于使用更小的GPU进行部署,减少整体成本,尽管总体吞吐量仍略低于未量化模型。
dolphin-2.2.1-mistral-7B-GGUF - 支持多平台GPU加速的量化格式,用于大语言模型的创新解决方案
Huggingface模型文件硬件加速Dolphin 2.2.1 Mistral 7B量化开源项目模型GithubPython库
Dolphin 2.2.1 Mistral 7B采用GGUF量化格式,这一创新方案取代了已弃用的GGML。借助Massed Compute的硬件,该模型可实现高效的GPU加速和优质存储,并兼容多个web UI和专业工具,如llama.cpp和LM Studio,以满足多平台的深度学习需求。
Meta-Llama-3.1-70B-Instruct-FP8-KV - Meta-Llama-3.1的FP8量化方法实现高效部署
HuggingfaceFP8量化推理Quark开源项目模型GithubMeta-Llama-3.1-70B-Instruct
项目使用Quark对Meta-Llama-3.1模型进行FP8量化,优化了线性层(不含lm_head)的权重和激活过程。支持用户在单或多GPU平台上部署并在vLLM兼容平台上高效运行。尽管伪量化评估结果可能与实际推理精确度略有不同,但仍提供关键指标,助力模型开发与优化。通过FP8对称模式的应用,模型性能得到提升,并提供了准确性的参考标准,为后续模型开发提供支持。
Humanish-LLama3-8B-Instruct-GGUF - 介绍模型的量化技术实现文本生成性能突破
数据集Github开源项目文本生成量化基准测试HuggingfaceHumanish-LLama3-8B-Instruct模型
该项目通过llama.cpp进行量化,优化了模型的嵌入和输出权重,使得文本生成更加高效。模型在多个数据集上表现出色,如IFEval数据集测试中达到严格准确率64.98%。项目提供多种文件格式,支持多样化的计算资源和硬件环境,以满足不同的使用需求,包括低内存和ARM芯片的优化场景。
WhiteRabbitNeo-2.5-Qwen-2.5-Coder-7B-GGUF - 量化模型解析与应用指南
量化开源项目模型GithubHuggingface文本生成Transformer库模型下载WhiteRabbitNeo
WhiteRabbitNeo-2.5-Qwen-2.5-Coder-7B项目提供多样化的量化模型,适用于不同RAM与VRAM配置,支持高效文本生成。指南介绍各量化文件适用场景及下载与使用方式,覆盖多种硬件设置,包括ARM和Nvidia GPU,提供灵活且高效的解决方案。
Mythomax-L2-13b-Q4_K_M-GGUF - MythoMax L2 13b模型的Q4_K_M量化版本
库Gryphe/MythoMax-L2-13b个人使用量化HuggingfaceGithub开源项目模型transformers
项目中包含MythoMax L2 13b模型的Q4_K_M量化版本,基于mradermacher的GGUF方案。这一版本能通过Text Gen Webui与llamacpp_hf结合实现个性化应用,适合希望优化资源利用和提升模型性能的开发者与研究人员。
Yi-1.5-34B-Chat-GGUF - 多种量化选项助力Yi-1.5-34B-Chat模型优化
Yi-1.5-34B-ChatGithub开源项目量化系统要求下载Huggingface文件选择模型
本文介绍了Yi-1.5-34B-Chat模型的多种量化方法,通过llama.cpp的imatrix选项,为不同需求提供多种文件版本和质量等级。用户可依据硬件条件选择合适的量化文件,满足RAM与VRAM的需求。文中附有使用指导和性能比较图表链接,帮助用户在性能和文件大小间权衡。此外,还说明了I-quant和K-quant的区别及应用场景,便于用户在不同硬件环境中高效应用该文本生成模型。
Chronos-Gold-12B-1.0-GGUF - Chronos-Gold-12B-1.0模型的高效量化技术
高搜索量Github开源项目嵌入权重量化Chronos-Gold-12B-1.0下载Huggingface模型
Chronos-Gold-12B-1.0的量化版本是通过llama.cpp工具实现的,为文本生成提供了多种解决方案。这些格式涵盖从f16到IQ2_M,用户可根据系统RAM和GPU VRAM选择合适的版本。部分文件采用Q8_0嵌入和输出权重,以优化模型质量和性能。该项目适合角色扮演和故事创作等多应用场合,提供了灵活高效的文本生成支持。
Yi-Coder-9B-Chat-GGUF - Yi-Coder-9B-Chat模型量化文件选择及使用指南
Huggingface模型文件文本生成量化开源项目模型transformersGithubYi-Coder-9B-Chat
Yi-Coder-9B-Chat经过Llamacpp的imatrix选项量化处理,增强了在不同硬件上的推理能力。用户能根据自身需求从Q8_0、Q6_K_L等多种量化模型中选择,以适应不同的RAM和VRAM配置。更新内容包括分词器修复,所有文件均可在LM Studio中运行。项目亦提供对ARM芯片优化的Q4_0_X_X文件,用户可通过huggingface-cli下载具体量化模型并查看硬件兼容性和使用建议。
相关文章
vLLM:高效易用的大语言模型推理和服务引擎
3 个月前
LMDeploy: 高效的大语言模型压缩、部署与服务工具包
3 个月前
Curated Transformers: 可组合的最先进Transformer模型库
3 个月前
Awesome-Efficient-LLM: 大型语言模型高效化技术的最新进展
3 个月前
RTP-LLM: 阿里巴巴的高性能大语言模型推理引擎
3 个月前
OmniQuant: 大语言模型的全方位校准量化技术
3 个月前
SqueezeLLM: 大语言模型的高效量化压缩技术
3 个月前
Docker LLaMA2 Chat:三步上手大型语言模型
3 个月前
深入解析Hugging Face的Text Generation Inference工具包:为大型语言模型赋能
3 个月前