#量化
TinyLlama-1.1B-Chat-v0.3-GPTQ - TinyLlama 1.1B Chat GPTQ模型的多样化量化参数选择及使用指南
GithubZhang PeiyuanTinyLlama量化模型开源项目GPTQHuggingface模型推理
项目提供多种GPTQ模型参数,支持不同推理需求,参数包括位深、组大小与激活顺序,以适应多种硬件需求。由TheBloke进行模型量化,支持GPTQ客户端兼容性,校准数据集确保量化精度,如wikitext。提供灵活的分支信息,便于集成至文本生成工具或Python应用中。
Mistral-7B-Claude-Chat-GGUF - 高性能AI语言模型优化版,超强本地对话能力
GGUFllama.cpp量化HuggingfaceGithub开源项目模型AI模型Mistral-7B
Mistral-7B-Claude-Chat模型GGUF版提供多种量化文件(2-8位),支持CPU和GPU推理。采用Vicuna提示模板,适合聊天场景。兼容llama.cpp等多种工具,附详细使用说明。此优化版本旨在本地环境中实现高效AI对话。
aya-expanse-8b-GGUF - 提供多语言支持的文本生成模型量化解决方案
ARMHuggingface非商业使用量化开源项目模型GithubCohereForAI/aya-expanse-8bhuggingface-cli
这个开源项目通过llama.cpp工具量化,支持多语言的文本生成,包含中文、英文、法文等。项目特别推荐Q6_K_L和Q5_K_L模型版本,适合低内存环境下使用并可在LM Studio中运行。项目遵循CC BY-NC 4.0许可协议,仅限非商业用途。
Meta-Llama-3.1-8B-Instruct-128k-GGUF - 支持128k上下文长度的文本生成模型
量化开源项目模型GithubHuggingfaceHugging Face模型转换文本生成Meta-Llama-3.1
此文本生成模型具备高达128k的上下文支持,由3Simplex负责量化和转换。需在GPT4All v3.1.1环境下运行,适用于多种文本生成任务。该模型仍在测试中,建议用户提供反馈以优化其性能。
Mistral-Large-Instruct-2407-GGUF - Mistral-Large-Instruct-2407模型的多语言量化方法与文件选择建议
Mistral-Large-Instruct-2407量化GPU性能优化Github模型开源项目量化格式文本生成Huggingface
Mistral-Large-Instruct-2407项目提供了多种语言支持的模型量化版本。通过llama.cpp工具,用户可以根据不同的RAM和VRAM需求进行量化。文章详细介绍每种量化文件的特性与性能建议,帮助用户根据硬件条件选取适合的文件,实现模型的快速或高质量运行。推荐关注K-quant与I-quant格式文件以在性能与速度间取得平衡。
NSFW_DPO_Noromaid-7b-Mistral-7B-Instruct-v0.1-GGUF - 结合多模型的量化文本生成引擎
Huggingface文本生成NSFW_DPO_Noromaid-7b-Mistral-7B-Instruct-v0.1量化开源项目模型transformers模型合并Github
NSFW_DPO_Noromaid-7b-Mistral-7B-Instruct-v0.1-GGUF是利用llama.cpp开发的量化模型,整合了mistralai和athirdpath的两款7B模型。通过slerp合并法和bfloat16数据类型,该项目优化了文本生成任务的性能。用户可以通过Transformers和Accelerate库在Python中完成文本生成。该模型结合了多模型的优点,专为处理复杂文本生成任务而设计,提供了高效的运行性能。
Llama-3-Lumimaid-8B-v0.1-OAS-GGUF-IQ-Imatrix - Llama-3新版本增强模型转换准确性
数据集Github量化模型开源项目模型转换HuggingfaceLlama3SillyTavern
在Llama-3-Lumimaid-8B-v0.1-OAS项目的v2版本中,模型转换方式有所改进,通过Orthogonal Activation Steering增强了模型响应灵活性。建议使用最新的KoboldCpp版本以获得最佳兼容性。此次更新还引入了Luminae数据集,结合ERP与RP数据提升了模型智能性。对于8GB VRAM GPU,推荐使用Q4_K_M-imat quant(4.89 BPW)以支持较大的上下文尺寸。
nvidia_-_Mistral-NeMo-Minitron-8B-Base-gguf - Mistral-NeMo-Minitron-8B-Base模型实现高效自然语言生成
Huggingface自然语言生成语料库NVIDIA量化开源项目模型GithubMistral-NeMo-Minitron-8B-Base
NVIDIA 的 Mistral-NeMo-Minitron-8B-Base 模型运用压缩和蒸馏技术,为自然语言生成任务提供解决方案。该模型通过修剪和蒸馏 Mistral-NeMo 12B,在 3800 亿个词标中完成训练,适用于多领域文本转换,并支持 NeMo 24.05 引擎,兼容 NVIDIA 多种硬件架构。
llama3_8b_chat_uncensored - 精调与量化调整未过滤的LLM对话数据集
微调对话数据集HuggingfaceWizard-Vicuna量化开源项目模型Llama-3 8BGithub
此模型使用未过滤的Wizard-Vicuna数据集对Llama-3 8B进行微调,通过QLoRA技术,提供了fp32和量化的4-bit q4_0 gguf版本,提升了推理能力。项目附有详细的代码仓库链接,方便用户复现和优化模型性能。
gemma-2-27b-it-gptq-4bit - Gemma-2-27b的量化模型,优化加载与推理效率
Huggingface量化GPTQModel开源项目Gemma-2模型模型推理Github自然历史博物馆
Gemma-2-27b经过GPTQ 4位量化优化,使其在资源受限环境中高效运行。采用GPTQModel量化,并通过vllm进行推理,适用于简洁高效的推理场景。关键特性包括128组大小、动态分组、对称量化、激活功能和顺序推理,提升模型体验。
Llama-2-70B-Chat-GPTQ - 多量化参数优化的对话生成模型
Github量化模型生成文本模型开源项目对话模型HuggingfaceLlama 2对话优化
Llama-2-Chat是Meta Llama 2的预训练和微调文本生成模型,专为对话场景优化。在基准测试中表现优异,可与一些知名闭源模型相媲美。GPTQ版本提供多种量化参数,适配不同硬件配置,实现VRAM利用率最大化和优质推理。支持灵活下载分支供用户选择最佳量化配置。
Qwen2.5-32B-AGI-GGUF - Qwen2.5-32B-AGI模型量化与性能优化概述
Github权重量化模型Qwen2.5-32B-AGI开源项目模型优化Huggingface文本生成
介绍Qwen2.5-32B-AGI在Llamacpp中的量化模型,强调文本生成性能的提升。多种量化格式(如Q8_0,Q6_K_L)满足不同需求,结合embed/output量化,适应低RAM环境。提供模型选择、下载与运行指南,含基于ARM芯片的性能优化方法。
BioMistral-7B - 多语言开源生物医学语言模型评估
开源量化Huggingface医学Github开源项目模型BioMistral多语言
BioMistral是专为生物医学设计的开源大型语言模型,基于Mistral,经PubMed Central数据进一步训练,表现出色于多语言医学问答评估。其轻量化模型可通过量化和模型合并提升竞争力,为医学领域首次进行跨语言大规模评估。所有模型、评估基准和脚本免费开放供研究使用,建议避免在临床或专业医疗环境中应用,因存在潜在风险和偏见。
Behemoth-123B-v1-GGUF - 多种量化策略优化文本生成模型效率
Github量化模型开源项目性能优化Huggingface模型下载文本生成Behemoth-123B-v1
Behemoth-123B-v1-GGUF 项目运用 Llamacpp imatrix 技术进行模型量化,支持从 Q8_0 到 IQ1_M 的多种格式,适应不同硬件环境。项目涵盖多种文件种类,量化质量和大小各异,从高质到低质,满足多样使用需求。用户可根据 RAM 和 VRAM 选择合适文件,平衡速度与质量的追求。Q8_0 格式在嵌入和输出权重方面的质量表现突出,而适用于 ARM 芯片的 Q4_0_X_X 格式则显著提升运算速度,尤其适合低内存硬件。
DeepSeek-Coder-V2-Lite-Instruct-FP8 - FP8量化模型优化提高大语言模型部署效率
vLLMGithub开源项目文本生成DeepSeek-Coder-V2-Lite-Instruct-FP8量化FP8Huggingface模型
DeepSeek-Coder-V2-Lite-Instruct-FP8是一种经过FP8量化优化的模型,旨在提升商业与研究中英文聊天助手的效率。此优化通过减少参数位数,有效降低内存和存储器需求,达到了79.60的HumanEval+基准测试得分。在vLLM 0.5.2及以上版本中实现高效部署。
Phi-3.5-mini-instruct-GGUF - 高性能微软小型语言模型的量化方案
ARM芯片Phi-3.5-mini-instructGithub量化模型开源项目GGUF模型权重Huggingface
该项目基于llama.cpp框架,对Microsoft Phi-3.5-mini-instruct模型进行GGUF格式量化,提供从Q2到Q8等多个精度版本。每个量化版本都针对不同硬件平台进行了优化,包括针对ARM芯片的特殊优化版本。项目提供完整的模型特性对比和选择指南,帮助开发者根据实际需求选择合适的量化版本。
mathstral-7B-v0.1-GGUF - Mathstral 7B的量化版本,提升数学与科学计算效率
Mathstral 7B量化Huggingface模型Github开源项目数学科学
Mathstral 7B的量化版本提升了数学和科学任务的效率,基于Mistral 7B开发。通过多种量化方法降低内存需求,并且提供从Q2到Q8的量化等级选择,适应不同需求。SanctumAI负责此版本的量化,提供灵活的计算资源配置供开发者选择部署。更多详情请查看官方博客或加入社区讨论。
Replete-Coder-Llama3-8B-GGUF - 基于llama.cpp优化的高效量化方法提升文本生成性能
量化Replete-Coder-Llama3-8B开源项目模型Huggingface模型压缩文本生成数据集Github
该开源项目利用llama.cpp进行模型量化,适用于HumanEval和AI2推理挑战等任务,提供多种量化选项如Q8_0和Q6_K,适应不同内存要求,同时优化性能表现。I-quant量化在低于Q4时表现良好,用户可依据自己的设备内存和GPU VRAM选择合适的量化格式,通过huggingface-cli便捷获取所需文件。
OpenHermes-2.5-Mistral-7B-GGUF - 高效推理的新型模型文件格式
量化开源项目模型GithubHuggingface量化方法模型兼容性OpenHermes-2.5-Mistral-7B下载指南
GGUF是一种由llama.cpp团队于2023年8月引入的新型模型文件格式,旨在取代GGML,不再受其支持。该格式兼容众多第三方用户界面及库,例如llama.cpp、text-generation-webui和KoboldCpp等平台,这些平台支持GPU加速,从而提高文本生成任务的效率。Teknium的OpenHermes 2.5 Mistral 7B模型在此格式下得以量化处理,通过多种量化方法平衡模型文件大小与推理质量,适用于包括CPU+GPU推理在内的多种场景。用户在多种设备和平台上使用该格式能获取所需模型,并通过Massed Compute的硬件支持获得性能优化。
WizardLM-Uncensored-SuperCOT-StoryTelling-30B-GGUF - AI叙事模型兼容多种用户界面与库
模型文件量化开源项目模型GithubHuggingfaceGPU加速GGUFWizardLM
WizardLM系列采用GGUF格式,支持多种平台和量化方法,适合自然语言生成应用,支持Python和LangChain集成及GPU加速。
c4ai-command-r-08-2024-GGUF - c4ai-command-r-08-2024模型的量化方法解析
模型下载Hugging Face量化LlamacppCohere模型Github开源项目Huggingface
该项目利用llama.cpp工具对c4ai-command-r-08-2024模型进行量化,提供多种文件选择以满足不同计算需求。用户可参考下载和使用指南,根据GPU和RAM容量选择合适的量化格式,以优化性能。项目还提供性能图表和I-quant与K-quant选择建议,旨在帮助用户进行有效配置。这些量化文件适合在LM Studio中运行,强调高效推理和广泛适用性。
CausalLM-7B-GGUF - 基于CausalLM 7B的双语语言模型量化优化方案
GGUFHuggingface量化开源项目模型CausalLMGithub语言模型llama.cpp
CausalLM 7B模型GGUF格式转换项目提供多种量化版本实现。该模型支持中英双语能力,基于多个数据集训练。项目包含2比特到8比特的不同量化方案,适配各类硬件环境。完整的部署文档和兼容性说明确保模型可快速应用。
Llama-2-70B-Chat-AWQ - 基于AWQ的4位量化法优化多用户环境推理效率
AI助手性能优化Github开源项目模型MetaHuggingface量化Llama 2
AWQ是一种高效的四位量化方法,能够提升Transformer的推理速度。结合vLLM,该方案在多用户服务器中实现高吞吐量的并发推理。AWQ的优势包括支持使用较小的GPU进行运行,简化部署要求并降低整体成本。例如,一个70B模型可在一台48GB的GPU上运行,而无需使用两台80GB设备。尽管目前整体吞吐量仍低于未量化模型,AWQ提供了更灵活的硬件选择。
Tiger-Gemma-9B-v1-GGUF - 通过多种量化方法优化Tiger-Gemma-9B模型的文本生成
模型下载量化Tiger-Gemma-9B-v1模型Github开源项目性能比较高质量Huggingface
Tiger-Gemma-9B-v1项目应用llamacpp imatrix方法进行量化,提供多种量化文件选项以适应不同的系统内存和速度需求。使用详细的下载指南可帮助用户根据其硬件配置选择合适的量化文件,如推荐的Q6_K_L和Q5_K_L,以优化文本生成质量。该模型支持VRAM和系统RAM优化,并兼容Nvidia cuBLAS和AMD rocBLAS。
DarkIdol-Llama-3.1-8B-Instruct-1.2-Uncensored-GGUF - 优化和下载支持多语言的DarkIdol-Llama文本生成模型
DarkIdol-Llama-3.1-8B-Instruct-1.2-Uncensored模型下载量化LM Studiohugginface-cli模型Github开源项目Huggingface
DarkIdol-Llama模型提供多种量化选项,涵盖多语言输出,适合角色扮演等多种应用场景。通过llama.cpp工具,用户可以选择符合需求的量化模型,以优化推理性能。提供详细的下载指南,帮助用户根据RAM和VRAM的配置选择合适的模型文件,特别推荐高质量的Q6_K_L版本。该模型可在LM Studio上运行,适用于不同硬件条件下的AI研究与开发。
Ministral-8B-Instruct-2410-GGUF - 多语言开源大模型的精简量化版本
llama.cpp量化开源项目推理模型GithubHuggingfaceMistral大型语言模型
本项目提供Mistral AI的Ministral-8B-Instruct-2410模型的多种量化版本。使用llama.cpp进行量化,包含从16GB的F16全精度版本到4.45GB的IQ4_XS版本,适合不同硬件和性能需求。量化模型采用imatrix选项和特定数据集生成,可在LM Studio运行。项目详细介绍了各版本的文件大小、特点及模型提示格式,方便用户选择合适的版本。
WizardCoder-Python-34B-V1.0-llamafile - 指南:如何利用llamafile格式高效运行AI模型
模型库量化Mozilla OchoHuggingfaceGithub开源项目模型文本生成WizardCoder Python 34B V1.0
了解llamafile格式如何提升AI模型在多平台的运行效率,支持多种量化配置以实现不同设备的加速运算。
Qwen2.5-14B-Instruct-GPTQ-Int4 - Qwen2.5具备大规模多语言处理与长文本生成能力
大语言模型Qwen2.5开源项目模型Huggingface长上下文支持多语言支持量化Github
Qwen2.5系列模型显著增强了编码与数学能力,支持128K令牌的长文本上下文,并可生成超过8K令牌的文本输出。提供29种语言的多语言支持,包括中、英文和其他主要语言。模型在系统提示多样性适应以及角色扮演和条件设置方面均有提升。指令调优的GPTQ 4-bit模型在处理结构化数据和生成结构化输出方面表现优秀。
L3-DARKEST-PLANET-16.5B-GGUF - 提供多样量化选项的AI模型集合
Huggingface量化开源项目使用指南模型Github转换L3-DARKEST-PLANET-16.5B模型请求
L3-DARKEST-PLANET-16.5B-GGUF项目在Huggingface平台上提供多种静态量化选项和高质量文档,确保模型优异性能。参考TheBloke的指南可轻松实现多部分文件合并。建议使用Q4_K_S和Q4_K_M格式以实现快速响应,Q6_K和Q8_0格式则提供更高质量。项目由nethype GmbH公司支持,提供多样降维与合并工具选择,提升AI应用体验。
Qwen2.5-7B-Instruct-GGUF - Qwen2.5-7B-Instruct的多样化量化方案增强模型适应性
Qwen2.5-7B-Instruct训练数据集性能优化Github开源项目ARM芯片量化Huggingface模型
项目采用llama.cpp的最新量化方案对Qwen2.5-7B-Instruct模型进行优化,提供灵活的量化格式以匹配各类硬件环境。更新的上下文长度管理与先进的分词器,无论选择传统的Q-K量化还是新兴的I-quant,各种档次的文件都能帮助设备实现性能与速度的平衡。尤其是对ARM架构的专门优化,即便在低RAM环境下,用户也能凭借有限的资源获得可行的使用体验。
Qwen2-7B-Multilingual-RP-GGUF - 多语言量化优化模型集合,支持多种精度和高效推理
GGUFllama.cppQwen2-7B-Multilingual-RP量化HuggingfaceGithub开源项目模型文件模型
本项目提供了Qwen2-7B-Multilingual-RP模型的多种GGUF量化版本,文件大小从2.46GB到9.12GB不等。使用llama.cpp的imatrix技术,涵盖Q8至Q2多个精度级别,包括传统K-quants和新型I-quants方案。用户可根据设备性能选择适合的版本,支持在CPU、GPU等环境下进行英语、韩语、日语、中文和西班牙语的多语言处理。
OpenCrystal-15B-L3-v2-i1-GGUF - 提供多种量化文件支持AI模型性能提升
Huggingface量化开源项目模型OpenCrystal-15B-L3-v2transformersnethype GmbHGithub模型提供
OpenCrystal-15B-L3-v2-i1-GGUF项目提供多种GGUF量化文件,旨在优化AI模型的性能。不同的量化类型和大小让用户可以按照需求选择合适的设置,以提升模型运行速度或在资源有限的情况下提高输出质量。感谢nethype GmbH公司和@nicoboss对项目的技术支持。
nomic-ai-gpt4all-falcon-gguf - 改进量化技术以提升Falcon 7B模型的性能和效率
Falcon 7BK-quantsgpt4all-falcon量化模型Github开源项目Huggingface
gpt4all-falcon-gguf项目通过K-quantization技术优化Falcon 7B模型的性能,尽管仅四分之一的层可真正量化,但通过Q4_0、Q4_1、Q5_0和Q5_1等量化类型,实现了质量与文件大小的平衡。该项目采用Apache-2.0许可证,以英语为主要语言,并支持gguf格式。模型在常识推理基准测试中表现出色,并支持CUDA进行高效推理。
laser-dolphin-mixtral-2x7b-dpo-GGUF - 跨平台兼容的量化模型:GGUF格式的应用与性能评估
MacadelicccLaser Dolphin Mixtral 2X7B DPO量化HuggingfaceGithub开源项目模型变压器LLM
GGUF格式开创了一种新的模型优化方法,适用于多平台的机器学习应用,带来更优的性能与存储管理。该项目兼容多个用户界面,如llama.cpp和KoboldCpp,并支持多种量化文件格式,推荐选用Q4_K_M和Q5_K_M以实现性能与资源消耗的最佳平衡。
WizardLM-1.0-Uncensored-Llama2-13B-GGUF - 解读WizardLM 1.0推出的GGUF格式模型
WizardLM量化Eric Hartford模型Github开源项目GGUFHuggingface
该项目推出了WizardLM 1.0 Uncensored Llama2 13B的GGUF格式模型。GGUF格式是GGML的替代,由llama.cpp团队于2023年8月开发,具备标记化提升和对特定标记的支持,并包含元数据和可扩展功能。用户可在llama.cpp、text-generation-webui和KoboldCpp等多种平台上使用,实现跨平台的GPU加速和优化。项目细分不同量化参数模型,用户可根据需要利用多种工具便捷下载,并依照指南进行部署。模型在兼容性上表现突出,支持LangChain等多种Python库,提供更多使用选择。
dolphin-2.7-mixtral-8x7b-GGUF - 探索性能与多平台兼容性
Cognitive ComputationsGithubDolphin 2.7 Mixtral 8X7B开源项目量化AI模型GPU加速Huggingface模型
Dolphin 2.7 Mixtral 8X7B使用GGUF格式,支持在多种硬件平台上高效推理。兼容llama.cpp等多个第三方UI和库,提供GPU加速与CPU+GPU并行推理解决方案,满足不同应用需求。GGUF取代GGML,提供多种量化策略,适用于多种操作系统。
相关文章
vLLM:高效易用的大语言模型推理和服务引擎
2024年08月30日
LMDeploy: 高效的大语言模型压缩、部署与服务工具包
2024年08月30日
Curated Transformers: 可组合的最先进Transformer模型库
2024年08月30日
Awesome-Efficient-LLM: 大型语言模型高效化技术的最新进展
2024年08月30日
RTP-LLM: 阿里巴巴的高性能大语言模型推理引擎
2024年08月30日
OmniQuant: 大语言模型的全方位校准量化技术
2024年08月30日
SqueezeLLM: 大语言模型的高效量化压缩技术
2024年08月30日
Docker LLaMA2 Chat:三步上手大型语言模型
2024年08月30日
深入解析Hugging Face的Text Generation Inference工具包:为大型语言模型赋能
2024年08月30日