#GGUF

该工具库正在开发中，专注于处理和解析GGUF文件。它提供详细的键值对和张量信息展示、文件比较和张量细节检查等功能。gguf-tools旨在为机器学习领域提供多种实现方案，帮助理解和使用GGUF格式，提升模型操作和分析的效率。该工具展示了如何在实际应用中使用库，并将来计划加入更多有趣且实用的示例和功能。

CASALIOY - 离线LLM工具套件，兼容GGUF、LangChain和qdrant

Github开源项目QdrantDockerLangChainGGUFLLamaCpp

CASALIOY项目是一款高效的离线LLM工具套件，支持最新的GGUF标准、LangChain和qdrant集成。用户可以通过Docker或源码轻松部署，并通过命令行或GUI与本地文档库交互。详细的安装指南和示例配置文件方便用户快速上手，支持多种数据格式的处理和数据的本地存储，确保数据安全。本项目附有更新支持。

llama_cpp-rs - Rust绑定库实现GGUF大语言模型CPU运行

Github开源项目大语言模型GGUFllama_cpp-rsRust绑定CPU运行

llama_cpp-rs是一个Rust绑定库，用于在CPU上运行GGUF大语言模型。它提供简洁的API，支持快速模型加载和文本生成。该项目兼容CUDA、Vulkan等后端，并包含内存预测功能。llama_cpp-rs简化了大语言模型的使用流程，适合各层级开发者。

llama2_70b_chat_uncensored-GGUF - Llama2 70B Chat Uncensored推出全新GGUF格式

Github开源项目LLM模型量化HuggingfaceLlama2GGUF

Llama2 70B Chat Uncensored项目引入了采用GGUF格式的新模型文件，与传统GGML相比，增强了性能与功能。GGUF格式在词元化和特殊标记支持方面表现出色，并支持元数据，提升了第三方UI和库的兼容性。由llama.cpp团队于2023年8月21日发布的此新格式，适合用于聊天机器人、文本生成等机器学习应用。

medicine-LLM-13B-GGUF - 专业级医学大语言模型GGUF格式量化版本

Github开源项目大语言模型模型量化模型HuggingfaceGGUFMedicine LLM医学人工智能

本项目提供AdaptLLM开发的Medicine LLM 13B模型的GGUF量化版本。GGUF是llama.cpp团队推出的新格式,替代了旧有的GGML。项目包含2位到8位精度的多种量化版本,可适应不同硬件配置和性能需求。GGUF文件兼容多种客户端和库,便于用户灵活使用。量化版本在优化资源使用的同时,也保证了模型质量。

TinyLlama-1.1B-Chat-v0.3-GGUF - 探索TinyLlama 1.1B Chat v0.3的GGUF格式模型

Github开源项目模型GPU加速HuggingfaceGGUFTinyLlama兼容性量化方法

项目为TinyLlama 1.1B Chat v0.3提供GGUF格式模型，该格式由llama.cpp团队于2023年推出，支持多种客户端和库如text-generation-webui和LM Studio，并提供GPU加速。用户可获取不同量化参数的模型文件，以适应各种需求。项目还详细介绍了在命令行、Python代码及LangChain中使用模型的方法，帮助技术用户在多平台上实现高效运行。

Mixtral-8x7B-Instruct-v0.1-GGUF - Mixtral-8x7B多语言模型的GGUF量化版本

Github开源项目AI模型模型Mistral AI量化HuggingfaceGGUFMixtral 8X7B

本项目提供Mixtral-8x7B-Instruct-v0.1模型的GGUF量化版本。GGUF格式支持CPU和GPU高效推理，项目包含2至8比特多种量化等级文件。模型支持英、法、意、德、西等语言，适用多种NLP任务。用户可通过llama.cpp等工具便捷运行这些模型。

CodeFuse-CodeLlama-34B-GGUF - 基于Llama2打造的高性能代码生成模型，多量化格式任您选择

Github开源项目大语言模型代码生成模型量化模型HuggingfaceCodeLlamaGGUF

CodeFuse-CodeLlama-34B是一款基于Llama2架构的代码生成模型,提供2位至8位多种GGUF量化格式。该模型支持CPU和GPU推理,具有优秀的代码理解与生成能力。开发者可根据硬件和性能需求选择合适的量化版本,实现高效部署。模型兼容llama.cpp、text-generation-webui等主流框架,便于快速集成使用。

Phi-3.5-mini-instruct_Uncensored-GGUF - 优化的量化模型提供多种压缩方案支持不同运行环境

Github开源项目LLMllama.cpp模型量化HuggingfaceGGUFPhi-3.5

该项目基于llama.cpp框架，将Phi-3.5-mini-instruct模型转换为GGUF格式，提供从F16到IQ2_M共19种量化版本。模型文件大小范围在1.32GB至7.64GB之间，适配CPU和GPU环境。Q6_K、Q5_K系列及IQ4_XS等版本在性能与体积上表现均衡，可根据硬件配置选择适合的版本使用。

Replete-LLM-V2.5-Qwen-7b-GGUF - Qwen-7b模型GGUF量化版本集合适配多种硬件配置

Github开源项目机器学习量化模型模型HuggingfaceGGUFQwen显存优化

Replete-LLM-V2.5-Qwen-7b-GGUF是经LLAMA.cpp量化处理的Qwen-7b模型系列，提供24种不同量化版本。从15.24GB的F16到2.78GB的IQ2_M，涵盖多种规格以适应不同硬件。支持CPU和GPU部署，并为ARM架构优化。采用imatrix量化方案，附有详细性能说明，便于选择合适版本。

Llama-2-7B-GGUF - Meta开源的大型语言模型GGUF量化格式版本

Github开源项目开源语言模型模型Llama 2HuggingfaceMetaGGUF

Llama 2 7B GGUF是Meta开源语言模型的优化版本，采用llama.cpp团队开发的GGUF量化格式。该版本提供2-8比特多种量化选项，支持CPU和GPU推理，可满足不同场景的部署需求。项目包含模型下载、运行指南以及主流框架的集成方法，方便开发者快速上手使用。

Noromaid-13B-v0.3-GGUF - 高效本地部署的大规模语言模型GGUF量化版本，支持多种精度选项

Github开源项目模型量化llama.cppAI推理模型HuggingfaceGGUFNoromaid

Noromaid-13B模型的GGUF量化版本提供2-8位精度选项，支持CPU和GPU部署。模型采用Alpaca提示模板，与llama.cpp等框架兼容。文件大小范围为5.43GB至13.83GB，Q4_K_M版本可实现性能与质量的平衡。模型基于cc-by-nc-4.0和Meta Llama 2许可发布。

Open_Gpt4_8x7B_v0.2-GGUF - 提供多格式兼容量化模型，提升推理效率

Github开源项目模型量化HuggingfaceGGUF模型兼容性rombo dawgOpen Gpt4 8X7B V0.2

此项目提供GGUF格式的多精度量化模型文件，旨在优化CPU和GPU的推理效率。作为GGML的替代，GGUF与多种第三方UI和库兼容，支持多平台AI模型的高效运行。项目包含2至8位量化模型以满足不同精度与内存要求，适合多种场景需求。通过详细的下载指导，用户能快速找到适合的模型文件，并利用llama.cpp、text-generation-webui等高性能运行时实现模型在不同硬件上的高效推理。

Mistral-Nemo-Instruct-2407-GGUF - Mistral Nemo多语言指令模型的量化版本

Github开源项目大语言模型机器学习量化模型模型HuggingfaceGGUFMistral-Nemo-Instruct-2407

Mistral-Nemo-Instruct-2407模型的GGUF量化实现，包含从Q2到Q8多个量化等级，文件大小范围为4.9GB至13.1GB。模型原生支持英语、法语、德语等8种语言，基于Apache 2.0协议开源。项目提供了各量化版本的性能对比数据及使用文档，便于在性能和资源消耗间做出合适选择。

mini-magnum-12b-v1.1-iMat-GGUF - 基于mini-magnum的量化优化大语言模型

Github开源项目大语言模型llama.cpp模型量化HuggingfaceGGUFmini-magnum-12b

mini-magnum-12b-v1.1模型的量化优化版本，采用iMatrix技术和fp16 GGUF进行量化处理。经验证可在llama.cpp、text-generation-web-ui等主流平台稳定运行，支持Flash Attention加速，并提供多种优化配置方案。项目包含详细的性能对比数据和部署指南，方便开发者快速上手使用。

stable-diffusion-3-medium-GGUF - 高性能GGUF格式量化模型集合，支持多种精度的文生图应用

Github开源项目AI绘图量化模型模型模型压缩HuggingfaceGGUFstable-diffusion-3

该项目提供了基于Stable Diffusion 3 Medium的GGUF格式量化模型集合。包含4位至32位不同精度的版本，模型大小从4.55GB到31.5GB不等。使用stable-diffusion.cpp进行量化，可通过sd-api-server快速部署。这些模型适用于需要在各种硬件条件下平衡性能和资源的文生图应用场景。

Rombos-LLM-V2.6-Qwen-14b-GGUF - 基于llama.cpp的Qwen-14B量化模型集合

Github开源项目llama.cpp模型模型压缩量化HuggingfaceGGUFRombos-LLM

llama.cpp量化的Qwen-14B开源项目，通过imatrix方案优化生成多种GGUF格式模型文件。模型尺寸从2GB到29GB不等，覆盖Q2至F16多种量化精度，并针对不同硬件架构进行优化。项目提供完整的模型选择指南，方便本地部署时根据实际硬件环境选择合适版本。

Llama-3.1-8B-ArliAI-RPMax-v1.2-GGUF-IQ-ARM-Imatrix - 基于Llama的创意写作与角色扮演优化模型

Github开源项目人工智能模型角色扮演模型Llama 3.1HuggingfaceGGUFroleplaying

基于Llama-3.1-8B开发的模型，采用GGUF-IQ-ARM-Imatrix量化技术，通过去重数据集训练，实现角色和情境的多样化表现。模型支持Llama 3 Instruct提示格式，可用于创意写作和角色扮演对话场景

Qwen2.5-Coder-7B-Instruct-GGUF - 深度学习模型的多规格量化版本适配不同硬件和性能要求

Github开源项目大语言模型llama.cpp模型量化HuggingfaceGGUFQwen2.5-Coder-7B-Instruct

本项目为Qwen2.5-Coder-7B-Instruct模型提供了从15GB到2.78GB的多种量化版本。采用llama.cpp最新技术，包括K-quants和I-quants两种量化方案，并针对ARM架构优化。用户可根据设备内存容量和性能需求选择适合版本。各版本保留原始模型核心功能，适用于多种部署场景。

Rombos-LLM-V2.6-Qwen-14b-Q8_0-GGUF - GGUF格式量化版大语言模型支持本地化高性能部署

Github开源项目llama.cpp模型模型转换HuggingfaceGGUFRombos-LLM代码部署

本项目是Rombos-LLM-V2.6-Qwen-14b模型的GGUF格式版本，专为llama.cpp框架优化。提供详细的本地部署指南，包括brew安装和源码编译方法，支持命令行和服务器运行模式。基于transformers库开发，采用Apache-2.0许可证，适合需要在本地环境高效运行大型语言模型的应用场景。

Llama-2-13B-chat-GGUF - Llama 2聊天模型的量化压缩版本

人工智能Github开源项目大语言模型模型Llama 2量化HuggingfaceGGUF

Llama 2 13B聊天模型的GGUF格式优化版本,采用2-bit到8-bit不等的量化方案,实现模型体积的大幅压缩。支持CPU和GPU环境下的高效推理,适配主流框架如llama.cpp、text-generation-webui等。通过不同量化级别的选择,可在推理性能与资源占用间实现灵活平衡。

Wizard-Vicuna-13B-Uncensored-GGUF - Wizard Vicuna大语言模型的GGUF量化实现

Github开源项目LLMAI模型模型量化GPU加速HuggingfaceGGUF

Wizard Vicuna 13B模型的GGUF量化版本，提供2-bit至8-bit多种量化精度选项。GGUF作为llama.cpp最新支持的模型格式，可实现高效的本地部署和推理。模型支持CPU与GPU加速，采用Vicuna对话模板，适用于多种文本生成场景。

Wizard-Vicuna-30B-Uncensored-GGUF - 多平台兼容的高效AI模型格式

Github开源项目人工智能助手量化模型模型数据集HuggingfaceGGUFWizard Vicuna 30B Uncensored

GGUF格式是llama.cpp团队于2023年8月推出的新模型格式，取代了不再支持的GGML。该项目提供多种量化方法及格式，以优化在llama.cpp、text-generation-webui等多平台上的使用。用户可以选择最合适的模型，通过支持GPU加速的客户端和库实现高效下载和使用。这些模型兼容多种第三方UI和库，有助于增强人工智能推理和应用开发的性能。

OpenELM-3B-Instruct-GGUF - 轻量级开源语言模型的多版本量化实现

Github开源项目模型量化语言模型模型HuggingfaceGGUF提示模板OpenELM

基于GGUF格式量化，提供从Q2到F16共16种量化版本。模型采用层级缩放策略优化参数分配，基于1.8万亿token数据训练，支持指令微调，可在3.14GB至7.72GB内存环境下运行。

Qwen2.5-14B_Uncensored_Instruct-GGUF - 高性能量化版本适用于多种设备和场景

Github开源项目文本生成模型模型压缩量化HuggingfaceGGUFQwen2.5-14B

此项目为Qwen2.5-14B无审查指令模型提供多种量化版本，涵盖从29.55GB的F16到5.36GB的IQ2_M等不同规格。量化类型包括Q8_0、Q6_K、Q5_K、Q4_K、Q3_K和IQ系列，适应不同硬件配置需求。项目详细介绍了各版本特点、文件大小和适用场景，并提供选择指南和下载方法，方便用户根据设备性能选择合适版本。

Meraj-Mini-GGUF - 多精度量化GGUF语言模型适配多平台本地部署

人工智能Github开源项目llama.cpp开源模型模型模型转换HuggingfaceGGUF

Meraj-Mini-GGUF项目提供Meraj-Mini模型的GGUF格式版本，支持2-bit至8-bit量化精度。GGUF作为llama.cpp团队开发的新型模型格式，具备卓越性能和广泛兼容性。该模型可在LM Studio、text-generation-webui等主流平台运行，支持GPU加速，适合本地部署文本生成任务。项目兼容多种客户端和库，如llama.cpp、GPT4All等，为用户提供灵活的应用选择。

CodeLlama-7B-Python-GGUF - 适用于多平台的文本生成开源模型

Github开源项目Python模型量化HuggingfaceCodeLlamaGGUF

CodeLlama 7B Python GGUF格式模型提供多平台下的文本生成功能。由llama.cpp团队推出的GGUF格式，替代GGML，增强了标记和元数据支持。兼容多种UI和库，如text-generation-webui和LM Studio，并提供多种量化选项，以适应不同硬件需求，支持与LangChain等Python项目的高级整合。

Mixtral_Erotic_13Bx2_MOE_22B-GGUF - Mixtral Erotic 22B模型的GGUF量化版本集合

Github开源项目自然语言处理机器学习量化模型模型HuggingfaceGGUFMixtral_Erotic_13Bx2_MOE_22B

本项目提供Mixtral_Erotic_13Bx2_MOE_22B模型的16种GGUF量化版本，涵盖Q2至Q8不同规格，文件大小在8.2GB到23.1GB之间。项目详细比较了各版本特点和性能，推荐使用速度较快的Q4_K_S和Q4_K_M版本，质量较好的Q6_K版本，以及最佳质量的Q8_0版本。用户可根据需求选择适合的量化版本。

Mistral-7B-Claude-Chat-GGUF - 高性能AI语言模型优化版，超强本地对话能力

Github开源项目AI模型llama.cpp模型量化HuggingfaceMistral-7BGGUF

Mistral-7B-Claude-Chat模型GGUF版提供多种量化文件(2-8位),支持CPU和GPU推理。采用Vicuna提示模板,适合聊天场景。兼容llama.cpp等多种工具,附详细使用说明。此优化版本旨在本地环境中实现高效AI对话。

Qwen2.5-32B-Instruct-abliterated-v2-GGUF - 基于Qwen2.5的无道德限制大语言模型

人工智能Github开源项目大语言模型模型微调模型HuggingfaceGGUFQwen2.5-32B

该项目是Qwen2.5-32B-Instruct模型的优化版本，通过特定技术移除了模型的道德限制和约束性回应，实现了更开放的对话能力。项目采用轻量级格式，便于灵活部署和实际应用。

Qwen2.5-32B-AGI-Q6_K-GGUF - 通量计算优化的高性能大语言模型本地部署

大型语言模型Github开源项目llama.cpp模型模型转换HuggingfaceGGUFQwen2.5

该项目提供了GGUF格式转换的Qwen2.5-32B-AGI模型，支持通过llama.cpp实现本地高效部署和推理。模型采用Q6_K量化方案，在维持性能的同时显著减少资源消耗。项目支持通过brew快速安装llama.cpp或源码编译部署，并提供命令行界面和服务器模式两种运行选项，为本地化大模型应用提供灵活解决方案。

Tiger-Gemma-9B-v3-GGUF - Gemma-9B大语言模型优化版移除限制支持GGUF格式

Github开源项目语言模型模型HuggingfaceGGUF解密Tiger Gemma 9B救助流浪猫

Tiger-Gemma-9B-v3是基于Gemma-9B的优化模型，通过新数据集移除了原模型的限制。模型已转换为GGUF格式，便于本地部署。项目开源于Hugging Face平台，为开发者提供了更自由的大语言模型选择。模型命名源自作者收养的猫咪Tiger，体现了对AI表达自由的追求。

codegemma-7b-GGUF - 经过量化优化的代码生成模型，支持多种精度选择的GGUF格式

Github开源项目模型量化模型HuggingfaceGGUF性能对比文件大小CodeGemma

这个项目提供了CodeGemma-7b模型的多种量化版本，文件大小从2.16GB到9.07GB不等，采用GGUF格式。支持从Q8到IQ1的多种精度等级，可适应不同的硬件配置。其中Q6_K、Q5_K和Q4_K系列版本在性能和空间优化方面表现较好，适合生产环境使用。用户可根据自身的内存和显存情况选择合适的版本。

Phi-3.5-mini-instruct-GGUF - 高性能微软小型语言模型的量化方案

Github开源项目模型量化HuggingfaceGGUF模型权重Phi-3.5-mini-instructARM芯片

该项目基于llama.cpp框架,对Microsoft Phi-3.5-mini-instruct模型进行GGUF格式量化,提供从Q2到Q8等多个精度版本。每个量化版本都针对不同硬件平台进行了优化,包括针对ARM芯片的特殊优化版本。项目提供完整的模型特性对比和选择指南,帮助开发者根据实际需求选择合适的量化版本。

Arabic-Orpo-Llama-3-8B-Instruct-GGUF - 阿拉伯语AI文本生成：支持新GGUF格式的创新工具

Github开源项目模型GPU加速HuggingfaceGGUF技术更新模型选择接口支持

GGUF格式是llama.cpp团队在2023年推出的创新替代方案，旨在取代过时的GGML格式。多个应用程序和库已支持该格式，如ollama、llama.cpp和llama-cpp-python，后者提供GPU加速和OpenAI兼容功能。这些工具不仅提高了文本生成的效率，也为Windows、Linux和macOS用户提供了更多便利，尤其是支持故事生成和其他高级功能，为需要先进人工智能功能的用户提供理想解决方案。

WizardLM-Uncensored-SuperCOT-StoryTelling-30B-GGUF - AI叙事模型兼容多种用户界面与库

Github开源项目模型量化GPU加速HuggingfaceWizardLMGGUF模型文件

WizardLM系列采用GGUF格式，支持多种平台和量化方法，适合自然语言生成应用，支持Python和LangChain集成及GPU加速。

GGUF Tools: 强大的GGUF文件处理工具集

3 个月前

CASALIOY: 一款本地运行大语言模型的强大工具包

3 个月前

llama_cpp-rs: Rust语言的高性能LLM推理库

2 个月前

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com