#llama.cpp

Phi-3-medium-128k-instruct-GGUF - Phi-3-medium-128k-instruct模型的多硬件平台适配与量化选项
llama.cpp自然语言处理量化开源项目模型GithubHuggingfacePhi-3-medium-128k-instruct模型下载
Phi-3-medium-128k-instruct项目以llama.cpp最新版本为基础,提供多种量化模型以适应不同内存与性能需求,支持包括Nvidia的cuBLAS、AMD的rocBLAS、CPU及Apple Metal在内的多种硬件平台。推荐使用Q6_K_L和Q5_K_M版本以实现高精度场景需求。用户可利用huggingface-cli选择性下载所需模型,以达到速度与质量的最佳平衡。
Mistral-7B-Claude-Chat-GGUF - 高性能AI语言模型优化版,超强本地对话能力
GGUFllama.cpp量化HuggingfaceGithub开源项目模型AI模型Mistral-7B
Mistral-7B-Claude-Chat模型GGUF版提供多种量化文件(2-8位),支持CPU和GPU推理。采用Vicuna提示模板,适合聊天场景。兼容llama.cpp等多种工具,附详细使用说明。此优化版本旨在本地环境中实现高效AI对话。
Qwen2.5-32B-AGI-Q6_K-GGUF - 通量计算优化的高性能大语言模型本地部署
Qwen2.5GGUFHuggingface大型语言模型开源项目模型转换模型Githubllama.cpp
该项目提供了GGUF格式转换的Qwen2.5-32B-AGI模型,支持通过llama.cpp实现本地高效部署和推理。模型采用Q6_K量化方案,在维持性能的同时显著减少资源消耗。项目支持通过brew快速安装llama.cpp或源码编译部署,并提供命令行界面和服务器模式两种运行选项,为本地化大模型应用提供灵活解决方案。
Qwen2.5-72B-Instruct-GGUF - 大语言模型多种量化版本集合 适配不同硬件配置
模型量化HuggingfaceQwen2.5-72B内存优化开源项目模型Github人工智能模型llama.cpp
该项目提供了Qwen2.5-72B-Instruct模型的18种量化版本,文件大小范围为23GB至77GB。使用llama.cpp的最新量化技术,包括K-quants和I-quants系列。所有版本均经imatrix优化,并更新了上下文长度设置和分词器。项目还提供了详细的性能对比和设备兼容性指南,方便用户根据自身硬件配置选择合适版本。这些模型特别适合在LM Studio等推理引擎上运行。
CausalLM-7B-GGUF - 基于CausalLM 7B的双语语言模型量化优化方案
GGUFHuggingface量化开源项目模型CausalLMGithub语言模型llama.cpp
CausalLM 7B模型GGUF格式转换项目提供多种量化版本实现。该模型支持中英双语能力,基于多个数据集训练。项目包含2比特到8比特的不同量化方案,适配各类硬件环境。完整的部署文档和兼容性说明确保模型可快速应用。
buddhi-128k-chat-7b-GGUF - 高效的文本生成模型量化方式,保障性能与质量
开源项目模型高精度Huggingface质量量化Githubllama.cpp
本项目通过llama.cpp的量化处理,满足多样硬件需求,提供不同文件格式。i-matrix选项的应用和各类量化方式的整合,提升了模型精度与效率。根据RAM和VRAM情况,用户可以选择合适的量化版本。通过特性图表选择K-quants或I-quants,尤其是I-quants在性能和体积方面更具优势。下载指引详细,便于用户节省存储空间并优化性能,支持多种GPU平台,适合专业用户高效部署。
Ministral-8B-Instruct-2410-GGUF - 多语言开源大模型的精简量化版本
llama.cpp量化开源项目推理模型GithubHuggingfaceMistral大型语言模型
本项目提供Mistral AI的Ministral-8B-Instruct-2410模型的多种量化版本。使用llama.cpp进行量化,包含从16GB的F16全精度版本到4.45GB的IQ4_XS版本,适合不同硬件和性能需求。量化模型采用imatrix选项和特定数据集生成,可在LM Studio运行。项目详细介绍了各版本的文件大小、特点及模型提示格式,方便用户选择合适的版本。
c4ai-command-r-plus-GGUF - GGUF权重支持与加载优化简介
文档权重llama.cpp重要性矩阵Huggingface合并权重Github开源项目聊天模板模型
在Command R+ GGUF项目中,发现GGUF权重支持的新特性,并学习使用release b2636特性进行优化加载。imatrix矩阵的使用简化了权重合并过程,提高了使用效率。基于CohereForAI/c4ai-command-r-plus基础模型,项目在wikitext-2-raw数据集中展示了低混乱度的表现,用户可以通过实例化命令快速开始使用项目功能。
Qwen2-7B-Multilingual-RP-GGUF - 多语言量化优化模型集合,支持多种精度和高效推理
GGUFllama.cppQwen2-7B-Multilingual-RP量化HuggingfaceGithub开源项目模型文件模型
本项目提供了Qwen2-7B-Multilingual-RP模型的多种GGUF量化版本,文件大小从2.46GB到9.12GB不等。使用llama.cpp的imatrix技术,涵盖Q8至Q2多个精度级别,包括传统K-quants和新型I-quants方案。用户可根据设备性能选择适合的版本,支持在CPU、GPU等环境下进行英语、韩语、日语、中文和西班牙语的多语言处理。
NuExtract-v1.5-GGUF - NuExtract-v1.5模型多种GGUF量化版本集合
模型下载NuExtract-v1.5量化模型Github开源项目llama.cppGGUFHuggingface
本项目提供NuExtract-v1.5模型的多种GGUF量化版本,涵盖从高质量Q8_0到小型IQ2_M在内的多种类型。项目详细介绍了各版本特点,并根据硬件配置和性能需求提供选择建议。此外,还包含模型下载、使用说明和优化技巧,方便用户根据实际情况选择最适合的版本。
Grok-1-GGUF - Grok-1 GGUF量化支持llama.cpp的最新特性
模型下载huggingfacellama.cpp量化HuggingfaceGithub开源项目Grok-1模型
Grok-1 GGUF量化文件提供对llama.cpp的支持,通过简化的流程提升模型运行效率。可通过llama.cpp从Huggingface直接下载和运行分片文件,支持包括Q2_K、IQ3_XS、Q4_K和Q6_K在内的多种版本,推荐使用IQ3_XS版本。
llama-3-cat-8b-instruct-v1-GGUF - 文本生成模型的量化选择
量化模型性能质量选择模型Github开源项目llama.cpp文件下载Huggingface
此项目通过llama.cpp进行模型量化,以满足多样化的硬件限制需求。量化文件选择从Q8_0到IQ1_S不等,推荐使用Q6_K和Q5_K_M文件。使用huggingface-cli可方便下载所需文件。I-quant和K-quant适应不同硬件,特别在低于Q4时,I-quant表现出色。支持CPU和Apple Metal,需注意性能平衡。
ggml_bakllava-1 - ggml格式提供的llama.cpp兼容推理文件
BakLLaVAllama.cpp开源项目模型GithubHuggingface高搜索量文件结构业务相关性
仓库提供GGUF文件用于与llama.cpp集成的BakLLaVA-1推理,无需其他依赖。请注意,mmproj-model-f16.gguf文件格式仍在实验阶段,随时可能更改,建议使用llama.cpp的最新版本。
recoilme-gemma-2-9B-v0.3-Q6_K-GGUF - Recoilme-Gemma模型GGUF格式转换及文本生成指南
Githubrecoilme-gemma-2-9B模型llama.cpp开源项目模型转换Huggingface命令行接口文本生成
该项目说明了通过llama.cpp将Recoilme-Gemma模型转换为GGUF格式的过程,适用于Mac和Linux系统。提供命令行和服务器选项,实现无缝文本生成,配有详细的安装步骤和硬件兼容性说明,为开发人员提供支持。