#llama.cpp

alpaca-electron - 一款无需命令行或编译即可与Alpaca AI模型对话的应用程序

Alpaca ElectronAlpaca.cppllama.cpp人工智能聊天本地运行Github开源项目

Alpaca Electron是一款无需命令行或编译即可与Alpaca AI模型对话的应用程序，支持Windows、MacOS和Linux平台。该应用使用llama.cpp作为后端，在本地计算机上运行，无需互联网连接，也不依赖外部库。安装过程简单，只需下载模型和安装程序即可开始使用。主要功能包括上下文记忆和Docker化，并计划集成Stable Diffusion和DuckDuckGo等功能。

llama.cpp - C/C++ 实现的 LLaMA 模型推理，支持多种硬件和系统

llama.cpp模型推理C/C++量化优化多模态模型Github开源项目热门

llama.cpp 提供了基于 C/C++ 的纯粹实现，支持包括 LLaMA 在内的多个模型的推理。专为多种硬件和操作系统优化，包括使用 ARM NEON、AVX 指令集和 Metal 框架的设备。此外，项目支持使用 NVIDIA GPU 的自定义 CUDA 核心，以及通过 HIP 支持 AMD GPU，为开发者在本地或云环境中实现高效、低延迟的大规模语言模型推理提供了强大的灵活性和可扩展性。

paddler - 专为优化llama.cpp服务器设计的负载均衡和反向代理工具

Paddlerllama.cpp负载均衡反向代理AWS集成Github开源项目

Paddler是一个开源、生产就绪的负载均衡和反向代理工具，专为优化llama.cpp服务器设计。它支持动态添加和移除服务器、自动扩展、请求缓冲、AWS集成以及StatsD协议。Paddler通过监控服务器的可用槽位，实现高效的请求分配，适用于需要可配置和可预测内存分配的环境。

selfhostedAI - 兼容OpenAI接口的自托管AI项目，支持多种模型与应用

Self-Hosted AIAPIChatGLMllama.cppstable-diffusion-webuiGithub开源项目

selfhostedAI是兼容OpenAI接口的自托管AI项目，支持多种开源模型如RWKV、ChatGLM 6B和llama.cpp，以及绘画模型stable-diffusion-webui。项目提供一键安装程序和详细教程，可在本地或云端运行，实现文本生成、对话及绘画功能。此外，还集成了text-generation-webui和Wenda，简化安装和配置流程。

LLMUnity - 支持在 Unity 引擎中无缝集成大型语言模型，创建智能交互角色

游戏开发Github开源项目UnityLLMllama.cppAI角色

LLMUnity项目允许在Unity中集成大规模语言模型，创建智能交互角色，实现更沉浸的游戏体验。支持Windows、Linux、macOS和Android等操作系统，兼容所有主流LLM模型。本地快速推理，无需互联网连接，数据隐私有保障。操作简便，仅需一行代码，既适用于个人也适用于商业项目。项目基于llama.cpp和llamafile库，提供免费下载，遵循MIT开源许可证。

InferLLM - 轻量化语言模型推理框架，兼容多种模型格式和设备

InferLLMllama.cpp模型推理高效率多模型兼容Github开源项目

InferLLM 是一个高效简洁的语言模型推理框架，源于 llama.cpp 项目。主要特点包括结构简单、高性能、易于上手，并支持多模型格式。目前兼容 CPU 和 GPU，可优化 Arm、x86、CUDA 和 riscv-vector，并支持移动设备部署。InferLLM 引入了专有 KVstorage 类型以简化缓存和管理，适合多种应用场景。最新支持的模型包括 LLama-2-7B、ChatGLM、Alpaca 等。

llava-cpp-server - LLaVA C++服务端，实现图像处理和查询

llama.cppAPI服务器LLaVAggml-model图像数据Github开源项目

LLaVA C++ Server是一个简便的API服务端，实现了llama.cpp的LLaVA功能。使用者可以通过下载模型并启动服务器来本地访问，支持自定义主机、端口和HTTP日志记录。API端点位于/llava，接受用户提示和图像数据，便于图像查询和处理。该项目已在macOS上测试，可通过简单构建步骤在其他平台运行。

llama_ros - llama.cpp优化能力的ROS 2集成包

llama_rosROS 2llama.cpp人工智能优化LoRA AdaptersGithub开源项目

llama_ros项目提供一系列ROS 2软件包，将llama.cpp的优化能力集成到ROS 2项目中。借助GGUF格式的LLMs和VLMs实现性能优化和功能扩展。内容包括相关项目介绍、安装指南、使用方法，以及各种示范，如llama_cli指令、启动文件配置、LoRA适配器、ROS 2客户端和LangChain集成。

OpenAI-sublime-text - 智能代码助手插件，集成GPT-4与多种模型支持

OpenAISublime Text PluginGPT-4llama.cppollamaGithub开源项目

该Sublime Text插件通过LLM模型提升代码助手功能。它支持OpenAI、llama.cpp和Ollama等多种模型，并具备代码操作、聊天模式、GPT-4支持等功能。插件还能管理项目专属的聊天记录和助手设置，支持代理和Markdown语法高亮。用户只需在设置中提供API密钥，即可轻松配置插件，优化编程体验。

TinyLLM - 在本地硬件上构建小型LLM，支持多种模型和ChatGPT界面

TinyLLMOllamallama.cppvLLMChatGPTGithub开源项目

该项目帮助用户在消费级硬件上构建小型本地LLM，并提供类似ChatGPT的网页界面。支持通过Ollama、llama-cpp-python和vLLM搭建兼容OpenAI API的服务，允许访问外部网站、矢量数据库等。具备详尽的硬件要求和模型下载链接，方便用户快速上手并使用自定义提示进行互动。

llama-cpp-python - Python绑定库为LLM集成提供高效接口

llama.cppPython绑定AI模型文本生成OpenAI兼容Github开源项目

llama-cpp-python为llama.cpp提供Python绑定，支持低级C API访问和高级Python API文本补全。该库兼容OpenAI、LangChain和LlamaIndex，支持CUDA、Metal等硬件加速，实现高效LLM推理。它还提供聊天补全和函数调用功能，适用于多种AI应用场景。

llama_cpp.rb - Ruby语言的LLaMA模型集成工具

llama.cppRuby大语言模型自然语言处理机器学习Github开源项目

llama_cpp.rb是一个为Ruby开发者提供llama.cpp绑定的工具，支持在Ruby项目中集成LLaMA模型。该项目实现了模型加载、上下文管理和文本生成等功能，并包含交互式聊天示例。通过简化Ruby环境中大型语言模型的部署和使用过程，llama_cpp.rb为开发者提供了实用的集成方案。

t5-v1_1-xxl-encoder-gguf - T5-v1_1-XXL编码器适用于NLP和图像生成任务

模型量化模型GGUF开源项目Huggingfacellama.cppT5ComfyUIGithub

Google T5-v1_1-XXL编码器模型的GGUF转换版本，兼容llama-embedding和ComfyUI-GGUF。适用于自然语言处理和图像生成任务，推荐使用Q5_K_M或更高量化版本。该模型为开发者提供强大的文本编码能力，可应用于多种NLP场景。

Mistral-7B-Instruct-v0.2-GGUF - Mistral 7B指令模型的GGUF量化版本

AI模型Huggingface模型Mistralllama.cppGithub开源项目GGUF量化

本仓库提供Mistral AI的Mistral 7B Instruct v0.2模型的GGUF格式文件。GGUF是llama.cpp的新格式,替代了GGML。包含2至8比特多种量化版本,文件大小3GB至7.7GB,适合不同硬件。支持文本生成和对话任务,可用于CPU和GPU。仓库包含下载指南和使用示例,便于快速上手。

deepseek-coder-33B-instruct-GGUF - DeepSeek Coder 33B Instruct模型GGUF量化版本

AI编程助手Huggingface模型llama.cppGithub开源项目Deepseek CoderGGUF量化

本项目提供DeepSeek Coder 33B Instruct模型的GGUF量化版本。GGUF是llama.cpp团队开发的新格式,替代了旧有的GGML。该模型专注于计算机科学领域,不回答政治敏感或安全隐私等无关问题。项目包含多种量化参数选项,支持CPU和GPU推理,兼容多种第三方界面和库。用户可根据硬件配置和使用需求选择适合的量化版本。

Llama-3.2-3B-Instruct-Q8_0-GGUF - Llama 3.2系列8位量化指令型语言模型

语言模型模型llama.cppGithubLlama-3Huggingface开源项目MetaGGUF

Llama-3.2-3B-Instruct-Q8_0-GGUF是Meta的Llama 3.2系列中经8位量化并转换为GGUF格式的指令微调模型。支持多语言文本生成,可通过llama.cpp在CPU或GPU上运行。模型提供命令行和服务器使用方式,适用于对话和文本生成任务。作为轻量级但功能强大的语言模型,适合开发者和研究人员使用。

Mistral-7B-Instruct-v0.3-GGUF - Mistral-7B-Instruct模型的多种量化版本优化性能与文件大小

Huggingface模型性能模型Mistral-7B-Instruct-v0.3llama.cppGithub开源项目GGUF量化

该项目为Mistral-7B-Instruct-v0.3模型提供多种量化版本,采用llama.cpp的imatrix选项。量化类型从Q8_0到IQ1_S不等,文件大小范围为1.61GB至7.70GB。项目详细介绍了各版本特点,并提供下载指南和选择建议,方便用户根据硬件条件和性能需求选择最佳版本。

Meta-Llama-3.1-8B-Instruct-GGUF - Llama 3.1多语言指令模型的量化版本

Huggingface模型Meta-Llamallama.cpp人工智能Github开源项目GGUF量化

Meta-Llama-3.1-8B-Instruct-GGUF是Llama 3.1模型的量化版本,使用llama.cpp技术实现。该项目提供多种精度的模型文件,从32GB的全精度到4GB的低精度,适应不同硬件需求。模型支持英语、德语、法语等多语言指令任务,可用于对话和问答。用户可选择合适的量化版本,在保持性能的同时优化资源使用。

Llama-3.2-1B-Instruct-Q8_0-GGUF - 高性能指令型大语言模型的GGUF格式版本

模型Llama 3.2开源项目llama.cppHuggingfaceGGUF格式Github大语言模型Meta

Llama-3.2-1B-Instruct模型的GGUF格式版本专为高效推理而设计。该版本保留了原始模型的指令遵循能力,同时优化了推理速度和内存使用。通过llama.cpp,用户可在多种硬件上部署此模型,实现快速、资源友好的本地AI推理。这款1B参数的轻量级模型适用于个人电脑和边缘设备,为广泛应用场景提供了便利的AI解决方案。

Tiger-Gemma-9B-v3-GGUF - ARM推理优化与量化模型文件的综合指南

llama.cpp量化开源项目模型Github质量优化HuggingfaceTiger-Gemma-9B-v3模型下载

Tiger-Gemma-9B-v3-GGUF项目提供了一系列专为ARM推理优化的量化模型文件，格式涵盖f16至Q2_K。项目采用llama.cpp的imatrix方法确保模型的输出和嵌入权重高精度，并允许通过huggingface-cli灵活下载文件。用户可根据设备资源选择'I-quant'或'K-quant'格式，以平衡高性能和空间效率，适用于文本生成任务的开发与研究。

Reasoning-0.5b-GGUF - 量化推理模型优化文本生成效果

量化Reasoning-0.5b模型Github开源项目llama.cpp嵌入/输出权重文本生成Huggingface

页面介绍了Reasoning-0.5b模型的多种量化版本，优化了ARM及其他平台的推理速度与性能。在LM Studio运行模型有助于在低RAM环境下展现性能优势。内容包括量化文件的特性、推荐下载链接、使用建议，以及在不同计算平台上的应用效果。用户通过huggingface-cli可依据硬件资源选择合适模型，提升性能效率。

ggml_llava-v1.5-13b - 面向llama.cpp的LLaVA视觉语言模型推理文件

llava开源项目ggml模型机器学习Github模型推理llama.cppHuggingface

这是一个为llama.cpp提供的GGUF文件集合，专门用于llava-v1.5-13b视觉语言模型的端到端推理，无需额外依赖即可部署。其中mmproj-model-f16.gguf文件结构仍处于实验阶段，需要配合llama.cpp最新代码使用以保证兼容性。

Phi-3.5-mini-instruct_Uncensored-GGUF - 优化的量化模型提供多种压缩方案支持不同运行环境

LLMGGUF开源项目Phi-3.5模型Github量化llama.cppHuggingface

该项目基于llama.cpp框架，将Phi-3.5-mini-instruct模型转换为GGUF格式，提供从F16到IQ2_M共19种量化版本。模型文件大小范围在1.32GB至7.64GB之间，适配CPU和GPU环境。Q6_K、Q5_K系列及IQ4_XS等版本在性能与体积上表现均衡，可根据硬件配置选择适合的版本使用。

Noromaid-13B-v0.3-GGUF - 高效本地部署的大规模语言模型GGUF量化版本，支持多种精度选项

NoromaidGithubllama.cppHuggingfaceAI推理GGUF开源项目模型量化模型

Noromaid-13B模型的GGUF量化版本提供2-8位精度选项，支持CPU和GPU部署。模型采用Alpaca提示模板，与llama.cpp等框架兼容。文件大小范围为5.43GB至13.83GB，Q4_K_M版本可实现性能与质量的平衡。模型基于cc-by-nc-4.0和Meta Llama 2许可发布。

gemma-2-2b-jpn-it-gguf - 基于Gemma的日语大模型跨平台量化部署版

日语语言模型llama.cppGemma模型部署GithubHuggingface量子化开源项目模型

基于Google Gemma-2-2b-jpn-it模型的量子化优化项目，通过llama.cpp、LM Studio和LLMFarm实现在Windows、Mac及iOS平台的轻量级部署。该项目遵循Gemma开源协议，提供高效的日语大模型部署解决方案。

TinyLlama-1.1B-Chat-v1.0-GGUF - TinyLlama 轻量级语言模型的量化优化版

TinyLlama大语言模型llama.cppGithubHuggingface开源项目模型量化GGUF

TinyLlama-1.1B-Chat-v1.0-GGUF是经量化处理的轻量级语言模型,提供多种量化方法和文件大小。支持CPU和GPU推理,兼容多种客户端和库。适用于资源受限环境,在保持性能的同时显著缩小模型体积。用户可根据需求选择量化版本,平衡模型大小和质量。

mini-magnum-12b-v1.1-iMat-GGUF - 基于mini-magnum的量化优化大语言模型

llama.cppGithubmini-magnum-12bHuggingface量化开源项目模型大语言模型GGUF

mini-magnum-12b-v1.1模型的量化优化版本，采用iMatrix技术和fp16 GGUF进行量化处理。经验证可在llama.cpp、text-generation-web-ui等主流平台稳定运行，支持Flash Attention加速，并提供多种优化配置方案。项目包含详细的性能对比数据和部署指南，方便开发者快速上手使用。

Rombos-LLM-V2.6-Qwen-14b-GGUF - 基于llama.cpp的Qwen-14B量化模型集合

Rombos-LLM模型压缩llama.cpp量化GGUF模型GithubHuggingface开源项目

llama.cpp量化的Qwen-14B开源项目，通过imatrix方案优化生成多种GGUF格式模型文件。模型尺寸从2GB到29GB不等，覆盖Q2至F16多种量化精度，并针对不同硬件架构进行优化。项目提供完整的模型选择指南，方便本地部署时根据实际硬件环境选择合适版本。

MiniCPM-Llama3-V-2_5-gguf - GGUF格式大语言模型轻量化推理工具

开源项目模型模型部署Github人工智能MiniCPMollamallama.cppHuggingface

MiniCPM-Llama3-V 2.5 GGUF是一个针对大语言模型轻量化部署的优化模型文件。通过llama.cpp和ollama框架，开发者可实现模型的本地化推理。项目提供完整的部署文档，支持高效且便捷的本地化实现

Qwen2.5-Coder-7B-Instruct-GGUF - 深度学习模型的多规格量化版本适配不同硬件和性能要求

大语言模型开源项目GGUFQwen2.5-Coder-7B-Instruct模型Huggingface量化Githubllama.cpp

本项目为Qwen2.5-Coder-7B-Instruct模型提供了从15GB到2.78GB的多种量化版本。采用llama.cpp最新技术，包括K-quants和I-quants两种量化方案，并针对ARM架构优化。用户可根据设备内存容量和性能需求选择适合版本。各版本保留原始模型核心功能，适用于多种部署场景。

Rombos-LLM-V2.6-Qwen-14b-Q8_0-GGUF - GGUF格式量化版大语言模型支持本地化高性能部署

Github开源项目代码部署llama.cppRombos-LLM模型转换GGUFHuggingface模型

本项目是Rombos-LLM-V2.6-Qwen-14b模型的GGUF格式版本，专为llama.cpp框架优化。提供详细的本地部署指南，包括brew安装和源码编译方法，支持命令行和服务器运行模式。基于transformers库开发，采用Apache-2.0许可证，适合需要在本地环境高效运行大型语言模型的应用场景。

Meraj-Mini-GGUF - 多精度量化GGUF语言模型适配多平台本地部署

GGUFHuggingface人工智能开源项目模型转换模型开源模型Githubllama.cpp

Meraj-Mini-GGUF项目提供Meraj-Mini模型的GGUF格式版本，支持2-bit至8-bit量化精度。GGUF作为llama.cpp团队开发的新型模型格式，具备卓越性能和广泛兼容性。该模型可在LM Studio、text-generation-webui等主流平台运行，支持GPU加速，适合本地部署文本生成任务。项目兼容多种客户端和库，如llama.cpp、GPT4All等，为用户提供灵活的应用选择。

Phi-3-medium-128k-instruct-GGUF - Phi-3-medium-128k-instruct模型的多硬件平台适配与量化选项

llama.cpp自然语言处理量化开源项目模型GithubHuggingfacePhi-3-medium-128k-instruct模型下载

Phi-3-medium-128k-instruct项目以llama.cpp最新版本为基础，提供多种量化模型以适应不同内存与性能需求，支持包括Nvidia的cuBLAS、AMD的rocBLAS、CPU及Apple Metal在内的多种硬件平台。推荐使用Q6_K_L和Q5_K_M版本以实现高精度场景需求。用户可利用huggingface-cli选择性下载所需模型，以达到速度与质量的最佳平衡。

Mistral-7B-Claude-Chat-GGUF - 高性能AI语言模型优化版，超强本地对话能力

GGUFllama.cpp量化HuggingfaceGithub开源项目模型AI模型Mistral-7B

Mistral-7B-Claude-Chat模型GGUF版提供多种量化文件(2-8位),支持CPU和GPU推理。采用Vicuna提示模板,适合聊天场景。兼容llama.cpp等多种工具,附详细使用说明。此优化版本旨在本地环境中实现高效AI对话。

Qwen2.5-32B-AGI-Q6_K-GGUF - 通量计算优化的高性能大语言模型本地部署

Qwen2.5GGUFHuggingface大型语言模型开源项目模型转换模型Githubllama.cpp

该项目提供了GGUF格式转换的Qwen2.5-32B-AGI模型，支持通过llama.cpp实现本地高效部署和推理。模型采用Q6_K量化方案，在维持性能的同时显著减少资源消耗。项目支持通过brew快速安装llama.cpp或源码编译部署，并提供命令行界面和服务器模式两种运行选项，为本地化大模型应用提供灵活解决方案。

Qwen2.5-72B-Instruct-GGUF - 大语言模型多种量化版本集合适配不同硬件配置

模型量化HuggingfaceQwen2.5-72B内存优化开源项目模型Github人工智能模型llama.cpp

该项目提供了Qwen2.5-72B-Instruct模型的18种量化版本，文件大小范围为23GB至77GB。使用llama.cpp的最新量化技术，包括K-quants和I-quants系列。所有版本均经imatrix优化，并更新了上下文长度设置和分词器。项目还提供了详细的性能对比和设备兼容性指南，方便用户根据自身硬件配置选择合适版本。这些模型特别适合在LM Studio等推理引擎上运行。

相关文章

Article Cover

llama.cpp: 高性能大语言模型推理引擎

Article Cover

Alpaca Electron: 在本地运行ChatGPT级别的AI对话模型

Article Cover

InferLLM: 轻量级大语言模型推理框架

Article Cover

Paddler: 为llama.cpp定制的有状态负载均衡器

Article Cover

LLaVaVision: 革新视觉辅助技术的开源项目

Article Cover

自托管AI助手：开源免费的本地化人工智能解决方案

Article Cover

LLaVA-cpp-server: 一个基于llama.cpp的高效多模态AI服务器实现

Article Cover

llama_ros: 整合llama.cpp与ROS 2的强大工具包

Article Cover

OpenAI Sublime Text插件：为您的代码编辑器带来AI助手

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号