#ggml

llm - 用于处理大型语言模型的 Rust 库生态系统
Github开源项目LLMRustinference librarymachine learningggml
该项目因时间和资源不足已归档,建议使用其他高质量的Rust推理库,如Ratchet、Candle和llama.cpp等。项目原README包含当前状态、支持的模型及使用方法等详细信息。
stable-diffusion.cpp - 纯C/C++实现的Stable Diffusion推理,支持多种模型和内存优化
Github开源项目ggmlstable-diffusion.cppPhotoMakerESRGANControl Net
该项目基于ggml实现了轻量级纯C/C++的Stable Diffusion推理,支持SD1.x至SD3的多种模型,包括SD-Turbo和PhotoMaker。项目特色有16位和32位浮点支持、4至8位整数量化、CPU和GPU加速、Flash Attention内存优化及多平台兼容。用户可以下载可执行文件或选择手动构建,并且无需转换为.ggml或.gguf格式。
rwkv.cpp - 多精度量化推理和CPU优化的大语言模型
Github开源项目PythonggmlRWKVcuBLAShipBLAS
该项目将RWKV-LM移植到ggerganov的ggml,支持FP32、FP16及量化的INT4、INT5和INT8推理,主要针对CPU使用,同时兼容cuBLAS。项目提供C库和Python封装。RWKV是一种不同于Transformer的大语言模型架构,只需前一步状态计算logits,适合长上下文使用。支持RWKV v5和v6模型以及LoRA检查点加载,适用于高质量和高性能需求的场景。
chatllm.cpp - 跨多模型的高效纯C++实时推理工具
Github开源项目GPT模型量化模型ggmlCPU推理ChatLLM.cpp
ChatLLM.cpp项目支持从1B到300B多种模型的高效推理,适用于本地电脑的实时聊天。通过优化的KV缓存和并行计算提升内存使用效率,并提供int4/int8量化以减少内存占用。该项目基于ggml库实现,支持Retrieval Augmented Generation、LoRA以及Python和JavaScript绑定等功能。发布了多种最新模型和工具调用,适合深度学习和自监督学习研究者。
ggml - C语言开发的机器学习张量库 支持多种AI模型推理
Github开源项目机器学习ggml推理量化GPU加速
ggml是一个C语言编写的机器学习张量库,支持16位浮点和整数量化。该库提供自动微分、优化器和多架构优化,无第三方依赖。ggml可用于GPT、LLaMA、Whisper等多种AI模型的推理。它在CPU上表现高效,同时支持GPU加速,适用于多种设备和平台。
qwen.cpp - Qwen-LM的高性能C++实现
Github开源项目量化模型ggmlqwen.cppQwen-LMC++实现
qwen.cpp是Qwen-LM的开源C++实现,基于ggml开发,支持实时对话、纯C++ tiktoken和流式生成。项目兼容x86/arm CPU、NVIDIA GPU,适用于Linux和MacOS平台。提供模型量化、Python绑定等功能,可在本地设备运行高性能Qwen对话模型。
ggml_llava-v1.5-13b - 面向llama.cpp的LLaVA视觉语言模型推理文件
Github开源项目机器学习llama.cpp模型推理模型ggmlHuggingfacellava
这是一个为llama.cpp提供的GGUF文件集合,专门用于llava-v1.5-13b视觉语言模型的端到端推理,无需额外依赖即可部署。其中mmproj-model-f16.gguf文件结构仍处于实验阶段,需要配合llama.cpp最新代码使用以保证兼容性。