#CPU推理

chatllm.cpp学习资料汇总 - 纯C++实现的大型语言模型推理框架

2 个月前

ChatLLM.cpp ggml GPT模型量化模型 CPU推理 Github 开源项目

2 个月前

Llama-2-Open-Source-LLM-CPU-Inference学习资料汇总 - 在CPU上运行开源大语言模型的文档问答系统

2 个月前

Llama-2 CPU推理 LangChain C Transformers GGML Github 开源项目

2 个月前

llama2.rs: 纯Rust实现的高性能Llama 2推理引擎

2 个月前

Llama2 Rust CPU推理量化 SIMD Github 开源项目

2 个月前

ChatLLM.cpp: 高效的CPU大语言模型推理框架

3 个月前

ChatLLM.cpp ggml GPT模型量化模型 CPU推理 Github 开源项目

3 个月前

在CPU上运行Llama 2和其他开源LLM:本地文档问答的高效解决方案

3 个月前

Llama-2 CPU推理 LangChain C Transformers GGML Github 开源项目

3 个月前

相关项目

Llama-2-Open-Source-LLM-CPU-Inference

详细介绍如何在本地CPU上使用Llama 2、C Transformers、GGML和LangChain运行量化开源LLM进行文档问答的指南。内容涵盖工具配置、模型下载和依赖管理，帮助团队实现自我管理或私有部署，满足数据隐私和合规要求，并节省GPU实例的高额费用。

chatllm.cpp

ChatLLM.cpp项目支持从1B到300B多种模型的高效推理，适用于本地电脑的实时聊天。通过优化的KV缓存和并行计算提升内存使用效率，并提供int4/int8量化以减少内存占用。该项目基于ggml库实现，支持Retrieval Augmented Generation、LoRA以及Python和JavaScript绑定等功能。发布了多种最新模型和工具调用，适合深度学习和自监督学习研究者。

deepsparse

DeepSparse是一个专为CPU优化的深度学习推理运行时，通过使用稀疏性显著加快模型推理速度。结合SparseML优化库，DeepSparse支持模型剪枝和量化，在CPU上实现卓越性能。支持各种计算机视觉和自然语言处理模型，包括BERT、ViT、ResNet、YOLOv5/8等。此外，DeepSparse现已支持高效的LLM推理，对稀疏量化模型实现多倍加速。可通过PyPI安装，并提供多种API便于部署。

llama2.rs

llama2.rs是一个用Rust开发的Llama2 CPU推理库，专注于提供高性能的推理能力。项目支持4位GPT-Q量化、批量预填充提示标记、SIMD加速和内存映射等技术，实现了70B模型的即时加载。通过Python API，开发者可在普通台式机上运行70B Llama2模型（1 token/s）和7B模型（9 tokens/s）。该项目为大规模语言模型的CPU推理提供了高效且灵活的开源解决方案。

The Local AI Playground

The Local AI Playground是一个免费开源的本地AI管理和推理平台。该应用允许用户在无需GPU的情况下离线体验AI模型，提供简洁的操作界面。平台特点包括高效的模型管理、完整性验证和CPU推理，支持多种量化方式。内置推理服务器方便用户进行本地AI实验。这个平台简化了AI模型的下载、管理和使用过程，适合AI爱好者和开发者使用。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com