#CPU推理

chatllm.cpp学习资料汇总 - 纯C++实现的大型语言模型推理框架

2 个月前
Cover of chatllm.cpp学习资料汇总 - 纯C++实现的大型语言模型推理框架

Llama-2-Open-Source-LLM-CPU-Inference学习资料汇总 - 在CPU上运行开源大语言模型的文档问答系统

2 个月前
Cover of Llama-2-Open-Source-LLM-CPU-Inference学习资料汇总 - 在CPU上运行开源大语言模型的文档问答系统

llama2.rs: 纯Rust实现的高性能Llama 2推理引擎

2 个月前
Cover of llama2.rs: 纯Rust实现的高性能Llama 2推理引擎

ChatLLM.cpp: 高效的CPU大语言模型推理框架

3 个月前
Cover of ChatLLM.cpp: 高效的CPU大语言模型推理框架

在CPU上运行Llama 2和其他开源LLM:本地文档问答的高效解决方案

3 个月前
Cover of 在CPU上运行Llama 2和其他开源LLM:本地文档问答的高效解决方案
相关项目
Project Cover

Llama-2-Open-Source-LLM-CPU-Inference

详细介绍如何在本地CPU上使用Llama 2、C Transformers、GGML和LangChain运行量化开源LLM进行文档问答的指南。内容涵盖工具配置、模型下载和依赖管理,帮助团队实现自我管理或私有部署,满足数据隐私和合规要求,并节省GPU实例的高额费用。

Project Cover

chatllm.cpp

ChatLLM.cpp项目支持从1B到300B多种模型的高效推理,适用于本地电脑的实时聊天。通过优化的KV缓存和并行计算提升内存使用效率,并提供int4/int8量化以减少内存占用。该项目基于ggml库实现,支持Retrieval Augmented Generation、LoRA以及Python和JavaScript绑定等功能。发布了多种最新模型和工具调用,适合深度学习和自监督学习研究者。

Project Cover

deepsparse

DeepSparse是一个专为CPU优化的深度学习推理运行时,通过使用稀疏性显著加快模型推理速度。结合SparseML优化库,DeepSparse支持模型剪枝和量化,在CPU上实现卓越性能。支持各种计算机视觉和自然语言处理模型,包括BERT、ViT、ResNet、YOLOv5/8等。此外,DeepSparse现已支持高效的LLM推理,对稀疏量化模型实现多倍加速。可通过PyPI安装,并提供多种API便于部署。

Project Cover

llama2.rs

llama2.rs是一个用Rust开发的Llama2 CPU推理库,专注于提供高性能的推理能力。项目支持4位GPT-Q量化、批量预填充提示标记、SIMD加速和内存映射等技术,实现了70B模型的即时加载。通过Python API,开发者可在普通台式机上运行70B Llama2模型(1 token/s)和7B模型(9 tokens/s)。该项目为大规模语言模型的CPU推理提供了高效且灵活的开源解决方案。

Project Cover

The Local AI Playground

The Local AI Playground是一个免费开源的本地AI管理和推理平台。该应用允许用户在无需GPU的情况下离线体验AI模型,提供简洁的操作界面。平台特点包括高效的模型管理、完整性验证和CPU推理,支持多种量化方式。内置推理服务器方便用户进行本地AI实验。这个平台简化了AI模型的下载、管理和使用过程,适合AI爱好者和开发者使用。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号