#ExLlama

ExLlamaV2: 高效的本地大语言模型推理库

3 个月前

ExLlama AI模型 GPU加速 CUDA 深度学习 Github 开源项目

3 个月前

相关项目

exllama

ExLlama是一个基于Python/C++/CUDA的独立实现,针对4位GPTQ权重进行了优化,旨在提高现代GPU上的运行速度和内存效率。该项目支持NVIDIA 30系列及更新的GPU,可处理Llama、Koala和WizardLM等多种大型语言模型。ExLlama具备基准测试、聊天机器人示例和Web界面等功能,同时支持Docker部署。尽管仍在开发中,项目已展现出卓越的性能和效率。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com