Logo

#量化

llama.onnx入门指南 - LLaMa/RWKV模型的ONNX转换与量化工具

1 个月前
Cover of llama.onnx入门指南 - LLaMa/RWKV模型的ONNX转换与量化工具

docker-llama2-chat学习资料汇总 - 三步快速部署LLaMA2大模型

1 个月前
Cover of docker-llama2-chat学习资料汇总 - 三步快速部署LLaMA2大模型

SqueezeLLM学习资料汇总 - 高效压缩大语言模型的开源项目

1 个月前
Cover of SqueezeLLM学习资料汇总 - 高效压缩大语言模型的开源项目

Awesome-Efficient-LLM学习资料汇总 - 高效大语言模型压缩与加速技术

1 个月前
Cover of Awesome-Efficient-LLM学习资料汇总 - 高效大语言模型压缩与加速技术

vLLM入门学习资料汇总 - 高吞吐量、内存高效的LLM推理和服务引擎

1 个月前
Cover of vLLM入门学习资料汇总 - 高吞吐量、内存高效的LLM推理和服务引擎

LLM-FineTuning-Large-Language-Models学习资料汇总 - 大型语言模型微调技术与项目实践

1 个月前
Cover of LLM-FineTuning-Large-Language-Models学习资料汇总 - 大型语言模型微调技术与项目实践

OmniQuant入门学习资料-Omnidirectionally Calibrated Quantization for LLMs

1 个月前
Cover of OmniQuant入门学习资料-Omnidirectionally Calibrated Quantization for LLMs

rtp-llm学习资料汇总 - 阿里巴巴高性能LLM推理引擎

1 个月前
Cover of rtp-llm学习资料汇总 - 阿里巴巴高性能LLM推理引擎

lmdeploy入门学习资料汇总 - 高效的LLM压缩部署和服务工具包

1 个月前
Cover of lmdeploy入门学习资料汇总 - 高效的LLM压缩部署和服务工具包

Text Generation Inference入门指南 - 高性能大语言模型推理服务

1 个月前
Cover of Text Generation Inference入门指南 - 高性能大语言模型推理服务

相关项目

Project Cover
vllm
vLLM是一个高性能且易用的LLM推理与服务平台,具备PagedAttention内存管理、CUDA/HIP图形加速、量化支持、并行解码算法及流式输出等技术优势。vLLM无缝集成Hugging Face模型,兼容多种硬件设备,支持分布式推理和OpenAI API。最新版本支持Llama 3.1和FP8量化。用户可通过pip安装并参考详细文档快速入门。
Project Cover
lmdeploy
LMDeploy是由MMRazor和MMDeploy团队开发的工具包,专注于LLM的压缩、部署和服务。它提供高效的推理性能、有效的量化方法和便捷的分布式服务,显著提升请求吞吐量。支持多种量化方式和多模型服务,兼容性强。最新版本集成了TurboMind和PyTorch推理引擎,支持多种LLMs和VLMs模型,降低开发者的技术门槛。
Project Cover
LLM-FineTuning-Large-Language-Models
本项目介绍了如何使用ORPO、QLoRA、GPTQ等技术对大型语言模型(LLM)进行微调,包含具体实例和代码片段。项目还提供与这些技术相关的YouTube视频链接,提供全面的学习资料。此外,项目还包含各类实用工具和技术说明,帮助用户更好地理解和应用这些前沿技术。适合有一定编程基础的研究人员和开发者参考。
Project Cover
curated-transformers
Curated Transformers是一个为PyTorch设计的转换器库,提供最新的模型和可复用组件。支持最新的转换器模型,如Falcon、Llama和Dolly v2,具备类型注释和极少的依赖性,适合教育和生产环境。支持集成至spaCy 3.7,快速安装及支持高效的CUDA优化。
Project Cover
llama.onnx
此项目提供LLaMa-7B和RWKV-400M的ONNX模型与独立演示,无需torch或transformers,适用于2GB内存设备。项目包括内存池支持、温度与topk logits调整,并提供导出混合精度和TVM转换的详细步骤,适用于嵌入式设备和分布式系统的大语言模型部署和推理。
Project Cover
Awesome-Efficient-LLM
Awesome-Efficient-LLM项目汇总了针对大型语言模型优化的关键技术,包括知识蒸馏、网络剪枝、量化和加速推理等,支持研究者和开发者获取最新的效率提升方法和学术文献。该平台定期更新,提供过去60天内的相关研究成果,便于用户系统地探索和应用这些高效技术。
Project Cover
SqueezeLLM
SqueezeLLM通过密集与稀疏量化方法降低大语言模型的内存占用并提升性能,将权重矩阵拆分为易量化的密集组件和保留关键部分的稀疏组件,实现更小内存占用、相同延迟和更高精度。支持包括LLaMA、Vicuna和XGen在内的多个热门模型,提供3位和4位量化选项,适用于不同稀疏度水平。最新更新涵盖Mistral模型支持和自定义模型量化代码发布。
Project Cover
docker-llama2-chat
项目介绍了如何通过Docker快速部署LLaMA2大模型,支持官方7B、13B模型及中文7B模型。用户只需三步即可上手,并提供量化版本支持CPU推理。详细教程和一键运行脚本帮助用户轻松构建和运行模型。
Project Cover
text-generation-inference
Text Generation Inference (TGI) 是一个部署和服务大型语言模型的工具包。它支持Llama、Falcon、StarCoder、BLOOM、GPT-NeoX等流行的开源模型,提供简便的启动器、分布式追踪、张量并行、多GPU推理加速、令牌流等特性。TGI还支持权重量化和安全张量加载,具备自定义提示生成和微调功能,兼容Nvidia、AMD、Inferentia、Intel GPU、Gaudi和Google TPU等硬件平台。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号