#量化

llama.onnx入门指南 - LLaMa/RWKV模型的ONNX转换与量化工具

2 个月前

LLaMa RWKV onnx模型量化推理 Github 开源项目

2 个月前

LLM-FineTuning-Large-Language-Models学习资料汇总 - 大型语言模型微调技术与项目实践

2 个月前

LLM Fine-tuning 量化 PEFT QLoRA Github 开源项目

2 个月前

docker-llama2-chat学习资料汇总 - 三步快速部署LLaMA2大模型

2 个月前

Github 开源项目 Docker LLaMA2 MetaAI Transformers 量化

2 个月前

OmniQuant入门学习资料-Omnidirectionally Calibrated Quantization for LLMs

2 个月前

OmniQuant 量化大语言模型 LLaMA 高效QAT Github 开源项目

2 个月前

SqueezeLLM学习资料汇总 - 高效压缩大语言模型的开源项目

2 个月前

SqueezeLLM 量化大语言模型内存优化模型压缩 Github 开源项目

2 个月前

rtp-llm学习资料汇总 - 阿里巴巴高性能LLM推理引擎

2 个月前

rtp-llm 大语言模型 CUDA 量化多模态输入 Github 开源项目

2 个月前

Awesome-Efficient-LLM学习资料汇总 - 高效大语言模型压缩与加速技术

2 个月前

Large Language Models 模型剪枝知识蒸馏量化效率优化 Github 开源项目

2 个月前

lmdeploy入门学习资料汇总 - 高效的LLM压缩部署和服务工具包

2 个月前

LMDeploy 量化推理多模态模型部署 Github 开源项目

2 个月前

vLLM入门学习资料汇总 - 高吞吐量、内存高效的LLM推理和服务引擎

2 个月前

vLLM LLM服务量化 PagedAttention 高吞吐量 Github 开源项目

2 个月前

Text Generation Inference入门指南 - 高性能大语言模型推理服务

2 个月前

Text Generation Inference Hugging Face 大语言模型分布式追踪量化 Github 开源项目

2 个月前

相关项目

vllm

vLLM是一个高性能且易用的LLM推理与服务平台，具备PagedAttention内存管理、CUDA/HIP图形加速、量化支持、并行解码算法及流式输出等技术优势。vLLM无缝集成Hugging Face模型，兼容多种硬件设备，支持分布式推理和OpenAI API。最新版本支持Llama 3.1和FP8量化。用户可通过pip安装并参考详细文档快速入门。

lmdeploy

LMDeploy是由MMRazor和MMDeploy团队开发的工具包，专注于LLM的压缩、部署和服务。它提供高效的推理性能、有效的量化方法和便捷的分布式服务，显著提升请求吞吐量。支持多种量化方式和多模型服务，兼容性强。最新版本集成了TurboMind和PyTorch推理引擎，支持多种LLMs和VLMs模型，降低开发者的技术门槛。

LLM-FineTuning-Large-Language-Models

本项目介绍了如何使用ORPO、QLoRA、GPTQ等技术对大型语言模型（LLM）进行微调，包含具体实例和代码片段。项目还提供与这些技术相关的YouTube视频链接，提供全面的学习资料。此外，项目还包含各类实用工具和技术说明，帮助用户更好地理解和应用这些前沿技术。适合有一定编程基础的研究人员和开发者参考。

curated-transformers

Curated Transformers是一个为PyTorch设计的转换器库，提供最新的模型和可复用组件。支持最新的转换器模型，如Falcon、Llama和Dolly v2，具备类型注释和极少的依赖性，适合教育和生产环境。支持集成至spaCy 3.7，快速安装及支持高效的CUDA优化。

llama.onnx

此项目提供LLaMa-7B和RWKV-400M的ONNX模型与独立演示，无需torch或transformers，适用于2GB内存设备。项目包括内存池支持、温度与topk logits调整，并提供导出混合精度和TVM转换的详细步骤，适用于嵌入式设备和分布式系统的大语言模型部署和推理。

Awesome-Efficient-LLM

Awesome-Efficient-LLM项目汇总了针对大型语言模型优化的关键技术，包括知识蒸馏、网络剪枝、量化和加速推理等，支持研究者和开发者获取最新的效率提升方法和学术文献。该平台定期更新，提供过去60天内的相关研究成果，便于用户系统地探索和应用这些高效技术。

SqueezeLLM

SqueezeLLM通过密集与稀疏量化方法降低大语言模型的内存占用并提升性能，将权重矩阵拆分为易量化的密集组件和保留关键部分的稀疏组件，实现更小内存占用、相同延迟和更高精度。支持包括LLaMA、Vicuna和XGen在内的多个热门模型，提供3位和4位量化选项，适用于不同稀疏度水平。最新更新涵盖Mistral模型支持和自定义模型量化代码发布。

docker-llama2-chat

项目介绍了如何通过Docker快速部署LLaMA2大模型，支持官方7B、13B模型及中文7B模型。用户只需三步即可上手，并提供量化版本支持CPU推理。详细教程和一键运行脚本帮助用户轻松构建和运行模型。

text-generation-inference

Text Generation Inference (TGI) 是一个部署和服务大型语言模型的工具包。它支持Llama、Falcon、StarCoder、BLOOM、GPT-NeoX等流行的开源模型，提供简便的启动器、分布式追踪、张量并行、多GPU推理加速、令牌流等特性。TGI还支持权重量化和安全张量加载，具备自定义提示生成和微调功能，兼容Nvidia、AMD、Inferentia、Intel GPU、Gaudi和Google TPU等硬件平台。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com