#量化

PINTO_model_zoo：多框架深度学习模型转换与优化的宝库

3 个月前

PINTO_model_zoo 量化 TensorFlow ONNX PyTorch Github 开源项目

3 个月前

GGUF Tools: 强大的GGUF文件处理工具集

3 个月前

GGUF 机器学习模型比较量化 API Github 开源项目

3 个月前

LLaMA/RWKV ONNX模型:高效推理与量化的开源实现

3 个月前

LLaMa RWKV onnx模型量化推理 Github 开源项目

3 个月前

Docker LLaMA2 Chat:三步上手大型语言模型

3 个月前

Github 开源项目 Docker LLaMA2 MetaAI Transformers 量化

3 个月前

SqueezeLLM: 大语言模型的高效量化压缩技术

3 个月前

SqueezeLLM 量化大语言模型内存优化模型压缩 Github 开源项目

3 个月前

OmniQuant: 大语言模型的全方位校准量化技术

3 个月前

OmniQuant 量化大语言模型 LLaMA 高效QAT Github 开源项目

3 个月前

RTP-LLM: 阿里巴巴的高性能大语言模型推理引擎

3 个月前

rtp-llm 大语言模型 CUDA 量化多模态输入 Github 开源项目

3 个月前

Awesome-Efficient-LLM: 大型语言模型高效化技术的最新进展

3 个月前

Large Language Models 模型剪枝知识蒸馏量化效率优化 Github 开源项目

3 个月前

Curated Transformers: 可组合的最先进Transformer模型库

3 个月前

Curated Transformers PyTorch transformer模型量化 spaCy集成 Github 开源项目

3 个月前

LMDeploy: 高效的大语言模型压缩、部署与服务工具包

3 个月前

LMDeploy 量化推理多模态模型部署 Github 开源项目

3 个月前

相关项目

vllm

vLLM是一个高性能且易用的LLM推理与服务平台，具备PagedAttention内存管理、CUDA/HIP图形加速、量化支持、并行解码算法及流式输出等技术优势。vLLM无缝集成Hugging Face模型，兼容多种硬件设备，支持分布式推理和OpenAI API。最新版本支持Llama 3.1和FP8量化。用户可通过pip安装并参考详细文档快速入门。

lmdeploy

LMDeploy是由MMRazor和MMDeploy团队开发的工具包，专注于LLM的压缩、部署和服务。它提供高效的推理性能、有效的量化方法和便捷的分布式服务，显著提升请求吞吐量。支持多种量化方式和多模型服务，兼容性强。最新版本集成了TurboMind和PyTorch推理引擎，支持多种LLMs和VLMs模型，降低开发者的技术门槛。

LLM-FineTuning-Large-Language-Models

本项目介绍了如何使用ORPO、QLoRA、GPTQ等技术对大型语言模型（LLM）进行微调，包含具体实例和代码片段。项目还提供与这些技术相关的YouTube视频链接，提供全面的学习资料。此外，项目还包含各类实用工具和技术说明，帮助用户更好地理解和应用这些前沿技术。适合有一定编程基础的研究人员和开发者参考。

curated-transformers

Curated Transformers是一个为PyTorch设计的转换器库，提供最新的模型和可复用组件。支持最新的转换器模型，如Falcon、Llama和Dolly v2，具备类型注释和极少的依赖性，适合教育和生产环境。支持集成至spaCy 3.7，快速安装及支持高效的CUDA优化。

llama.onnx

此项目提供LLaMa-7B和RWKV-400M的ONNX模型与独立演示，无需torch或transformers，适用于2GB内存设备。项目包括内存池支持、温度与topk logits调整，并提供导出混合精度和TVM转换的详细步骤，适用于嵌入式设备和分布式系统的大语言模型部署和推理。

Awesome-Efficient-LLM

Awesome-Efficient-LLM项目汇总了针对大型语言模型优化的关键技术，包括知识蒸馏、网络剪枝、量化和加速推理等，支持研究者和开发者获取最新的效率提升方法和学术文献。该平台定期更新，提供过去60天内的相关研究成果，便于用户系统地探索和应用这些高效技术。

SqueezeLLM

SqueezeLLM通过密集与稀疏量化方法降低大语言模型的内存占用并提升性能，将权重矩阵拆分为易量化的密集组件和保留关键部分的稀疏组件，实现更小内存占用、相同延迟和更高精度。支持包括LLaMA、Vicuna和XGen在内的多个热门模型，提供3位和4位量化选项，适用于不同稀疏度水平。最新更新涵盖Mistral模型支持和自定义模型量化代码发布。

docker-llama2-chat

项目介绍了如何通过Docker快速部署LLaMA2大模型，支持官方7B、13B模型及中文7B模型。用户只需三步即可上手，并提供量化版本支持CPU推理。详细教程和一键运行脚本帮助用户轻松构建和运行模型。

text-generation-inference

Text Generation Inference (TGI) 是一个部署和服务大型语言模型的工具包。它支持Llama、Falcon、StarCoder、BLOOM、GPT-NeoX等流行的开源模型，提供简便的启动器、分布式追踪、张量并行、多GPU推理加速、令牌流等特性。TGI还支持权重量化和安全张量加载，具备自定义提示生成和微调功能，兼容Nvidia、AMD、Inferentia、Intel GPU、Gaudi和Google TPU等硬件平台。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com