#推理优化

airllm - 在单个4GB GPU上运行70B大模型，无需量化和蒸馏

Github开源项目大语言模型模型压缩AirLLMLlama3.1推理优化

AirLLM优化了推理内存使用，使70B大模型能在单个4GB GPU上运行，无需量化、蒸馏或剪枝。同时，8GB显存可运行405B的Llama3.1。支持多种模型压缩方式，推理速度可提升至3倍。兼容多种大模型，提供详细配置和案例，支持在MacOS上运行。

sparseml - 神经网络优化工具，简化代码实现高效稀疏模型

Github开源项目神经网络模型优化SparseML推理优化稀疏化

SparseML是开源模型压缩工具包，使用剪枝、量化和蒸馏算法优化推理稀疏模型。可导出到ONNX，并与DeepSparse结合，在CPU上实现GPU级性能。适用于稀疏迁移学习和从零开始的稀疏化，兼容主流NLP和CV模型，如BERT、YOLOv5和ResNet-50，实现推理速度和模型大小的显著优化。

segment-anything-fast - 高性能图像分割模型加速框架

Github开源项目PyTorch图像分割推理优化Segment AnythingAI模型加速

segment-anything-fast是基于Facebook's segment-anything的优化版本，专注于提高图像分割模型的性能。通过整合bfloat16、torch.compile和自定义Triton内核等技术，该项目显著提升了模型推理速度。它支持多种优化方法，如动态int8对称量化和2:4稀疏格式，同时保持了简单的安装和使用流程。这使得开发者能够轻松替换原始segment-anything，实现更高效的图像分割。该优化框架适用于需要实时或大规模图像分割处理的应用，如自动驾驶、医疗影像分析或视频编辑等领域，可显著提高处理效率和资源利用率。

efficient-dl-systems - 从GPU架构到模型部署的全面课程

Github开源项目分布式训练模型优化推理优化深度学习系统GPU架构

本项目是一门全面的高效深度学习系统课程，内容涵盖GPU架构、CUDA编程、实验管理、分布式训练、大模型处理、模型部署及推理优化等核心主题。课程结合理论讲座和实践研讨，旨在培养学生掌握深度学习系统的效率优化技能。课程还提供多个实践作业和往年教学资料，适合希望深入了解深度学习系统效率提升的学习者。

self-speculative-decoding - 无损加速大型语言模型的创新推理方案

Github开源项目推理优化LLM加速Self-Speculative Decoding草稿验证层跳过

Self-Speculative Decoding是ACL 2024的一个开源项目，提出了一种无损加速大型语言模型（LLMs）的新方法。该技术通过草稿生成和验证两个阶段，在不增加额外训练和内存的情况下提高LLM推理速度。这一创新方案保证了输出质量和模型兼容性，为LLM加速提供了高效且易于实施的解决方案。

gemma-2B-10M - Gemma 2B模型实现1000万token上下文处理仅需32GB内存

Github开源项目推理优化长上下文内存优化Gemma 2B局部注意力

gemma-2B-10M项目采用递归局部注意力机制，在32GB内存限制下实现了处理1000万token上下文的能力。该项目为Gemma 2B模型提供CUDA优化的推理功能，显著提升了处理效率。项目设计简洁易用，便于开发者快速应用。虽然目前处于早期阶段，但在长文本处理领域展现出巨大潜力，有望推动相关技术的进步。

Qwen2.5-32B-Instruct-GGUF - 全面汇总32B大语言模型量化版本多设备支持

Github开源项目大语言模型模型量化Huggingface推理优化GGUFQwen2.5-32B-Instruct

本项目提供Qwen2.5-32B-Instruct模型的多种量化版本,精度从f16到IQ2_XXS,文件大小9GB至65GB不等。量化模型适用于CPU、GPU等设备,可根据硬件配置选择。项目包含详细的模型选择指南和下载说明,便于用户使用这个32B参数的大语言模型。特别推荐Q6_K、Q5_K和Q4_K系列,以及新型IQ系列量化版本。

zephyr-7b-beta-marlin - 适用于高效4比特推理的LLM模型优化技术

Github开源项目模型量化模型Huggingface推理优化nm-vllmMarlin格式zephyr-7b-beta

项目提供的zephyr-7b-beta模型在GPTQ量化后以Marlin格式保存，专为nm-vllm引擎高效推理优化。该模型支持在本地Python环境中部署，代码示例以及详细指导文档可供参考，确保对量化模型优势的完整展现。

相关文章

Article Cover

AirLLM: 在单个4GB GPU上运行70B大型语言模型

Article Cover

Fast Segment Anything: 快速精准的图像分割新模型

Article Cover

高效深度学习系统:优化深度学习的性能和资源利用

Article Cover

Self-Speculative Decoding: 大语言模型推理加速的创新方法

Article Cover

Gemma 2B - 突破10M上下文长度的开创性模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号