#GPU内存优化

FlexGen - 单GPU高效运行大语言模型的生成引擎
FlexGen高吞吐量大语言模型GPU内存优化批处理Github开源项目
FlexGen通过高效的IO卸载、压缩和大批量处理,实现了在单GPU上高吞吐量运行大语言模型。该系统专为高吞吐量任务设计,如信息提取和数据处理,特别适合成本敏感的环境。虽然FlexGen在小批量任务上速度较慢,但在批量处理和低成本硬件上具有显著优势。
PatrickStar - 通过基于块的内存管理并行训练大型语言模型
PatrickStar大模型并行训练异构训练GPU内存优化深度学习Github开源项目
PatrickStar通过其创新的块状内存管理技术,使大型预训练模型训练更加高效且资源节约。该技术优化了内存使用,让硬件资源较少的环境下也能有效训练庞大模型,显著提升训练效率和模型规模,支持多节点超大模型的训练。
XMem - 长时视频对象分割的解决方案,基于人类多尺度记忆模型
XMem视频对象分割Atkinson-Shiffrin记忆模型GPU内存优化ECCVGithub开源项目
XMem项目采用Atkinson-Shiffrin记忆模型,提供了一种全新的视频对象分割(VOS)方法。通过结合不同时间尺度的记忆单元,有效避免在处理长时视频时出现的计算和GPU内存问题。XMem可处理超过10000帧的视频,在有限GPU资源下仍保持高效,处理速度达每秒20帧,并附带简化版GUI。项目中还提供了详细的训练和推理指南,适用于实验和实际应用。
S-LoRA - 大规模并发LoRA适配器高效服务系统
S-LoRALoRA适配器大语言模型批处理推理GPU内存优化Github开源项目
S-LoRA系统针对大规模LoRA适配器服务进行优化。采用统一分页、异构批处理和新型张量并行策略,提高内存管理效率和GPU利用率。相较现有技术,S-LoRA提升吞吐量4倍,显著增加可服务适配器数量。这一突破为大规模定制语言模型部署开辟新途径。
BEVFormer_tensorrt - BEVFormer和BEVDet的TensorRT高效部署方案
BEV 3D DetectionTensorRT推理加速量化GPU内存优化Github开源项目
本项目实现BEVFormer和BEVDet在TensorRT上的高效部署,支持FP32/FP16/INT8推理。通过优化TensorRT算子,BEVFormer base模型推理速度提升4倍,模型大小减少90%,GPU内存节省80%。同时支持MMDetection中2D目标检测模型的INT8量化部署。项目提供详细基准测试,展示不同配置下的精度和速度表现。
gemma-2-9b-it-GGUF - AI语言模型量化版本满足多种硬件需求
gemma-2-9b-it模型量化开源项目模型GithubGPU内存优化机器学习文件格式转换Huggingface
本项目提供Google Gemma 2 9B模型的多种量化版本,涵盖从高质量Q8_0到轻量级IQ2_M。详细介绍了各版本特点、文件大小和推荐用途,并附有下载使用指南。这些优化版本在保持性能的同时大幅减小体积,适配不同硬件和内存需求,使模型能在更多设备上运行。
MiniCPM-Llama3-V-2_5-int4 - 轻量级视觉问答模型实现实时图像对话
Github开源项目GPU内存优化图像识别Huggingface深度学习MiniCPM-Llama3-V模型量化模型
MiniCPM-Llama3-V-2_5-int4通过int4量化技术实现低内存视觉问答功能,仅需9GB显存即可运行。基于Hugging Face框架开发,支持实时图像对话和流式输出,为视觉AI应用提供高效且资源友好的解决方案。
Reflection-Llama-3.1-70B-GGUF - Llama-3.1-70B模型的GGUF量化版本集合
Github模型开源项目深度学习GPU内存优化HuggingfaceLlama人工智能推理模型量化
Reflection-Llama-3.1-70B模型的GGUF量化集合,包含从74.98GB到22.24GB的多个版本。采用K-quants和I-quants量化技术,并对embed和output权重进行了特别处理。项目提供了详细的版本特性说明、安装指南以及基于不同硬件配置的选型建议。