#GPU内存优化

PatrickStar入门学习资料汇总-大规模预训练模型并行训练框架

2 个月前
Cover of PatrickStar入门学习资料汇总-大规模预训练模型并行训练框架

FlexGen入门指南 - 在单个GPU上高吞吐量运行大型语言模型

2 个月前
Cover of FlexGen入门指南 - 在单个GPU上高吞吐量运行大型语言模型

BEVFormer_tensorrt: 基于TensorRT的高效BEV 3D目标检测部署方案

3 个月前
Cover of BEVFormer_tensorrt: 基于TensorRT的高效BEV 3D目标检测部署方案

S-LoRA:高效服务数千并发LoRA适配器的创新系统

3 个月前
Cover of S-LoRA:高效服务数千并发LoRA适配器的创新系统

XMem: 长时视频对象分割的新突破

3 个月前
Cover of XMem: 长时视频对象分割的新突破

PatrickStar: 革命性的大规模语言模型并行训练框架

3 个月前
Cover of PatrickStar: 革命性的大规模语言模型并行训练框架

FlexGen: 在单个GPU上高效运行大型语言模型

3 个月前
Cover of FlexGen: 在单个GPU上高效运行大型语言模型
相关项目
Project Cover

FlexGen

FlexGen通过高效的IO卸载、压缩和大批量处理,实现了在单GPU上高吞吐量运行大语言模型。该系统专为高吞吐量任务设计,如信息提取和数据处理,特别适合成本敏感的环境。虽然FlexGen在小批量任务上速度较慢,但在批量处理和低成本硬件上具有显著优势。

Project Cover

PatrickStar

PatrickStar通过其创新的块状内存管理技术,使大型预训练模型训练更加高效且资源节约。该技术优化了内存使用,让硬件资源较少的环境下也能有效训练庞大模型,显著提升训练效率和模型规模,支持多节点超大模型的训练。

Project Cover

XMem

XMem项目采用Atkinson-Shiffrin记忆模型,提供了一种全新的视频对象分割(VOS)方法。通过结合不同时间尺度的记忆单元,有效避免在处理长时视频时出现的计算和GPU内存问题。XMem可处理超过10000帧的视频,在有限GPU资源下仍保持高效,处理速度达每秒20帧,并附带简化版GUI。项目中还提供了详细的训练和推理指南,适用于实验和实际应用。

Project Cover

S-LoRA

S-LoRA系统针对大规模LoRA适配器服务进行优化。采用统一分页、异构批处理和新型张量并行策略,提高内存管理效率和GPU利用率。相较现有技术,S-LoRA提升吞吐量4倍,显著增加可服务适配器数量。这一突破为大规模定制语言模型部署开辟新途径。

Project Cover

BEVFormer_tensorrt

本项目实现BEVFormer和BEVDet在TensorRT上的高效部署,支持FP32/FP16/INT8推理。通过优化TensorRT算子,BEVFormer base模型推理速度提升4倍,模型大小减少90%,GPU内存节省80%。同时支持MMDetection中2D目标检测模型的INT8量化部署。项目提供详细基准测试,展示不同配置下的精度和速度表现。

Project Cover

gemma-2-9b-it-GGUF

本项目提供Google Gemma 2 9B模型的多种量化版本,涵盖从高质量Q8_0到轻量级IQ2_M。详细介绍了各版本特点、文件大小和推荐用途,并附有下载使用指南。这些优化版本在保持性能的同时大幅减小体积,适配不同硬件和内存需求,使模型能在更多设备上运行。

Project Cover

MiniCPM-Llama3-V-2_5-int4

MiniCPM-Llama3-V-2_5-int4通过int4量化技术实现低内存视觉问答功能,仅需9GB显存即可运行。基于Hugging Face框架开发,支持实时图像对话和流式输出,为视觉AI应用提供高效且资源友好的解决方案。

Project Cover

Reflection-Llama-3.1-70B-GGUF

Reflection-Llama-3.1-70B模型的GGUF量化集合,包含从74.98GB到22.24GB的多个版本。采用K-quants和I-quants量化技术,并对embed和output权重进行了特别处理。项目提供了详细的版本特性说明、安装指南以及基于不同硬件配置的选型建议。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号