Logo

#GPU内存优化

PatrickStar入门学习资料汇总-大规模预训练模型并行训练框架

1 个月前
Cover of PatrickStar入门学习资料汇总-大规模预训练模型并行训练框架

BEVFormer_tensorrt: 基于TensorRT的高效BEV 3D目标检测部署方案

2 个月前
Cover of BEVFormer_tensorrt: 基于TensorRT的高效BEV 3D目标检测部署方案

XMem: 长时视频对象分割的新突破

2 个月前
Cover of XMem: 长时视频对象分割的新突破

FlexGen: 在单个GPU上高效运行大型语言模型

2 个月前
Cover of FlexGen: 在单个GPU上高效运行大型语言模型

FlexGen入门指南 - 在单个GPU上高吞吐量运行大型语言模型

1 个月前
Cover of FlexGen入门指南 - 在单个GPU上高吞吐量运行大型语言模型

S-LoRA:高效服务数千并发LoRA适配器的创新系统

2 个月前
Cover of S-LoRA:高效服务数千并发LoRA适配器的创新系统

PatrickStar: 革命性的大规模语言模型并行训练框架

2 个月前
Cover of PatrickStar: 革命性的大规模语言模型并行训练框架

相关项目

Project Cover
FlexGen
FlexGen通过高效的IO卸载、压缩和大批量处理,实现了在单GPU上高吞吐量运行大语言模型。该系统专为高吞吐量任务设计,如信息提取和数据处理,特别适合成本敏感的环境。虽然FlexGen在小批量任务上速度较慢,但在批量处理和低成本硬件上具有显著优势。
Project Cover
PatrickStar
PatrickStar通过其创新的块状内存管理技术,使大型预训练模型训练更加高效且资源节约。该技术优化了内存使用,让硬件资源较少的环境下也能有效训练庞大模型,显著提升训练效率和模型规模,支持多节点超大模型的训练。
Project Cover
XMem
XMem项目采用Atkinson-Shiffrin记忆模型,提供了一种全新的视频对象分割(VOS)方法。通过结合不同时间尺度的记忆单元,有效避免在处理长时视频时出现的计算和GPU内存问题。XMem可处理超过10000帧的视频,在有限GPU资源下仍保持高效,处理速度达每秒20帧,并附带简化版GUI。项目中还提供了详细的训练和推理指南,适用于实验和实际应用。
Project Cover
S-LoRA
S-LoRA系统针对大规模LoRA适配器服务进行优化。采用统一分页、异构批处理和新型张量并行策略,提高内存管理效率和GPU利用率。相较现有技术,S-LoRA提升吞吐量4倍,显著增加可服务适配器数量。这一突破为大规模定制语言模型部署开辟新途径。
Project Cover
BEVFormer_tensorrt
本项目实现BEVFormer和BEVDet在TensorRT上的高效部署,支持FP32/FP16/INT8推理。通过优化TensorRT算子,BEVFormer base模型推理速度提升4倍,模型大小减少90%,GPU内存节省80%。同时支持MMDetection中2D目标检测模型的INT8量化部署。项目提供详细基准测试,展示不同配置下的精度和速度表现。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号