#GPU内存优化

PatrickStar入门学习资料汇总-大规模预训练模型并行训练框架

2 个月前

PatrickStar 大模型并行训练异构训练 GPU内存优化深度学习 Github 开源项目

2 个月前

FlexGen入门指南 - 在单个GPU上高吞吐量运行大型语言模型

2 个月前

FlexGen 高吞吐量大语言模型 GPU内存优化批处理 Github 开源项目

2 个月前

BEVFormer_tensorrt: 基于TensorRT的高效BEV 3D目标检测部署方案

3 个月前

BEV 3D Detection TensorRT 推理加速量化 GPU内存优化 Github 开源项目

3 个月前

S-LoRA：高效服务数千并发LoRA适配器的创新系统

3 个月前

S-LoRA LoRA适配器大语言模型批处理推理 GPU内存优化 Github 开源项目

3 个月前

XMem: 长时视频对象分割的新突破

3 个月前

XMem 视频对象分割 Atkinson-Shiffrin记忆模型 GPU内存优化 ECCV Github 开源项目

3 个月前

PatrickStar: 革命性的大规模语言模型并行训练框架

3 个月前

PatrickStar 大模型并行训练异构训练 GPU内存优化深度学习 Github 开源项目

3 个月前

FlexGen: 在单个GPU上高效运行大型语言模型

3 个月前

FlexGen 高吞吐量大语言模型 GPU内存优化批处理 Github 开源项目

3 个月前

相关项目

FlexGen

FlexGen通过高效的IO卸载、压缩和大批量处理，实现了在单GPU上高吞吐量运行大语言模型。该系统专为高吞吐量任务设计，如信息提取和数据处理，特别适合成本敏感的环境。虽然FlexGen在小批量任务上速度较慢，但在批量处理和低成本硬件上具有显著优势。

PatrickStar

PatrickStar通过其创新的块状内存管理技术，使大型预训练模型训练更加高效且资源节约。该技术优化了内存使用，让硬件资源较少的环境下也能有效训练庞大模型，显著提升训练效率和模型规模，支持多节点超大模型的训练。

XMem

XMem项目采用Atkinson-Shiffrin记忆模型，提供了一种全新的视频对象分割（VOS）方法。通过结合不同时间尺度的记忆单元，有效避免在处理长时视频时出现的计算和GPU内存问题。XMem可处理超过10000帧的视频，在有限GPU资源下仍保持高效，处理速度达每秒20帧，并附带简化版GUI。项目中还提供了详细的训练和推理指南，适用于实验和实际应用。

S-LoRA

S-LoRA系统针对大规模LoRA适配器服务进行优化。采用统一分页、异构批处理和新型张量并行策略，提高内存管理效率和GPU利用率。相较现有技术，S-LoRA提升吞吐量4倍，显著增加可服务适配器数量。这一突破为大规模定制语言模型部署开辟新途径。

BEVFormer_tensorrt

本项目实现BEVFormer和BEVDet在TensorRT上的高效部署，支持FP32/FP16/INT8推理。通过优化TensorRT算子，BEVFormer base模型推理速度提升4倍，模型大小减少90%，GPU内存节省80%。同时支持MMDetection中2D目标检测模型的INT8量化部署。项目提供详细基准测试，展示不同配置下的精度和速度表现。

gemma-2-9b-it-GGUF

本项目提供Google Gemma 2 9B模型的多种量化版本，涵盖从高质量Q8_0到轻量级IQ2_M。详细介绍了各版本特点、文件大小和推荐用途，并附有下载使用指南。这些优化版本在保持性能的同时大幅减小体积，适配不同硬件和内存需求，使模型能在更多设备上运行。

MiniCPM-Llama3-V-2_5-int4

MiniCPM-Llama3-V-2_5-int4通过int4量化技术实现低内存视觉问答功能，仅需9GB显存即可运行。基于Hugging Face框架开发，支持实时图像对话和流式输出，为视觉AI应用提供高效且资源友好的解决方案。

Reflection-Llama-3.1-70B-GGUF

Reflection-Llama-3.1-70B模型的GGUF量化集合，包含从74.98GB到22.24GB的多个版本。采用K-quants和I-quants量化技术，并对embed和output权重进行了特别处理。项目提供了详细的版本特性说明、安装指南以及基于不同硬件配置的选型建议。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com