#GPU

introtodeeplearning - MIT开源深度学习课程,掌握云端实验技能
MIT Introduction to Deep Learning谷歌ColaboratoryPythonJupyter notebookGPUGithub开源项目
MIT的深度学习课程提供完整的代码和实验指导,帮助学习者自主完成实验。课程内容包括讲座视频、幻灯片及云端运行的Jupyter笔记本。实验在Google Colaboratory中运行,无需下载。课程使用mitdeeplearning Python包,简化编程过程。详细的实验提交说明和竞赛指南确保学习者掌握深度学习技能。
pytorch-doc-zh - PyTorch深度学习库中文文档与教程,支持GPU和CPU优化
PyTorch深度学习GPUtensor库中文文档Github开源项目
提供最新的PyTorch中文文档与教程,涵盖深度学习和张量优化,支持GPU和CPU。包括2.0版本中文翻译、最新英文教程和文档,以及丰富的学习资源和社区支持,适合希望深入了解和使用PyTorch的中文用户。
skypilot - 高效部署AI和批处理作业至全球云平台
SkyPilot云计算LLMGPU成本节约Github开源项目热门
SkyPilot是一个为LLMs和AI提供的框架,支持在任意云平台运行,最大化GPU利用率和降低成本。该框架通过自动管理作业队列,简化了扩展操作,还提供了对象存储的简便接入。用户可以在全球任一区域的云中自动故障转移,使用管理型Spot实例以较低成本运行,同时自动选择成本最优的机型和区域。
mixtral-offloading - Mixtral-8x7B模型高效推理的实现方法
Mixtral-8x7BHQQMoEGPUCPUGithub开源项目
该项目实现了Mixtral-8x7B模型的高效推理,使用混合量化和MoE卸载策略。通过HQQ量化方案分别处理注意力层和专家层,使模型适应GPU和CPU内存。每层的专家单独卸载并在需要时重新加载到GPU,活跃专家存储在LRU缓存中以减少GPU-RAM通信。更多技术细节和结果请参阅技术报告。
maxtext - 高性能与可扩展的开源大模型解决方案,支持TPUs与GPUs
MaxTextTPUGPUJaxLLMGithub开源项目
MaxText是一个高性能、可扩展的开源大模型,采用纯Python和Jax编写,专为Google Cloud的TPUs和GPUs设计。支持训练和推理,能够从单个主机扩展到大型集群,且无需复杂优化。MaxText适用于研究和生产中的大型语言模型项目,支持Llama2、Mistral和Gemma模型,并提供详细的入门指南和性能测试结果。
LLM-Training-Puzzles - 大型语言模型训练中的内存效率与计算管道优化
LLM Training PuzzlesGPU内存效率计算流水线AIGithub开源项目
本项目包含8个在多GPU环境下训练大型语言模型的挑战性谜题,旨在通过实践掌握内存效率和计算管道优化的关键训练原理。尽管大多数人没有机会在成千上万台计算机上进行训练,这些技能对现代AI的发展至关重要。推荐使用Colab运行这些谜题,提供便捷的上手体验。
helix - 私有部署人工智能平台
HelixMLGenAI私有部署AI平台GPUGithub开源项目
Helix是一款为企业提供的私有部署人工智能平台,允许自主控制数据安全并本地部署AI技术。平台支持简便的模型微调,实现拖放操作即可完成,适合处理语言和图像模型等任务。Helix通过优化GPU内存和响应时间的权衡,为企业提供高效、可扩展的AI解决方案,特别适用于需要保持数据隐私和数据安全的场合。Helix助力企业轻松引入开源AI的顶尖技术,开启私有人工智能的应用实践。
WebGPT - 基于WebGPU的Transformer模型实现与性能分析
WebGPTWebGPUGPU模型JavaScriptGithub开源项目
WebGPT项目是一款基于WebGPU的Transformer模型应用,使用纯JavaScript和HTML实现。该项目不仅用于技术演示,同时也作为教育资源,支持在主流浏览器中运行,并能管理最多500M参数的模型。主要优化在Chrome v113和Edge Canary等浏览器上,通过WebGPU技术提高运行效率,适合用于学习和研究深度学习模型。
LLaMa2lang - 优化LLaMa3-8B模型性能,支持多语言微调和翻译
LLaMa3语言微调翻译RAGGPUGithub开源项目
LLaMa2lang提供便捷脚本,微调LLaMa3-8B模型以适应不同语言。结合RAG和翻译模型,将数据集OASST1翻译为目标语言,进行数据集成和细调,并支持推理。支持DPO和ORPO等优化方法,进一步提升模型回答质量,兼容多个基础模型与翻译架构。
DNABERT - DNABERT:用于基因组DNA语言处理的双向编码器模型
DNABERT基因组预训练模型GPUBERTGithub开源项目
DNABERT提供完整的源码、使用示例、预训练和微调模型,适用于各类基因组DNA语言处理任务。该项目利用Huggingface的扩展工具,增添了多任务支持和高效的可视化功能。最新版DNABERT-2不仅提升了多物种基因组的处理能力,还发布了全面的Genome Understanding Evaluation (GUE)基准测试,涵盖28个数据集。
ONNX-YOLOv8-Object-Detection - 将YOLOv8模型转换为ONNX格式的方法
ONNXYOLOv8目标检测模型转换GPUGithub开源项目
本项目提供了一种将YOLOv8模型转换为ONNX格式的高效方法,支持在NVIDIA GPU或CPU上进行对象检测。确保输入图片尺寸与模型要求一致,以获得最佳检测精度。项目配有详细的安装指南和推理示例,包括图片、摄像头和视频推理,方便开发者快速上手并应用于实际场景。
stable-diffusion-docker - 多功能 GPU 加速的 Stable Diffusion Docker 容器
Stable DiffusionDockerHuggingfaceGPU模型Github开源项目
Stable Diffusion Docker 容器在支持 CUDA 的 GPU 上运行,通过官方模型实现高质量图像生成。支持从文本生成图像、图像修改、深度引导和图像修复等功能,适用多种应用场景。最低要求 8GB VRAM 的 GPU,并提供设备选择和内存优化选项。详细使用指南和示例帮助用户快速入门。
carefree-creator - 开源AI创作工具,集成多种生成模型
carefree-creatorAI绘图PythonpytorchGPUGithub开源项目
`carefree-creator`是一个开源的AI创作工具,集成了多种生成模型,基于`carefree-learn`构建,支持Python>=3.8和pytorch>=1.12.0。项目提供多种节省GPU RAM的加载方式,并支持CLI和Docker安装。详细的硬件要求与使用指南请见Wiki页面。
GradCache - 突破GPU/TPU内存限制,实现对比学习无限扩展
Gradient Cache对比学习PytorchJAXGPUGithub开源项目
Gradient Cache技术突破了GPU/TPU内存限制,可以无限扩展对比学习的批处理大小。仅需一个GPU即可完成原本需要8个V100 GPU的训练,并能够用更具成本效益的高FLOP低内存系统替换大内存GPU/TPU。该项目支持Pytorch和JAX框架,并已整合至密集段落检索工具DPR。
Person_reID_baseline_pytorch - 小巧、友好、强大的 pytorch 工具
Pytorch ReID对象识别深度学习GPU教程Github开源项目
Pytorch ReID是一个高效且易用的对象重识别代码库,支持多种先进的模型与损失函数,如ResNet、Swin Transformer和Circle Loss。该项目自2017年起持续更新,拥有详细的教程与训练评估功能,性能在多篇顶级会议论文中得到验证,适合各种经验水平的用户使用。
slowllama - 在Apple和nVidia设备上微调Llama2和CodeLLama模型
slowllamaLlama2CodeLLamaM1/M2设备GPUGithub开源项目
slowllama是一个专注于微调Llama2和CodeLLama模型的开源项目,支持70B/35B模型版本,并可在Apple M1/M2设备(如Macbook Air、Mac Mini)或消费级nVidia GPU上运行。通过将模型部分数据转储到SSD或主内存,该项目避免使用量化技巧,优化正向和反向传递性能。采用LoRA方法限制参数更新,操作步骤详尽,包括依赖安装、模型下载和配置脚本,是在资源有限环境下进行大模型微调的理想选择。
CCTag - 检测和定位同心圆标记的高效工具库
CCTag检测计算机视觉GPUCUDAGithub开源项目
CCTag库是一款用于检测和定位同心圆标记的高效工具,兼容CPU和GPU实现。基于CVPR 2016会议论文,该库在严苛条件下表现出色。支持CUDA 8.0及更新版本,建议使用平面支撑材料以保证检测准确性。提供详细文档和持续集成支持,适用于Windows和Linux系统。
tiny-cuda-nn - 专注于快速训练和查询神经网络的开源框架
Tiny CUDA Neural Networks深度学习CUDAC++编程GPUGithub开源项目
Tiny CUDA Neural Networks是一个紧凑、高效的开源框架,专注于快速训练和查询神经网络。它包含优化的多层感知器(MLP)和多分辨率哈希编码,并支持多种输入编码、损失函数和优化器。适用于NVIDIA GPU,通过C++/CUDA API和PyTorch扩展,助力高性能计算和深度学习项目。
pytorch_scatter - 优化分散操作的 PyTorch 扩展库
PyTorch数据处理高性能计算CPUGPUGithub开源项目
该扩展库为PyTorch提供了高效的稀疏更新和分段操作,包含scatter、segment_coo和segment_csr,支持sum、mean、min和max等归约方式。操作可适用于不同数据类型,并支持CPU和GPU。复合功能包括scatter_std、scatter_logsumexp、scatter_softmax和scatter_log_softmax。安装过程简单,适用于各大操作系统和PyTorch/CUDA组合。
BMW-TensorFlow-Training-GUI - 简化TensorFlow 2模型训练的工具
TensorflowDockerTensorBoardGPUDeep LearningGithub开源项目
此开源项目提供用户轻松开始TensorFlow 2深度学习模型训练的工具。用户仅需提供标注数据集,并通过TensorBoard监控训练过程。项目支持内置推理REST API,CUDA 11以及多GPU训练,推荐在Ubuntu 18.04和Google Chrome浏览器环境下使用。
kaito - Kubernetes集群AI/ML模型自动化部署与管理工具
KubernetesAIGPU大型模型自动化Github开源项目
Kaito是一款专为Kubernetes集群设计的AI/ML模型自动化管理工具。它支持falcon和phi-3等开源大模型,通过容器镜像管理模型文件,提供预设配置,自动配置GPU节点,并利用Microsoft Container Registry托管模型镜像。Kaito显著简化了在Kubernetes环境中部署和管理大型AI推理模型的过程,为开发者和运维人员提供了高效、便捷的解决方案。
mistral-finetune - 基于LoRA技术的Mistral模型高效微调框架
Mistral-finetuneLoRA微调模型训练GPUGithub开源项目
mistral-finetune是一个基于LoRA技术的轻量级框架,通过仅训练1-2%的额外权重来实现Mistral模型的高效微调。该框架支持多GPU单节点训练,适合A100或H100 GPU使用。它提供简化的数据格式要求和验证工具,支持指令跟随和函数调用等多种训练模式,适用于各类微调需求。
blackjax - JAX贝叶斯采样库 支持CPU和GPU运算
BlackJAXJAX采样器概率编程GPUGithub开源项目
BlackJAX是一个为JAX开发的贝叶斯采样库,支持CPU和GPU计算。它提供多种采样器,可与概率编程语言集成。适用于需要采样器的研究人员、算法开发者和概率编程语言开发者。其模块化设计便于创建和定制采样算法,促进采样算法研究。BlackJAX通过简洁API和高性能,连接了简单框架与可定制库。
xtts-streaming-server - Docker化流式文本转语音服务 支持GPU加速与模型定制
XTTS流式服务器DockerGPU语音合成Github开源项目
xtts-streaming-server是一个开源的Docker化流式文本转语音服务。该项目支持GPU加速,提供预构建镜像和自定义构建选项,并可加载微调模型。项目包含简易部署方法和测试工具,适合快速构建演示环境。需注意,当前版本不支持并发流式请求,主要用于演示目的。使用前需同意CPML许可协议。
accelerated-scan - GPU加速的并行扫描算法高效解决一阶递归
Accelerated ScanGPU并行计算CUDATritonGithub开源项目
accelerated-scan是一个Python包,实现了GPU上高效的一阶并行关联扫描。该项目采用分块处理算法和GPU通信原语,能快速处理状态空间模型和线性RNN中的一阶递归问题。支持前向和后向扫描,提供C++ CUDA内核和Triton实现,在不同序列长度下均有出色性能表现。适用于深度学习和信号处理等需要高性能递归计算的领域。
ComfyUI - 模块化Stable Diffusion工作流设计与执行工具
ComfyUIAI绘图Stable Diffusion工作流GPUGithub开源项目
ComfyUI是一个开源的Stable Diffusion工作流设计工具。它采用图形化界面,支持通过节点和流程图创建复杂的AI图像生成流程。ComfyUI兼容多种Stable Diffusion模型,包括SD1.x、SD2.x和SDXL等。该工具具有异步队列系统和智能内存管理,优化了资源使用。ComfyUI还集成了LoRA、ControlNet等技术,可保存和加载完整工作流,为用户提供灵活的AI图像生成体验。
stable-diffusion-nvidia-docker - 基于Docker的Stable Diffusion简易部署方案
Stable DiffusionAI绘图DockerGPU多GPU支持Github开源项目
该项目为Stable Diffusion模型提供基于Docker的部署方案,适用于Ubuntu和Windows系统。通过简单的Web UI界面,用户可在GPU设备上轻松运行Stable Diffusion,支持多GPU推理、图像到图像转换和图像修复功能。项目集成了Stable Diffusion 2.0模型,为AI图像生成技术的使用提供便捷途径。
cog-llama-template - 使用Cog工具构建和部署多版本LLaMA模型指南
LLaMACogGPU模型部署AI语言模型Github开源项目
本项目提供使用Cog工具构建和部署多版本LLaMA模型的详细指南。涵盖从权重准备到Replicate平台部署的全过程,支持7B、13B和70B规模的LLaMA和LLaMA2模型。适用于研究人员和开发者进行LLaMA模型的云端部署和API开发。
GPU-Benchmarks-on-LLM-Inference - GPU和Apple芯片在LLaMA 3推理性能基准对比
LLaMAGPU推理基准测试量化Github开源项目
项目对比测试了NVIDIA GPU和Apple芯片在LLaMA 3模型上的推理性能,涵盖从消费级到数据中心级的多种硬件。测试使用llama.cpp,展示了不同量化级别下8B和70B模型的推理速度。结果以表格形式呈现,包括生成速度和提示评估速度。此外,项目提供了编译指南、使用示例、VRAM需求估算和模型困惑度比较,为LLM硬件选型和部署提供全面参考。
AI-Playground - 英特尔GPU驱动的AI创作平台 提供图像生成和对话功能
AI Playground英特尔GPU图像生成聊天机器人Github开源项目
AI Playground是一个开源项目,为搭载英特尔Arc GPU或Core Ultra-H处理器的PC提供AI图像生成、风格化和对话功能。该项目支持PyTorch LLM、SD1.5和SDXL模型,整合了GitHub和Hugging Face的资源。用户可通过安装程序或源代码部署,并可自由添加模型。AI Playground为AI爱好者和开发者提供了一个实验平台,促进AI应用创新。
neurips_llm_efficiency_challenge - NeurIPS单GPU大语言模型效率优化挑战赛
NeurIPSLLMGPUHELMDockerfileGithub开源项目
NeurIPS大语言模型效率挑战赛旨在优化单GPU上的模型运行效率。参赛者需提交Dockerfile实现HTTP服务器,通过HELM任务子集评估模型性能。大赛提供批准的模型和数据集列表,以及样例代码和评估指南。优胜者将在NeurIPS研讨会展示成果。比赛鼓励创新,助力大语言模型在有限资源下的应用。
nvidia-auto-installer-for-fedora-linux - Fedora Linux上简化NVIDIA驱动安装的命令行工具
NVIDIAFedora Linux驱动安装命令行工具GPUGithub开源项目
这是一个为Fedora Linux设计的命令行工具,简化了NVIDIA专有驱动程序和相关软件的安装过程。支持多种安装模式,包括驱动程序、CUDA和FFMPEG加速等。适用于Fedora 32及以上版本,并针对Optimus双显卡系统优化。该工具提供了一种安全高效的方法来配置NVIDIA GPU,使整个过程变得更加简单直观。
flute - 专为LUT量化大语言模型开发的灵活查找表引擎
FLUTE量化LLM查找表GPUGithub开源项目
FLUTE是专为LUT量化大语言模型开发的灵活查找表引擎。该引擎支持整数、浮点和学习型等多种量化方案,可与vLLM和Hugging Face等主流框架无缝集成。FLUTE兼容LLaMA-3/3.1、Gemma-2等多种模型,能在保持模型性能的同时大幅降低内存占用和推理延迟,为大语言模型优化提供了高效解决方案。
nos - Kubernetes上的AI工作负载优化模块
KubernetesGPUAI工作负载动态GPU分区资源配额管理Github开源项目
nos是一个开源模块,专门优化Kubernetes上的AI工作负载运行。它通过动态GPU分区和弹性资源配额管理,提高GPU利用率,降低基础设施成本,并增强工作负载性能。该模块支持GPU资源的精细化分配,提高资源利用效率,并允许命名空间之间灵活借用资源配额,最大化提升集群运行能力。
igl - 统一GPU接口的跨平台图形库 支持多种渲染后端
IGL跨平台库GPU图形API渲染后端Github开源项目
igl作为跨平台中间图形库,统一了GPU命令接口。支持OpenGL、Metal和Vulkan等图形API后端,提供通用接口。其设计强调低级别、前瞻性API,优化C++性能,并在实际应用中经过广泛测试。适用于Android、iOS、Linux、macOS、Windows和WebAssembly等多种平台。
HolisticTraceAnalysis - 高效分析分布式训练性能瓶颈的开源工具
性能分析分布式训练PyTorchGPUHolisticTraceAnalysisGithub开源项目
HolisticTraceAnalysis是一款开源性能分析工具,用于识别分布式训练中的性能瓶颈。它分析PyTorch Profiler收集的跟踪数据,提供时间分解、内核分析、通信计算重叠等功能。支持Linux和Mac系统,适用于Python 3.8及以上版本。开发者可通过该工具深入分析和优化分布式训练性能。