#GPU

introtodeeplearning - MIT开源深度学习课程，掌握云端实验技能

Github开源项目PythonGPUMIT Introduction to Deep Learning谷歌ColaboratoryJupyter notebook

MIT的深度学习课程提供完整的代码和实验指导，帮助学习者自主完成实验。课程内容包括讲座视频、幻灯片及云端运行的Jupyter笔记本。实验在Google Colaboratory中运行，无需下载。课程使用mitdeeplearning Python包，简化编程过程。详细的实验提交说明和竞赛指南确保学习者掌握深度学习技能。

pytorch-doc-zh - PyTorch深度学习库中文文档与教程，支持GPU和CPU优化

Github开源项目PyTorch深度学习GPUtensor库中文文档

提供最新的PyTorch中文文档与教程，涵盖深度学习和张量优化，支持GPU和CPU。包括2.0版本中文翻译、最新英文教程和文档，以及丰富的学习资源和社区支持，适合希望深入了解和使用PyTorch的中文用户。

skypilot - 高效部署AI和批处理作业至全球云平台

Github开源项目LLMSkyPilot云计算GPU成本节约热门

SkyPilot是一个为LLMs和AI提供的框架，支持在任意云平台运行，最大化GPU利用率和降低成本。该框架通过自动管理作业队列，简化了扩展操作，还提供了对象存储的简便接入。用户可以在全球任一区域的云中自动故障转移，使用管理型Spot实例以较低成本运行，同时自动选择成本最优的机型和区域。

mixtral-offloading - Mixtral-8x7B模型高效推理的实现方法

Github开源项目GPUMixtral-8x7BHQQMoECPU

该项目实现了Mixtral-8x7B模型的高效推理，使用混合量化和MoE卸载策略。通过HQQ量化方案分别处理注意力层和专家层，使模型适应GPU和CPU内存。每层的专家单独卸载并在需要时重新加载到GPU，活跃专家存储在LRU缓存中以减少GPU-RAM通信。更多技术细节和结果请参阅技术报告。

maxtext - 高性能与可扩展的开源大模型解决方案，支持TPUs与GPUs

Github开源项目LLMGPUMaxTextTPUJax

MaxText是一个高性能、可扩展的开源大模型，采用纯Python和Jax编写，专为Google Cloud的TPUs和GPUs设计。支持训练和推理，能够从单个主机扩展到大型集群，且无需复杂优化。MaxText适用于研究和生产中的大型语言模型项目，支持Llama2、Mistral和Gemma模型，并提供详细的入门指南和性能测试结果。

LLM-Training-Puzzles - 大型语言模型训练中的内存效率与计算管道优化

Github开源项目AIGPULLM Training Puzzles内存效率计算流水线

本项目包含8个在多GPU环境下训练大型语言模型的挑战性谜题，旨在通过实践掌握内存效率和计算管道优化的关键训练原理。尽管大多数人没有机会在成千上万台计算机上进行训练，这些技能对现代AI的发展至关重要。推荐使用Colab运行这些谜题，提供便捷的上手体验。

helix - 私有部署人工智能平台

Github开源项目GPUAI平台GenAIHelixML私有部署

Helix是一款为企业提供的私有部署人工智能平台，允许自主控制数据安全并本地部署AI技术。平台支持简便的模型微调，实现拖放操作即可完成，适合处理语言和图像模型等任务。Helix通过优化GPU内存和响应时间的权衡，为企业提供高效、可扩展的AI解决方案，特别适用于需要保持数据隐私和数据安全的场合。Helix助力企业轻松引入开源AI的顶尖技术，开启私有人工智能的应用实践。

WebGPT - 基于WebGPU的Transformer模型实现与性能分析

Github开源项目JavaScriptGPU模型WebGPUWebGPT

WebGPT项目是一款基于WebGPU的Transformer模型应用，使用纯JavaScript和HTML实现。该项目不仅用于技术演示，同时也作为教育资源，支持在主流浏览器中运行，并能管理最多500M参数的模型。主要优化在Chrome v113和Edge Canary等浏览器上，通过WebGPU技术提高运行效率，适合用于学习和研究深度学习模型。

LLaMa2lang - 优化LLaMa3-8B模型性能，支持多语言微调和翻译

Github开源项目GPU翻译RAGLLaMa3语言微调

LLaMa2lang提供便捷脚本，微调LLaMa3-8B模型以适应不同语言。结合RAG和翻译模型，将数据集OASST1翻译为目标语言，进行数据集成和细调，并支持推理。支持DPO和ORPO等优化方法，进一步提升模型回答质量，兼容多个基础模型与翻译架构。

DNABERT - DNABERT：用于基因组DNA语言处理的双向编码器模型

Github开源项目预训练模型GPUBERTDNABERT基因组

DNABERT提供完整的源码、使用示例、预训练和微调模型，适用于各类基因组DNA语言处理任务。该项目利用Huggingface的扩展工具，增添了多任务支持和高效的可视化功能。最新版DNABERT-2不仅提升了多物种基因组的处理能力，还发布了全面的Genome Understanding Evaluation (GUE)基准测试，涵盖28个数据集。

ONNX-YOLOv8-Object-Detection - 将YOLOv8模型转换为ONNX格式的方法

Github开源项目目标检测GPUONNX模型转换YOLOv8

本项目提供了一种将YOLOv8模型转换为ONNX格式的高效方法，支持在NVIDIA GPU或CPU上进行对象检测。确保输入图片尺寸与模型要求一致，以获得最佳检测精度。项目配有详细的安装指南和推理示例，包括图片、摄像头和视频推理，方便开发者快速上手并应用于实际场景。

stable-diffusion-docker - 多功能 GPU 加速的 Stable Diffusion Docker 容器

Github开源项目Stable DiffusionGPU模型DockerHuggingface

Stable Diffusion Docker 容器在支持 CUDA 的 GPU 上运行，通过官方模型实现高质量图像生成。支持从文本生成图像、图像修改、深度引导和图像修复等功能，适用多种应用场景。最低要求 8GB VRAM 的 GPU，并提供设备选择和内存优化选项。详细使用指南和示例帮助用户快速入门。

carefree-creator - 开源AI创作工具，集成多种生成模型

Github开源项目PythonAI绘图GPUpytorchcarefree-creator

`carefree-creator`是一个开源的AI创作工具，集成了多种生成模型，基于`carefree-learn`构建，支持Python>=3.8和pytorch>=1.12.0。项目提供多种节省GPU RAM的加载方式，并支持CLI和Docker安装。详细的硬件要求与使用指南请见Wiki页面。

GradCache - 突破GPU/TPU内存限制，实现对比学习无限扩展

Github开源项目GPUJAXPytorch对比学习Gradient Cache

Gradient Cache技术突破了GPU/TPU内存限制，可以无限扩展对比学习的批处理大小。仅需一个GPU即可完成原本需要8个V100 GPU的训练，并能够用更具成本效益的高FLOP低内存系统替换大内存GPU/TPU。该项目支持Pytorch和JAX框架，并已整合至密集段落检索工具DPR。

Person_reID_baseline_pytorch - 小巧、友好、强大的 pytorch 工具

Github开源项目深度学习GPU教程Pytorch ReID对象识别

Pytorch ReID是一个高效且易用的对象重识别代码库，支持多种先进的模型与损失函数，如ResNet、Swin Transformer和Circle Loss。该项目自2017年起持续更新，拥有详细的教程与训练评估功能，性能在多篇顶级会议论文中得到验证，适合各种经验水平的用户使用。

slowllama - 在Apple和nVidia设备上微调Llama2和CodeLLama模型

Github开源项目GPULlama2slowllamaCodeLLamaM1/M2设备

slowllama是一个专注于微调Llama2和CodeLLama模型的开源项目，支持70B/35B模型版本，并可在Apple M1/M2设备（如Macbook Air、Mac Mini）或消费级nVidia GPU上运行。通过将模型部分数据转储到SSD或主内存，该项目避免使用量化技巧，优化正向和反向传递性能。采用LoRA方法限制参数更新，操作步骤详尽，包括依赖安装、模型下载和配置脚本，是在资源有限环境下进行大模型微调的理想选择。

CCTag - 检测和定位同心圆标记的高效工具库

Github开源项目计算机视觉GPUCUDA检测CCTag

CCTag库是一款用于检测和定位同心圆标记的高效工具，兼容CPU和GPU实现。基于CVPR 2016会议论文，该库在严苛条件下表现出色。支持CUDA 8.0及更新版本，建议使用平面支撑材料以保证检测准确性。提供详细文档和持续集成支持，适用于Windows和Linux系统。

tiny-cuda-nn - 专注于快速训练和查询神经网络的开源框架

Github开源项目深度学习GPUCUDATiny CUDA Neural NetworksC++编程

Tiny CUDA Neural Networks是一个紧凑、高效的开源框架，专注于快速训练和查询神经网络。它包含优化的多层感知器（MLP）和多分辨率哈希编码，并支持多种输入编码、损失函数和优化器。适用于NVIDIA GPU，通过C++/CUDA API和PyTorch扩展，助力高性能计算和深度学习项目。

pytorch_scatter - 优化分散操作的 PyTorch 扩展库

Github开源项目PyTorchGPU数据处理高性能计算CPU

该扩展库为PyTorch提供了高效的稀疏更新和分段操作，包含scatter、segment_coo和segment_csr，支持sum、mean、min和max等归约方式。操作可适用于不同数据类型，并支持CPU和GPU。复合功能包括scatter_std、scatter_logsumexp、scatter_softmax和scatter_log_softmax。安装过程简单，适用于各大操作系统和PyTorch/CUDA组合。

BMW-TensorFlow-Training-GUI - 简化TensorFlow 2模型训练的工具

Github开源项目GPUDockerTensorflowDeep LearningTensorBoard

此开源项目提供用户轻松开始TensorFlow 2深度学习模型训练的工具。用户仅需提供标注数据集，并通过TensorBoard监控训练过程。项目支持内置推理REST API，CUDA 11以及多GPU训练，推荐在Ubuntu 18.04和Google Chrome浏览器环境下使用。

kaito - Kubernetes集群AI/ML模型自动化部署与管理工具

Github开源项目AIKubernetes自动化GPU大型模型

Kaito是一款专为Kubernetes集群设计的AI/ML模型自动化管理工具。它支持falcon和phi-3等开源大模型，通过容器镜像管理模型文件，提供预设配置，自动配置GPU节点，并利用Microsoft Container Registry托管模型镜像。Kaito显著简化了在Kubernetes环境中部署和管理大型AI推理模型的过程，为开发者和运维人员提供了高效、便捷的解决方案。

mistral-finetune - 基于LoRA技术的Mistral模型高效微调框架

Github开源项目模型训练微调GPULoRAMistral-finetune

mistral-finetune是一个基于LoRA技术的轻量级框架，通过仅训练1-2%的额外权重来实现Mistral模型的高效微调。该框架支持多GPU单节点训练，适合A100或H100 GPU使用。它提供简化的数据格式要求和验证工具，支持指令跟随和函数调用等多种训练模式，适用于各类微调需求。

blackjax - JAX贝叶斯采样库支持CPU和GPU运算

Github开源项目GPUJAX概率编程BlackJAX采样器

BlackJAX是一个为JAX开发的贝叶斯采样库，支持CPU和GPU计算。它提供多种采样器，可与概率编程语言集成。适用于需要采样器的研究人员、算法开发者和概率编程语言开发者。其模块化设计便于创建和定制采样算法，促进采样算法研究。BlackJAX通过简洁API和高性能，连接了简单框架与可定制库。

xtts-streaming-server - Docker化流式文本转语音服务支持GPU加速与模型定制

Github开源项目语音合成GPUDockerXTTS流式服务器

xtts-streaming-server是一个开源的Docker化流式文本转语音服务。该项目支持GPU加速，提供预构建镜像和自定义构建选项，并可加载微调模型。项目包含简易部署方法和测试工具，适合快速构建演示环境。需注意，当前版本不支持并发流式请求，主要用于演示目的。使用前需同意CPML许可协议。

accelerated-scan - GPU加速的并行扫描算法高效解决一阶递归

Github开源项目GPUCUDATriton并行计算Accelerated Scan

accelerated-scan是一个Python包，实现了GPU上高效的一阶并行关联扫描。该项目采用分块处理算法和GPU通信原语，能快速处理状态空间模型和线性RNN中的一阶递归问题。支持前向和后向扫描，提供C++ CUDA内核和Triton实现，在不同序列长度下均有出色性能表现。适用于深度学习和信号处理等需要高性能递归计算的领域。

ComfyUI - 模块化Stable Diffusion工作流设计与执行工具

Github开源项目AI绘图Stable DiffusionGPUComfyUI工作流

ComfyUI是一个开源的Stable Diffusion工作流设计工具。它采用图形化界面，支持通过节点和流程图创建复杂的AI图像生成流程。ComfyUI兼容多种Stable Diffusion模型，包括SD1.x、SD2.x和SDXL等。该工具具有异步队列系统和智能内存管理，优化了资源使用。ComfyUI还集成了LoRA、ControlNet等技术，可保存和加载完整工作流，为用户提供灵活的AI图像生成体验。

stable-diffusion-nvidia-docker - 基于Docker的Stable Diffusion简易部署方案

Github开源项目AI绘图Stable DiffusionGPU多GPU支持Docker

该项目为Stable Diffusion模型提供基于Docker的部署方案，适用于Ubuntu和Windows系统。通过简单的Web UI界面，用户可在GPU设备上轻松运行Stable Diffusion，支持多GPU推理、图像到图像转换和图像修复功能。项目集成了Stable Diffusion 2.0模型，为AI图像生成技术的使用提供便捷途径。

cog-llama-template - 使用Cog工具构建和部署多版本LLaMA模型指南

Github开源项目模型部署GPULLaMACogAI语言模型

本项目提供使用Cog工具构建和部署多版本LLaMA模型的详细指南。涵盖从权重准备到Replicate平台部署的全过程，支持7B、13B和70B规模的LLaMA和LLaMA2模型。适用于研究人员和开发者进行LLaMA模型的云端部署和API开发。

GPU-Benchmarks-on-LLM-Inference - GPU和Apple芯片在LLaMA 3推理性能基准对比

Github开源项目GPU基准测试LLaMA推理量化

项目对比测试了NVIDIA GPU和Apple芯片在LLaMA 3模型上的推理性能,涵盖从消费级到数据中心级的多种硬件。测试使用llama.cpp,展示了不同量化级别下8B和70B模型的推理速度。结果以表格形式呈现,包括生成速度和提示评估速度。此外,项目提供了编译指南、使用示例、VRAM需求估算和模型困惑度比较,为LLM硬件选型和部署提供全面参考。

AI-Playground - 英特尔GPU驱动的AI创作平台提供图像生成和对话功能

Github开源项目聊天机器人GPU图像生成英特尔AI Playground

AI Playground是一个开源项目，为搭载英特尔Arc GPU或Core Ultra-H处理器的PC提供AI图像生成、风格化和对话功能。该项目支持PyTorch LLM、SD1.5和SDXL模型，整合了GitHub和Hugging Face的资源。用户可通过安装程序或源代码部署，并可自由添加模型。AI Playground为AI爱好者和开发者提供了一个实验平台，促进AI应用创新。

neurips_llm_efficiency_challenge - NeurIPS单GPU大语言模型效率优化挑战赛

Github开源项目LLMGPUNeurIPSHELMDockerfile

NeurIPS大语言模型效率挑战赛旨在优化单GPU上的模型运行效率。参赛者需提交Dockerfile实现HTTP服务器，通过HELM任务子集评估模型性能。大赛提供批准的模型和数据集列表，以及样例代码和评估指南。优胜者将在NeurIPS研讨会展示成果。比赛鼓励创新，助力大语言模型在有限资源下的应用。

nvidia-auto-installer-for-fedora-linux - Fedora Linux上简化NVIDIA驱动安装的命令行工具

Github开源项目命令行工具GPUNVIDIAFedora Linux驱动安装

这是一个为Fedora Linux设计的命令行工具，简化了NVIDIA专有驱动程序和相关软件的安装过程。支持多种安装模式，包括驱动程序、CUDA和FFMPEG加速等。适用于Fedora 32及以上版本，并针对Optimus双显卡系统优化。该工具提供了一种安全高效的方法来配置NVIDIA GPU，使整个过程变得更加简单直观。

flute - 专为LUT量化大语言模型开发的灵活查找表引擎

Github开源项目LLMGPU量化FLUTE查找表

FLUTE是专为LUT量化大语言模型开发的灵活查找表引擎。该引擎支持整数、浮点和学习型等多种量化方案，可与vLLM和Hugging Face等主流框架无缝集成。FLUTE兼容LLaMA-3/3.1、Gemma-2等多种模型，能在保持模型性能的同时大幅降低内存占用和推理延迟，为大语言模型优化提供了高效解决方案。

nos - Kubernetes上的AI工作负载优化模块

Github开源项目KubernetesGPUAI工作负载动态GPU分区资源配额管理

nos是一个开源模块，专门优化Kubernetes上的AI工作负载运行。它通过动态GPU分区和弹性资源配额管理，提高GPU利用率，降低基础设施成本，并增强工作负载性能。该模块支持GPU资源的精细化分配，提高资源利用效率，并允许命名空间之间灵活借用资源配额，最大化提升集群运行能力。

igl - 统一GPU接口的跨平台图形库支持多种渲染后端

Github开源项目GPU跨平台库图形APIIGL渲染后端

igl作为跨平台中间图形库，统一了GPU命令接口。支持OpenGL、Metal和Vulkan等图形API后端，提供通用接口。其设计强调低级别、前瞻性API，优化C++性能，并在实际应用中经过广泛测试。适用于Android、iOS、Linux、macOS、Windows和WebAssembly等多种平台。

HolisticTraceAnalysis - 高效分析分布式训练性能瓶颈的开源工具

Github开源项目PyTorch分布式训练GPU性能分析HolisticTraceAnalysis

HolisticTraceAnalysis是一款开源性能分析工具，用于识别分布式训练中的性能瓶颈。它分析PyTorch Profiler收集的跟踪数据，提供时间分解、内核分析、通信计算重叠等功能。支持Linux和Mac系统，适用于Python 3.8及以上版本。开发者可通过该工具深入分析和优化分布式训练性能。

相关文章

Article Cover

SkyPilot：跨云计算的统一AI和批处理任务执行框架

Article Cover

MIT深度学习入门课程(6.S191)介绍

Article Cover

PyTorch中文文档与教程:深度学习框架的本土化之路

Article Cover

Mixtral-8x7B模型的高效推理：Mixtral Offloading技术解析

Article Cover

MaxText: Google的高性能可扩展大语言模型框架

Article Cover

LLM训练难题：挑战大规模语言模型训练的8个谜题

Article Cover

WebGPT: 在浏览器中运行GPT模型的革命性技术

Article Cover

Carefree Creator: AI 魔法与无限画板的完美融合

Article Cover

Whisper JAX：让你的语音转文字功能速度快70倍！

2024年08月03日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号