#NVIDIA GPU
Simple LLM Finetuner入门指南 - 基于LoRA方法的语言模型微调工具
Docker NVIDIA EGL桌面 - 基于Kubernetes的开源远程云/HPC图形或游戏流媒体平台
NVIDIA Stable Diffusion WebUI TensorRT扩展:让AI图像生成速度翻倍
dstack:为AI而生的轻量级容器编排引擎
Simple LLM Finetuner: 一个用于大型语言模型微调的简易界面
Simple LLM Finetuner: 一个用于微调大型语言模型的简单界面
simple-llm-finetuner
Simple LLM Finetuner项目提供了初学者友好的界面,利用LoRA方法和PEFT库在常见的NVIDIA GPU上微调语言模型。用户可以轻松管理数据集、定制参数,并评估模型推理能力。支持在UI中粘贴数据集,提供参数调整和详细说明。尽管项目已停止维护,建议使用替代工具如LLaMA-Factory、unsloth或text-generation-webui。
marlin
Marlin是一款专为LLM推理设计的FP16xINT4优化内核,可实现接近4倍的速度提升,并支持16-32个token的batchsize。通过高效利用GPU资源,如全局内存、L2缓存、共享内存和张量核心,Marlin克服了现代GPU的FLOP和字节比率挑战。多种优化技术包括异步权重加载和双缓冲共享内存加载,确保性能最大化。该项目适用于CUDA 11.8及以上版本,支持NVIDIA Ampere或Ada架构的GPU,并与torch 2.0.0和numpy兼容。在各种基准测试中,Marlin展示了卓越的性能,尤其在持久计算和大batchsize处理方面表现出色。
ByteTransformer
ByteTransformer是一个为BERT类Transformer优化的高性能推理库,支持Python和C++ API,兼容固定长度和可变长度Transformer。通过对BERT例程中的QKV编码、软最大值、前馈网络、激活、层归一化和多头注意力机制进行优化,ByteTransformer为字节跳动的内部推理系统提升了性能。基准测试结果显示,相较于PyTorch、TensorFlow、FasterTransformer和DeepSpeed,ByteTransformer在A100 GPU上的推理速度更快。
dstack
dstack是一款轻量级工具,专为AI模型的开发、训练和部署而设计,可以作为Kubernetes的替代品。支持NVIDIA GPU和Google Cloud TPU,并兼容多种云服务提供商(如AWS、GCP、Azure等)和本地集群。dstack使用简单,无论是在云端还是本地,都能轻松配置和管理集群。其最新版本不断更新,提供高效便捷的体验。
mig-parted
nvidia-mig-parted是一个开源的NVIDIA Ampere多实例GPU(MIG)分区管理工具。它支持系统管理员以声明式方式定义和应用多种MIG配置。通过命令行接口,管理员可以灵活地启用/禁用MIG、创建不同规格的MIG设备,并在集群中快速切换配置。这大大简化了GPU资源管理,提高了系统效率。
Stable-Diffusion-WebUI-TensorRT
这个扩展通过TensorRT优化引擎,显著提升了Stable Diffusion在NVIDIA RTX GPU上的性能。它兼容SD 1.5、2.1、SDXL和SDXL Turbo等多个版本。扩展提供了简便的默认引擎生成和快速启用功能,同时支持LoRA转换与应用。为满足不同需求,扩展提供多种引擎类型,可适应各种分辨率和批量大小。高级用户还可进行个性化设置,灵活调整性能参数。
ComfyUI_TensorRT
ComfyUI_TensorRT项目为ComfyUI提供了TensorRT节点,旨在优化NVIDIA RTX显卡上稳定扩散模型的性能。该项目支持多个版本的稳定扩散模型,包括SDXL、SVD和AuraFlow等。通过生成GPU专用的TensorRT引擎,实现了模型运行效率的显著提升。项目支持动态和静态引擎构建,适应不同的分辨率和批量大小需求。此外,项目还提供了详细的安装和使用指南,便于用户在ComfyUI中集成和应用。
ComfyUI-Docker
ComfyUI-Docker项目提供多种Docker镜像,用于简化ComfyUI的部署和运行。这些镜像支持NVIDIA和AMD GPU,包括基础版、全功能版和专用3D版本。镜像针对不同CUDA版本和Python环境进行优化,满足各类用户需求。项目定期更新,确保镜像包含最新功能和性能改进。
docker-nvidia-egl-desktop
docker-nvidia-egl-desktop是一个基于KDE Plasma的云桌面容器,为Kubernetes环境优化。项目支持OpenGL EGL/GLX、Vulkan和Wine/Proton,通过WebRTC和HTML5技术为NVIDIA GPU提供远程图形和游戏流媒体功能。容器使用EGL和VirtualGL直接访问GPU,无需X.Org X11服务器和额外主机配置。内置Wine等工具支持运行Windows应用和游戏。用户可选择Selkies-GStreamer WebRTC或KasmVNC WebSocket两种web界面。