#NVIDIA GPU

Marlin入门学习资料 - 高性能LLM推理内核

2 个月前

Marlin 高效推理 FP16xINT4 CUDA NVIDIA GPU Github 开源项目

2 个月前

Simple LLM Finetuner入门指南 - 基于LoRA方法的语言模型微调工具

2 个月前

Simple LLM Finetuner LoRA PEFT NVIDIA GPU Gradio Github 开源项目

2 个月前

Docker NVIDIA EGL桌面 - 基于Kubernetes的开源远程云/HPC图形或游戏流媒体平台

3 个月前

Docker KDE Plasma Desktop NVIDIA GPU WebRTC Kubernetes Github 开源项目

3 个月前

ComfyUI_TensorRT：提升Stable Diffusion性能的强大工具

3 个月前

TensorRT ComfyUI NVIDIA GPU AI模型优化稳定扩散 Github 开源项目

3 个月前

NVIDIA Stable Diffusion WebUI TensorRT扩展：让AI图像生成速度翻倍

3 个月前

TensorRT Stable Diffusion NVIDIA GPU 性能优化 AI绘图 Github 开源项目

3 个月前

NVIDIA MIG-Parted: 简化GPU资源管理的强大工具

3 个月前

MIG NVIDIA GPU 分区编辑器配置管理系统管理 Github 开源项目

3 个月前

dstack:为AI而生的轻量级容器编排引擎

3 个月前

dstack AI模型管理 NVIDIA GPU Google Cloud TPU 云提供商 Github 开源项目

3 个月前

Marlin固件：开源3D打印机驱动程序的革新之作

3 个月前

Marlin 高效推理 FP16xINT4 CUDA NVIDIA GPU Github 开源项目

3 个月前

Simple LLM Finetuner: 一个用于大型语言模型微调的简易界面

3 个月前

Simple LLM Finetuner LoRA PEFT NVIDIA GPU Gradio Github 开源项目

3 个月前

Simple LLM Finetuner: 一个用于微调大型语言模型的简单界面

3 个月前

Simple LLM Finetuner LoRA PEFT NVIDIA GPU Gradio Github 开源项目

3 个月前

相关项目

simple-llm-finetuner

Simple LLM Finetuner项目提供了初学者友好的界面，利用LoRA方法和PEFT库在常见的NVIDIA GPU上微调语言模型。用户可以轻松管理数据集、定制参数，并评估模型推理能力。支持在UI中粘贴数据集，提供参数调整和详细说明。尽管项目已停止维护，建议使用替代工具如LLaMA-Factory、unsloth或text-generation-webui。

marlin

Marlin是一款专为LLM推理设计的FP16xINT4优化内核，可实现接近4倍的速度提升，并支持16-32个token的batchsize。通过高效利用GPU资源，如全局内存、L2缓存、共享内存和张量核心，Marlin克服了现代GPU的FLOP和字节比率挑战。多种优化技术包括异步权重加载和双缓冲共享内存加载，确保性能最大化。该项目适用于CUDA 11.8及以上版本，支持NVIDIA Ampere或Ada架构的GPU，并与torch 2.0.0和numpy兼容。在各种基准测试中，Marlin展示了卓越的性能，尤其在持久计算和大batchsize处理方面表现出色。

ByteTransformer

ByteTransformer是一个为BERT类Transformer优化的高性能推理库，支持Python和C++ API，兼容固定长度和可变长度Transformer。通过对BERT例程中的QKV编码、软最大值、前馈网络、激活、层归一化和多头注意力机制进行优化，ByteTransformer为字节跳动的内部推理系统提升了性能。基准测试结果显示，相较于PyTorch、TensorFlow、FasterTransformer和DeepSpeed，ByteTransformer在A100 GPU上的推理速度更快。

dstack

dstack是一款轻量级工具，专为AI模型的开发、训练和部署而设计，可以作为Kubernetes的替代品。支持NVIDIA GPU和Google Cloud TPU，并兼容多种云服务提供商（如AWS、GCP、Azure等）和本地集群。dstack使用简单，无论是在云端还是本地，都能轻松配置和管理集群。其最新版本不断更新，提供高效便捷的体验。

mig-parted

nvidia-mig-parted是一个开源的NVIDIA Ampere多实例GPU(MIG)分区管理工具。它支持系统管理员以声明式方式定义和应用多种MIG配置。通过命令行接口，管理员可以灵活地启用/禁用MIG、创建不同规格的MIG设备，并在集群中快速切换配置。这大大简化了GPU资源管理，提高了系统效率。

Stable-Diffusion-WebUI-TensorRT

这个扩展通过TensorRT优化引擎，显著提升了Stable Diffusion在NVIDIA RTX GPU上的性能。它兼容SD 1.5、2.1、SDXL和SDXL Turbo等多个版本。扩展提供了简便的默认引擎生成和快速启用功能，同时支持LoRA转换与应用。为满足不同需求，扩展提供多种引擎类型，可适应各种分辨率和批量大小。高级用户还可进行个性化设置，灵活调整性能参数。

ComfyUI_TensorRT

ComfyUI_TensorRT项目为ComfyUI提供了TensorRT节点，旨在优化NVIDIA RTX显卡上稳定扩散模型的性能。该项目支持多个版本的稳定扩散模型，包括SDXL、SVD和AuraFlow等。通过生成GPU专用的TensorRT引擎，实现了模型运行效率的显著提升。项目支持动态和静态引擎构建，适应不同的分辨率和批量大小需求。此外，项目还提供了详细的安装和使用指南，便于用户在ComfyUI中集成和应用。

ComfyUI-Docker

ComfyUI-Docker项目提供多种Docker镜像，用于简化ComfyUI的部署和运行。这些镜像支持NVIDIA和AMD GPU，包括基础版、全功能版和专用3D版本。镜像针对不同CUDA版本和Python环境进行优化，满足各类用户需求。项目定期更新，确保镜像包含最新功能和性能改进。

docker-nvidia-egl-desktop

docker-nvidia-egl-desktop是一个基于KDE Plasma的云桌面容器，为Kubernetes环境优化。项目支持OpenGL EGL/GLX、Vulkan和Wine/Proton，通过WebRTC和HTML5技术为NVIDIA GPU提供远程图形和游戏流媒体功能。容器使用EGL和VirtualGL直接访问GPU，无需X.Org X11服务器和额外主机配置。内置Wine等工具支持运行Windows应用和游戏。用户可选择Selkies-GStreamer WebRTC或KasmVNC WebSocket两种web界面。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com