#NVIDIA

DeepLearningExamples - 优化深度学习训练和部署的最佳实践
NVIDIADeep LearningCUDA-XTensor CoresNGCGithub开源项目
提供最新的深度学习示例,使用NVIDIA CUDA-X软件栈在Volta、Turing和Ampere GPU上运行,确保最佳的可重复精度和性能。示例通过NGC容器注册表每月更新,包含最新的NVIDIA贡献和深度学习软件库,支持计算机视觉、自然语言处理、推荐系统、语音识别、文本到语音转换、图神经网络和时间序列预测模型。
TensorRT - 优化深度学习推理的开源平台
TensorRTNVIDIAONNXCUDADockerGithub开源项目
NVIDIA TensorRT 开源软件提供插件和 ONNX 解析器的源码,展示 TensorRT 平台功能的示例应用。这些组件是 TensorRT GA 版本的一部分,并包含扩展和修复。用户可以轻松安装 TensorRT Python 包或根据构建指南编译。企业用户可使用 NVIDIA AI Enterprise 套件,并可加入 TensorRT 社区获取最新产品更新和最佳实践。
cortex - 适用于多引擎的OpenAI兼容AI引擎平台
CortexAI引擎DockerONNXNVIDIAGithub开源项目
Cortex是一个OpenAI兼容的多引擎AI平台,提供命令行界面和客户端库,支持构建LLM应用。支持的引擎包括GGUF、ONNX和TensorRT-LLM,兼容多种硬件平台。Cortex可作为独立服务器运行或作为库导入,适配MacOS、Windows和Ubuntu操作系统。
GenerativeAIExamples - 生成式AI示例,快速部署和测试
NVIDIARAGLangChainTritonNeMoGithub开源项目
NVIDIA提供的生成式AI示例,使用CUDA-X软件栈和NVIDIA GPU,展示快速部署、测试和扩展AI模型的方法。包括最新的RAG管道构建技巧、实验性示例和企业应用,支持本地和远程推理,集成流行LLM编程框架,并附有详细开发文档。
FasterTransformer - 基于NVIDIA平台的高性能Transformer编解码器实现与调优
FasterTransformerTensorRT-LLMNVIDIABERTGPTGithub开源项目
FasterTransformer不仅支持多框架集成,还针对NVIDIA新一代GPU优化了编解码性能,极大提升了操作效率和处理速度。包含模型支持、性能对比及API演示的详细文档,有助于用户深入了解并有效使用FasterTransformer。
DIGITS - 深度学习模型训练的专用Web应用工具
DIGITS深度学习NVIDIAGPU训练tensorflowGithub开源项目
DIGITS是一个支持Caffe、Torch和Tensorflow框架的深度学习模型训练Web应用,提供详尽的用户文档和实用案例,支持Ubuntu 14.04和16.04操作系统,专为研究人员和开发者设计。
FastSpeech2 - 快速且高质量的端到端文本转语音
FastSpeech 2文本转语音PyTorchNVIDIAMelGANGithub开源项目
FastSpeech 2,面向精准快速的文本到语音转换,基于PyTorch与Espnet技术,配备Nvidia与MelGAN工具,极致优化语音生成效果,适合各类开发者利用和研究。
Taiwan-LLM - 专为繁体中文与英语环境设计的高性能语言模型,具有70亿参数规模
Llama-3-Taiwan-70BNVIDIA传统中文NLP基准聊天机器人Github开源项目
Llama-3-Taiwan-70B是专为繁体中文与英语环境设计的高性能语言模型,具有70亿参数规模,涵盖多个行业领域。该模型透过NVIDIA NeMo技术优化,已完成在台北一号的NVIDIA DGX H100系统上的训练,获多个企业支持。
iAI - 在Ubuntu平台上设置AI实验环境的详细指导
AIUbuntuNVIDIACUDAPytorchGithub开源项目
这篇文章提供了在Ubuntu平台上设置AI实验环境的详细指导,涵盖硬件要求、双系统安装、NVIDIA驱动、CUDA、cuDNN、Anaconda、OpenCV、Docker、TensorRT、Pytorch等软件的安装与配置。内容包括从基础环境搭建到深度学习算法如YOLO V3和Faster R-CNN的实际应用,并附有常见问题解答和最佳实践,帮助用户高效构建AI开发环境。
ultimateALPR-SDK - 车牌识别及多功能车辆特性检测解决方案
UltimateALPRLicense Plate RecognitionAndroidDeep LearningNVIDIAGithub开源项目
结合最新深度学习技术,ultimateALPR-SDK 提供卓越的识别速度和精度。适用于多个操作系统和编程语言,功能包括车牌识别、夜视图像增强、车辆颜色识别等。通过内置计算减少系统成本,无需专用硬件或网络连接,适用于智能交通。支持多平台并附有详细文档和示例程序,帮助开发者迅速上手。
kaolin - 提供3D深度学习工具的PyTorch库
KaolinPyTorch3D深度学习NVIDIA渲染Github开源项目
Kaolin库提供多种3D表示形式的PyTorch API,包含模块化可微渲染、快速转换、数据加载、3D检查点、可微摄像机和光照API等GPU优化操作。版本0.16.0新增Simplicits方法用于弹性模拟和四元数数学功能,优化工作流程。用户可通过教程快速使用新API进行模型可视化。
DeepStream-Yolo - NVIDIA DeepStream SDK的YOLO模型配置与优化指南
DeepStreamYOLONVIDIATensorRTCUDAGithub开源项目
该项目为多个版本及平台的YOLO模型提供NVIDIA DeepStream SDK配置和优化指南,包括YOLOv5、YOLOv6、YOLOv7和YOLOv8等。项目功能涵盖INT8校准、动态批处理及GPU边界框解析,并提供详细的安装、使用和自定义模型指南,帮助用户实现高效的GPU处理和模型转换。
jetson-containers - 为NVIDIA Jetson提供的模块化AI和机器学习容器系统
JetsonJetPackDockerAI容器NVIDIAGithub开源项目
提供适用于NVIDIA Jetson设备的多种AI和机器学习容器,包括PyTorch、TensorFlow、ONNXRuntime和DeepStream等,支持灵活设置不同CUDA版本,并组合多个包如ROS2和Transformer。通过命令行工具可快速运行所需的容器镜像,并有详细文档和教程帮助用户最大化利用Jetson平台的计算能力,简化机器学习和计算机视觉任务的实现。
nvdiffrec - 从多视角图像优化3D模型的拓扑结构、材质和光照
nvdiffrecNVIDIA3D模型PyTorchNeRFGithub开源项目
本项目旨在从多视角图像优化3D模型的拓扑结构、材质和光照,基于论文《从图像中提取三角形3D模型、材质和光照》的方法。项目新增支持FlexiCubes技术,并简化代码,保持原有运行性能。需要Python 3.6+及CUDA 11.3+环境,主要适用于高端NVIDIA GPU。提供多种配置和示例,包括NeRF合成数据集及NeRD数据集,并有详细的安装和使用教程,适合从事3D深度学习研究的开发者和学者。
TransformerEngine - 用于在 NVIDIA GPU 上加速 Transformer 模型的库
Transformer EngineNVIDIA深度学习FP8Hopper GPUGithub开源项目
Transformer Engine是NVIDIA推出的一个库,专门用于在其GPU上加速Transformer模型。该库支持8位浮点(FP8)精度,使训练和推理性能大幅提升的同时,内存使用降低。TE提供了一系列优化的构建模块和混合精度API,适用于各种流行的深度学习框架,保证精度不受影响。通过与主流大型语言模型库的集成,简化了FP8支持的实现,使Transformer模型的训练和推理更加高效和便捷,适用于多种NVIDIA GPU架构。
dlss-swapper - 游戏DLSS版本管理工具
DLSS SwapperDLSS游戏优化NVIDIA性能提升Github开源项目
DLSS Swapper是一款开源工具,用于下载、管理和替换游戏中的DLSS dll文件。它允许用户在无需等待官方更新的情况下,自由切换DLSS版本。该工具提供直观的界面,支持多个DLSS版本,并自动备份原始文件。虽然不能为原本不支持DLSS的游戏添加此功能,但DLSS Swapper为玩家提供了优化DLSS性能的灵活选择。
deepstream_python_apps - 为NVIDIA DeepStream SDK提供Python绑定和丰富的示例应用
DeepStream SDKPython绑定AI应用NVIDIA视频分析Github开源项目
这个开源项目为NVIDIA DeepStream SDK提供Python绑定和丰富的示例应用。它支持构建视频分析流水线,包括对象检测、跟踪和分割等功能。开发者可通过Python接口访问DeepStream的元数据结构,实现高效视频处理。项目提供了从基础到高级的多种示例应用,涵盖不同场景,为开发人员提供了实用的参考资源。
gpustat - 简洁高效的NVIDIA GPU监控工具
gpustatGPU监控NVIDIAPython工具系统资源Github开源项目
gpustat是一款专为NVIDIA显卡设计的GPU监控工具。它提供简洁的输出,支持实时监控、进程信息显示和JSON输出等功能。通过pip可以轻松安装,并且提供多种命令行选项以自定义显示内容。gpustat兼容Python 3.6+,要求NVIDIA驱动450.00或更高版本。这个工具适用于GPU资源管理和性能监控。
ai-assisted-annotation-client - NVIDIA AI辅助医学影像标注客户端
NVIDIAAI辅助标注客户端API医学影像跨平台Github开源项目
NVIDIA AI辅助标注客户端是一个跨平台的C++/Python API项目,用于与AI辅助标注服务器通信。支持Linux、macOS和Windows,提供MITK和3D Slicer插件。采用客户端-服务器架构,可集成到医学影像应用中,实现3D DEXTR、分割和多边形修复等功能,提升医学影像标注效率。
AMGX - 高性能代数多重网格GPU加速求解器库
AmgXGPU加速线性求解器多重网格法NVIDIAGithub开源项目
AMGX是NVIDIA开发的GPU加速线性求解器库,旨在加速计算密集型仿真的线性求解环节。它具有灵活的求解器组合系统,可构建复杂的嵌套求解器和预处理器。AMGX针对大规模并行计算进行了优化,支持单GPU或多GPU运算,并通过C API简化了并行处理。该库支持多精度计算、复数数据类型和分布式求解,适用于隐式非结构化方法。AMGX为科学计算和工程仿真提供了高效的GPU线性代数解决方案。
apex - NVIDIA Apex加速PyTorch混合精度与分布式训练
ApexPyTorch混合精度训练分布式训练NVIDIAGithub开源项目
Apex是NVIDIA开发的PyTorch扩展库,专注于优化混合精度和分布式训练。该工具提供自动混合精度、分布式数据并行和同步批量归一化等功能,大幅提高训练效率。Apex还集成了多个CUDA优化扩展,如快速层归一化和融合优化器,进一步增强性能。作为持续更新的开源项目,Apex为PyTorch用户提供了最新的训练加速工具。
VideoProcessingFramework - GPU加速视频处理框架 提供编解码和格式转换功能
VideoProcessingFrameworkGPU加速视频处理NVIDIAPyNvVideoCodecGithub开源项目
VideoProcessingFramework是一个开源的视频处理框架,由C++库和Python绑定组成。它利用GPU硬件加速实现高效的视频解码、编码、转码以及色彩空间和像素格式转换。该框架支持将GPU内存中的视频帧直接导出为PyTorch张量,避免了额外的数据传输。适用于Linux和Windows平台,依赖NVIDIA驱动、CUDA和FFMPEG。目前正逐步被功能类似但API更简洁的PyNvVideoCodec库取代。
jetson-nano-baseboard - Antmicro开源基板支持多款NVIDIA Jetson模块
Jetson Baseboard开源硬件NVIDIAMIPI CSI-2AntmicroGithub开源项目
这款开源基板由Antmicro设计,支持NVIDIA Jetson Nano、Xavier NX和TX2 NX系统级模块(SoM)。基板通过FFC连接器支持多达4个MIPI CSI-2摄像头,集成千兆以太网、USB-C、HDMI、DisplayPort和M.2等接口。设计文件采用KiCad维护,并提供详细文档和Linux补丁,便于开发者进行定制。该项目为嵌入式AI和计算机视觉应用提供了灵活的硬件平台。
nvidia-auto-installer-for-fedora-linux - Fedora Linux上简化NVIDIA驱动安装的命令行工具
NVIDIAFedora Linux驱动安装命令行工具GPUGithub开源项目
这是一个为Fedora Linux设计的命令行工具,简化了NVIDIA专有驱动程序和相关软件的安装过程。支持多种安装模式,包括驱动程序、CUDA和FFMPEG加速等。适用于Fedora 32及以上版本,并针对Optimus双显卡系统优化。该工具提供了一种安全高效的方法来配置NVIDIA GPU,使整个过程变得更加简单直观。
TensorRT-LLM - NVIDIA开发的大型语言模型推理优化工具
TensorRT-LLM大语言模型GPU加速AI推理NVIDIAGithub开源项目
TensorRT-LLM是一个用于优化大型语言模型推理的开源工具。它提供Python API来定义模型和构建TensorRT引擎,支持多GPU和多节点部署。该工具集成了多种量化技术,如INT4/INT8权重量化和SmoothQuant,以提升性能和降低内存占用。TensorRT-LLM预置了多个常用模型,可根据需求进行修改和扩展。
resource-stream - CUDA和GPU加速计算综合资源库
CUDAGPU编程性能优化并行计算NVIDIAGithub开源项目
Resource Stream汇集了丰富的CUDA和GPU加速计算资源,包括书籍、论文、教程和代码实现。项目涵盖Triton和torch.compile()等高级优化工具,为开发者提供全面的学习材料和实践指南,助力高效并行计算和GPU性能优化。
notebooks-contrib - RAPIDS社区贡献的GPU加速数据科学笔记本库
RAPIDSGPU加速数据科学开源NVIDIAGithub开源项目
notebooks-contrib是RAPIDS社区维护的GPU加速数据科学笔记本库。它涵盖从入门到高级的多个主题,包括多GPU处理、深度学习和各领域应用。该项目提供教程、工作流示例和实用指南,同时鼓励社区贡献。用户可以找到丰富的学习资源,如官方文档、视频教程和部署指南,以便更好地利用RAPIDS进行GPU加速数据分析。
NVIDIA - GPU加速计算和AI技术的全球创新者
AI工具NVIDIAGPUAI深度学习数据中心
NVIDIA是GPU加速计算技术的开创者,推动了AI、高性能计算、图形设计等领域的创新。公司提供全面的硬件、软件和云服务解决方案,支持各行业数字化转型。NVIDIA技术广泛应用于游戏、设计、数据中心和边缘计算,助力解决复杂挑战,以AI和数字孪生技术推动产业变革。
NoFOMO.ai - 智能化YouTube视频和播客内容摘要平台
AI工具AI摘要YouTube播客NoFOMONVIDIA
NoFOMO.ai是一个智能化内容摘要平台,专注于YouTube视频和播客的精华提炼。该工具利用AI技术自动分析用户订阅的内容,提取核心信息,并通过邮件推送简洁的更新摘要和文字记录。这种创新的数字内容处理方式有效提升信息获取效率,帮助用户在信息爆炸时代保持对重要内容的关注。
Denvr Dataworks - 专业GPU云平台,加速AI训练与推理
AI工具Denvr CloudAIGPUNVIDIA云计算
Denvr Dataworks提供专为AI优化的云计算服务,包括高性能GPU资源、按需或专用超级计算能力,以及主流AI框架的一键部署。平台采用NVIDIA和Intel最新GPU架构,确保卓越性能和可扩展性。通过简化AI开发和运营流程,Denvr Dataworks为各类AI项目提供高效、灵活的云计算解决方案。
NeMo-Aligner - NVIDIA开发的大规模语言模型对齐工具包
NVIDIANeMo-Aligner语言模型模型对齐AI训练Github开源项目
NeMo-Aligner是NVIDIA开发的语言模型对齐工具包,支持SteerLM、DPO和RLHF等算法,用于调整模型以提高安全性和实用性。基于NeMo Toolkit构建,支持大规模GPU并行处理,提供监督微调和奖励模型训练等功能。与NeMo生态系统兼容,便于模型部署和进一步定制。
pytriton - 优化Python环境下NVIDIA Triton推理服务器的应用
PyTriton推理服务机器学习模型Python框架NVIDIAGithub开源项目
PyTriton是一款类似Flask/FastAPI的框架,旨在优化NVIDIA Triton推理服务器在Python环境中的应用。该框架支持直接从Python部署机器学习模型,具有原生Python支持、框架无关性和性能优化等特点。通过简洁的接口,PyTriton简化了模型部署、性能优化和API开发过程。不论使用PyTorch、TensorFlow还是JAX,开发者均可将Python代码轻松转换为HTTP/gRPC API。
nvitop - NVIDIA GPU资源实时监控与管理工具
nvitopGPU监控NVIDIA进程管理资源监控Github开源项目
nvitop是一款强大的NVIDIA GPU监控工具,通过交互式彩色界面实时显示GPU设备和进程状态。除了资源监视功能,它还提供CUDA设备选择工具和API接口,便于开发者构建自定义监控应用。支持Linux和Windows系统,安装便捷,运行高效,是管理GPU资源的综合解决方案。
Displacement-MicroMap-Toolkit - NVIDIA置换微网格工具包创建与查看解决方案
NVIDIA微置换图工具包开发渲染Github开源项目
NVIDIA置换微网格工具包提供库、样例和工具,用于创建和查看置换微网格。它支持gltf格式资产处理,包含置换微贴图烘焙和GPU加速重网格化功能。工具包配备图形化工作台,便于微网格检查和工具交互。基于Displacement Micro-Map技术,需要支持VK_NV_displacement_micromap的驱动程序。
donut - NVIDIA开发的实时渲染框架 支持多种图形API和渲染技术
Donut实时渲染框架NVIDIA场景加载渲染通道Github开源项目
Donut是NVIDIA开发的实时渲染框架,提供可重用的渲染pass集合和场景加载系统。支持Vulkan、DirectX 12和DirectX 11等图形API,包含前向渲染、延迟渲染、时域抗锯齿等技术。可导入glTF 2.0模型和JSON场景布局文件。Donut专注于高性能渲染,适用于原型渲染器和图形应用开发,但不是完整的游戏引擎。
nccl - 优化GPU间通信的高性能库
NCCLGPU通信NVIDIA并行计算深度学习Github开源项目
NCCL是NVIDIA开发的开源GPU通信库,为深度学习和高性能计算优化了全归约、广播等通信模式。它在PCIe、NVLink等平台上实现高带宽,支持单节点和多节点GPU应用。NCCL可用于任意数量的GPU,适配单进程和多进程(如MPI)环境,为AI和科学计算提供高效的通信解决方案。该项目提供简易的构建安装方法和灵活的编译选项,方便开发者根据需求优化性能。