#TensorRT
TensorRT - 优化深度学习推理的开源平台
TensorRTNVIDIAONNXCUDADockerGithub开源项目
NVIDIA TensorRT 开源软件提供插件和 ONNX 解析器的源码,展示 TensorRT 平台功能的示例应用。这些组件是 TensorRT GA 版本的一部分,并包含扩展和修复。用户可以轻松安装 TensorRT Python 包或根据构建指南编译。企业用户可使用 NVIDIA AI Enterprise 套件,并可加入 TensorRT 社区获取最新产品更新和最佳实践。
WhisperLive - 基于OpenAI Whisper模型开发的实时音频转写应用
WhisperLive实时语音识别OpenAI Whisper多语言模型TensorRTGithub开源项目
WhisperLive是基于OpenAI Whisper模型开发的实时音频转写应用,能高效地将直播或预录音频转换成文本。支持多语言和自定义设置,适用于个人、教育及商业场景。项目还提供Docker部署,简化安装和服务部署过程。
jetson-inference - 深度学习部署与实时视觉识别
NVIDIA JetsonTensorRT深度学习实时视觉PyTorchGithub开源项目
NVIDIA Jetson设备上的深度学习推理和实时视觉处理库。使用TensorRT优化GPU网络运行,支持C++和Python, 以及PyTorch模型训练。功能包括图像分类、物体检测、语义分割等,适用于多种应用场景,如实时摄像头流和WebRTC网络应用。
onnx-tensorrt - ONNX 的 TensorRT 后端
TensorRTONNXProtobufCUDAInstanceNormalizationGithub开源项目
本项目实现对ONNX模型的高效解析,支持在最新TensorRT 10.2版本上运行。还覆盖了多个ONNX操作符,提供详细的安装和构建指南。项目中包含C++和Python的使用示例,方便用户集成和运行ONNX模型。常见问题解答和变更日志有助于解决使用中的问题。
YOLOv8-TensorRT - 通过TensorRT加速YOLOv8模型,提供在CUDA环境下的快速部署和推理解决方案
YOLOv8TensorRTCUDAONNXPyTorchGithub开源项目
本项目通过TensorRT加速YOLOv8模型,提供在CUDA环境下的快速部署和高效推理解决方案。包括环境准备、模型导出、引擎构建和多种推理方法,支持Python和C++语言。特性涵盖ONNX模型导出、端到端引擎构建和模型推理,适用于图像和视频的不同输入源。支持Jetson设备,并附有详细的文档和脚本,便于操作,提升深度学习应用性能。
edgeyolo - 优化边缘设备性能的模型,支持ONNX和TensorRT导出
EdgeYOLONvidia Jetson AGX XavierCOCO2017TensorRTHuawei AscendGithub开源项目
EdgeYOLO为边缘设备优化,在Nvidia Jetson AGX Xavier上达34FPS,并通过RH loss提升小型和中型物体检测。支持COCO2017和VisDrone2019数据集,提供多种模型格式和部署代码,包括RKNN、MNN和TensorRT。项目定期更新,并集成了SAMLabeler Pro工具,支持多人远程标注。可快速上手和训练,适配不同设备和应用场景。
yolort - 简易高效的YOLOv5目标检测工具
yolort对象检测TensorRTONNXGithub开源项目YOLOv5
yolort项目致力于简化和优化YOLOv5的训练与推理。采用动态形状机制,结合预处理和后处理,支持LibTorch、ONNX Runtime、TVM、TensorRT等多种后端的轻松部署。项目遵循简洁设计理念,安装与使用便捷,支持通过PyPI和源码安装。提供丰富的推理接口示例和详细文档,使目标检测更为轻松,适用于广泛的应用场景。
tiny-tensorrt - 简洁易用的nvidia TensorRT封装库,支持通过C++和Python API快速部署Onnx模型
tiny-tensorrtTensorRTCUDACUDNNonnx modelGithub开源项目
tiny-tensorrt是一个简洁易用的nvidia TensorRT封装库,支持通过C++和Python API快速部署Onnx模型。依赖CUDA、CUDNN和TensorRT,兼容多个版本。项目已停止维护,建议使用TensorRT的Python API或trtexec/polygraphy工具。更多信息请参考项目Wiki。
Radiata - 基于Diffusers的全方位稳定扩散和TensorRT加速工具
RadiataStable DiffusionTensorRTControlNetGitGithub开源项目
Radiata 是一个基于 diffusers 的稳定扩散 WebUI,提供稳定扩散、稳定扩散 XL 和 TensorRT 加速等功能。通过简单的 Git 和 Python 安装步骤,可以快速部署并享受高效的模型推理体验。同时支持 ControlNet 插件和 Lora & Lycoris 模型扩展,增强工具的灵活性和功能性。适用于 Windows 和 Linux 系统,详细文档参见官方网站。
YOLOv8-TensorRT-CPP - 用C++和TensorRT实现高效的YOLOv8模型推理
YOLOv8TensorRTCPP目标检测深度学习Github开源项目
本文介绍了如何使用TensorRT的C++ API实现YOLOv8模型的推理,支持目标检测、语义分割和身体姿态估计,包括系统要求、安装步骤、模型转换和项目构建方法。内容中强调了在GPU上运行推理的注意事项和性能基准测试,提供了从PyTorch到ONNX模型转换的详细步骤,是开发计算机视觉应用的参考资料。
DeepStream-Yolo - NVIDIA DeepStream SDK的YOLO模型配置与优化指南
DeepStreamYOLONVIDIATensorRTCUDAGithub开源项目
该项目为多个版本及平台的YOLO模型提供NVIDIA DeepStream SDK配置和优化指南,包括YOLOv5、YOLOv6、YOLOv7和YOLOv8等。项目功能涵盖INT8校准、动态批处理及GPU边界框解析,并提供详细的安装、使用和自定义模型指南,帮助用户实现高效的GPU处理和模型转换。
TensorRT - 提升PyTorch推理效率的工具
Torch-TensorRTPyTorchCUDATensorRT安装Github开源项目
Torch-TensorRT将TensorRT的强大功能引入PyTorch,用户仅需一行代码即可显著提升推理性能。该工具支持在多个平台上安装,包括PyPI和NVIDIA NGC PyTorch容器。通过torch.compile或导出式工作流,用户可以高效优化和部署模型。Torch-TensorRT依赖CUDA和TensorRT,与Linux和Windows等多种平台兼容。提供丰富资源,包括教程、工具和技术讲座,供用户学习使用。
ppq - 多功能的神经网络量化工具
PPQ神经网络量化OnnxTensorRT量化优化Github开源项目
PPQ 是一个适用于工业应用的神经网络量化工具。通过将浮点运算转换为定点运算,它显著提升系统功耗效率和执行速度。具备高度扩展性,用户可自定义量化过程,并结合多种硬件和推理库使用。版本 0.6.6 更新了图模式匹配、图融合功能,并新增 FP8 量化规范和 PFL 基础类库。支持 TensorRT, Openvino, Onnxruntime 等推理框架,实现高效的神经网络量化部署。
yolov5-face - 基于YOLOv5框架的实时高精度人脸检测
YOLOv5-facencnn-android-yolov8-faceBlazeFaceMulti-Task-FacialTensorRTGithub开源项目
基于YOLOv5框架的实时高精度人脸检测。该项目展示了不同版本(包括YOLOv5、YOLOv7、YOLOv8)在人脸检测中的性能表现,不同难度和硬件环境下的测试结果。提供了多种开源演示和预训练模型下载链接,支持多个平台如TensorRT、Android、OpenCV等。详细的训练和评估指南帮助用户在WIDERFace数据集上进行测试和验证。
FasterLivePortrait - 高效实时AI人像动画生成框架
FasterLivePortraitAI换脸实时渲染TensorRTONNXGithub开源项目
FasterLivePortrait是一个高效的实时AI人像动画生成框架。基于TensorRT优化,在RTX 3090 GPU上可实现30+ FPS的速度。支持ONNX模型转换,便于跨平台部署。主要特性包括原生gradio应用支持、多人脸同时推理和动物模型。项目提供Docker环境,支持Windows一键运行,并兼容macOS系统。该框架为开发者提供了灵活高效的实时人像动画生成功能。
TensorRT_Tutorial - 深度学习推理加速实践指南
TensorRT深度学习GPU加速INT8量化性能优化Github开源项目
TensorRT_Tutorial项目是一个综合性资源库,提供NVIDIA TensorRT深度学习推理加速的实用指南。项目包含中文文档翻译、视频教程、博客文章和代码示例,覆盖TensorRT的基础使用和高级优化。内容涉及核心功能介绍、实际应用经验和优化技巧,为深度学习从业者提升模型推理性能提供了宝贵参考。
tensorrtx - TensorRT深度学习网络实现库
TensorRT深度学习网络GPU加速YOLO系列模型转换Github开源项目
TensorRTx项目使用TensorRT API实现主流深度学习网络。它提供灵活构建、调试和学习TensorRT引擎的方法,支持YOLO、ResNet、MobileNet等多种模型。兼容TensorRT 7.x和8.x版本,并包含详细教程和常见问题解答,方便用户快速入门。
Stable-Diffusion-WebUI-TensorRT - TensorRT优化Stable Diffusion在NVIDIA RTX GPU上的性能
TensorRTStable DiffusionNVIDIA GPU性能优化AI绘图Github开源项目
这个扩展通过TensorRT优化引擎,显著提升了Stable Diffusion在NVIDIA RTX GPU上的性能。它兼容SD 1.5、2.1、SDXL和SDXL Turbo等多个版本。扩展提供了简便的默认引擎生成和快速启用功能,同时支持LoRA转换与应用。为满足不同需求,扩展提供多种引擎类型,可适应各种分辨率和批量大小。高级用户还可进行个性化设置,灵活调整性能参数。
VSGAN-tensorrt-docker - 基于TensorRT的视频超分辨率和帧插值加速方案
TensorRT深度学习加速视频处理超分辨率帧插值Github开源项目
该项目利用TensorRT加速视频超分辨率和帧插值模型,致力于提供最快的推理速度。支持Rife、RealCUGAN、GMFupSS等多种模型架构,同时提供CUDA和TensorRT版本。项目集成了自动去重、镜头边界检测等功能,并支持多GPU。通过Docker,可以方便地部署和使用这些高性能模型。
ComfyUI_stable_fast - 整合了stable-fast和TensorRT技术,旨在提高AI图像生成的速度和效率
ComfyUITensorRTstable-fastAI绘图性能优化Github开源项目
ComfyUI_stable_fast是一个实验性项目,整合了stable-fast和TensorRT技术,旨在提高AI图像生成的速度和效率。该项目支持SD1.5、SDXL和SSD-1B等主流模型,兼容Lora和ControlNet功能。通过性能优化和灵活配置,用户可根据硬件条件选择最佳运行方式,实现更快速的AI图像生成。
enhancr - 基于AI的多功能视频增强软件
enhancr视频增强人工智能图形用户界面TensorRTGithub开源项目
enhancr是一款开源的视频增强软件,集成了AI驱动的帧插值和超分辨率功能。它支持NVIDIA TensorRT和NCNN推理引擎,兼容NVIDIA、AMD和Apple Silicon等多种GPU。软件提供图形界面,具备实时预览、批量处理和自定义模型等特性,可满足不同用户的视频增强需求。
ComfyUI_TensorRT - 利用TensorRT优化稳定扩散模型在NVIDIA RTX显卡上的性能
TensorRTComfyUINVIDIA GPUAI模型优化稳定扩散Github开源项目
ComfyUI_TensorRT项目为ComfyUI提供了TensorRT节点,旨在优化NVIDIA RTX显卡上稳定扩散模型的性能。该项目支持多个版本的稳定扩散模型,包括SDXL、SVD和AuraFlow等。通过生成GPU专用的TensorRT引擎,实现了模型运行效率的显著提升。项目支持动态和静态引擎构建,适应不同的分辨率和批量大小需求。此外,项目还提供了详细的安装和使用指南,便于用户在ComfyUI中集成和应用。
torch2trt - PyTorch模型转TensorRT加速工具
torch2trtTensorRTPyTorch模型转换GPU加速Github开源项目
torch2trt是一款将PyTorch模型转换为TensorRT的开源工具。它基于TensorRT Python API开发,具有简单易用和灵活可扩展的特点。用户通过单个函数调用即可完成模型转换,还支持自定义层转换器。该工具适配多种常用模型,并提供模型保存和加载功能。torch2trt能显著提升NVIDIA设备上的模型推理性能,适用于PyTorch模型推理加速场景。
yolov5-deepsort-tensorrt - 基于YOLOv5和DeepSORT的Jetson设备目标跟踪系统
Yolov5DeepSortTensorRTJetson目标跟踪Github开源项目
这个项目是YOLOv5和DeepSORT算法在Jetson设备上的C++实现,针对Jetson Xavier NX和Jetson Nano进行了优化。系统能够高效跟踪多个人头目标,在Jetson Xavier NX上处理70多个目标时可达到10 FPS。项目包含环境配置、模型生成和运行指南,支持自定义模型,并提供了不同YOLOv5版本的兼容性说明。适合需要在边缘设备上进行高性能目标跟踪的应用场景。
BEVFormer_tensorrt - BEVFormer和BEVDet的TensorRT高效部署方案
BEV 3D DetectionTensorRT推理加速量化GPU内存优化Github开源项目
本项目实现BEVFormer和BEVDet在TensorRT上的高效部署,支持FP32/FP16/INT8推理。通过优化TensorRT算子,BEVFormer base模型推理速度提升4倍,模型大小减少90%,GPU内存节省80%。同时支持MMDetection中2D目标检测模型的INT8量化部署。项目提供详细基准测试,展示不同配置下的精度和速度表现。
trt_yolo_video_pipeline - 基于TensorRT的多路视频分析处理框架
TensorRT视频分析目标检测多路并发硬件编解码Github开源项目
TRT-VideoPipeline是一个基于TensorRT的多路视频分析处理框架。该项目支持YOLO系列模型推理,实现单模型多显卡多实例负载调度,并利用GPU进行数据处理。框架支持NVIDIA硬件编解码,可处理RTSP、RTMP、MP4等多种视频格式。其模块化设计便于功能节点的灵活组合,适应不同应用场景。
相关文章
jetson-inference: 在NVIDIA Jetson上部署深度学习推理网络的指南
3 个月前
WhisperLive: 实时语音转文字的革新之作
3 个月前
Radiata: 基于Diffusers的稳定扩散Web UI
3 个月前
YOLOv5-Face: 高效实时的人脸检测与识别解决方案
3 个月前
DeepStream-Yolo:在NVIDIA DeepStream中实现YOLO模型
3 个月前
PPQ: 强大的离线神经网络量化工具
3 个月前
ONNX-TensorRT: 高效实现ONNX模型到TensorRT的转换
3 个月前
YOLOv8-TensorRT: 使用TensorRT加速YOLOv8目标检测
3 个月前
TensorRT: NVIDIA的高性能深度学习推理引擎
3 个月前