#PyTorch

skorch - scikit-learn兼容的PyTorch神经网络库

skorchPyTorchscikit-learn神经网络GridSearchCVGithub开源项目

skorch 是一款与 scikit-learn 兼容的神经网络库，通过封装 PyTorch 简化深度学习模型的构建和训练。功能包括学习率调度、早停与参数冻结等，并支持 Hugging Face 和 GPyTorch 的集成。用户可通过 pip 或 conda 安装，并在 sklearn Pipeline 和网格搜索中使用其功能，提升深度学习模型的开发与优化效率。

ao - 优化PyTorch工作流，实现高性能和内存占用减少

torchaoPyTorch模型量化推理训练Github开源项目

torchao是一个用于PyTorch工作流的高性能库，能够创建并集成自定义数据类型和优化技术，实现推理速度提升至2倍，显存减少65%。无需大幅修改代码，保持准确度。支持量化、稀疏化及浮点数优化，适用于HuggingFace等模型。用户可以轻松优化模型，提高计算效率。支持int8、int4和float8等多种数据类型，兼容torch.compile()和FSDP。

prismer - 集成多任务专家的先进视觉语言模型

PrismerPrismerZHuggingfacePyTorchVision-Language ModelGithub开源项目

Prismer 是一款集成多任务专家的视觉语言模型，适用于图像标注和视觉问答任务。基于PyTorch 1.13，实现了与Huggingface工具的深度融合，支持多节点和多GPU训练。模型支持包括COCO 2014和Visual Genome在内的多个数据集进行预训练和微调，提供Prismer和PrismerZ多个版本的模型检查点。

pytorch-cpp - C++ 实现的 PyTorch 教程，为深度学习研究者提供从基础到高级的全面指南

PyTorchC++深度学习教程LibTorchGithub开源项目

本项目提供了 C++ 版本的 PyTorch 教程，适用于从基础到高级的深度学习研究者，涵盖线性回归、卷积神经网络和生成对抗网络等内容。支持 macOS、Linux 和 Windows 的多平台编译和运行，项目要求包括 C++-17 兼容编译器、CMake 和合适版本的 LibTorch。含有全面的构建与运行指南，以及交互式教程和 Docker 支持。

DragGAN - 基于交互点的生成图像操作

DragGANStyleGAN3PyTorchSIGGRAPH 2023GANGithub开源项目

DragGAN项目介绍了一种基于交互点操作的生成图像技术，可以在生成图像流形上进行精确调整。内容包括技术实现步骤如安装依赖、运行Docker、下载预训练权重和使用GUI进行图像编辑。该项目关键是集成了StyleGAN3和部分StyleGAN-Human代码，提供一个在Linux和Windows系统上高效运行的图像编辑工具。代码遵循CC-BY-NC许可，部分源代码基于Nvidia Source Code License。

cycle-diffusion - 零样本图像翻译与无配对图片转换的扩散模型方法

CycleDiffusion扩散模型零样本图像编辑HuggingFacePyTorchGithub开源项目

该项目展示了如何正规化扩散模型中的随机种子，并实现零样本图像到图像翻译和指导。CycleDiffusion方法无需配对图像，利用稳定扩散等模型实现图像翻译。项目还提供详细的安装和使用指南，包括依赖项、预训练模型和评估数据等内容，通过这些工具可提高生成图像的质量和一致性。

onnx2torch - ONNX模型转换至PyTorch的转换器

onnx2torchONNXPyTorch转换器安装Github开源项目

onnx2torch转换器使从ONNX到PyTorch的模型转换变得简单，从而简化深度学习工作流。通过简单函数调用即可完成转换，并支持自定义层扩展，且支持模型返回ONNX格式。适用于分割、检测、分类和变压器模型。尽管当前支持的模型和操作有限，用户可以通过GitHub反馈需求，以协助开发团队改进。支持通过pip或conda快速安装，并提供详细的使用示例和扩展教程。

onediff - 扩散模型加速库

onediffHF diffusersComfyUIPyTorchGPU加速Github开源项目

onediff提供开箱即用的扩散模型加速库，支持HF diffusers和ComfyUI。具备PyTorch代码编译及优化GPU内核，提升速度可达1.7倍。支持SD、SVD、LoRA等算法，兼容多种NVIDIA GPU。网站提供详细的安装与使用指南、性能对比及质量评估，适用于生产环境。了解更多关于onediff的加速方法和最新更新，以及详细的架构与功能特点。

stable-fast - 优化HuggingFace Diffusers推理性能的轻量级框架

Stable FastDiffusersPyTorchCUDATorchScriptGithub开源项目

stable-fast是一个优化HuggingFace Diffusers推理性能的轻量级框架，支持NVIDIA GPU。相比TensorRT和AITemplate需要几十分钟的编译时间，stable-fast仅需几秒钟即可完成模型编译。主要特色包括动态形状、低精度计算和多种算子融合。它还兼容ControlNet和LoRA，并支持最新的StableVideoDiffusionPipeline，是加速PyTorch推理的有效工具。

3DMPPE_ROOTNET_RELEASE - 单张RGB图像的相机距离感知的3D多人人体姿态估计实现

PyTorch3D姿态估计RootNet多人体姿态估计RGB图像Github开源项目

此项目基于PyTorch实现了3D多人人体姿态估计，兼容多种公开的2D和3D数据集，如Human3.6M、MPII、MS COCO、MuCo-3DHP、MuPoTS-3D和3DPW。其特点包括代码简洁灵活、直观的人体姿态可视化，并支持不同单位系统的适配。项目还提供详细的训练和测试指南，旨在帮助用户在GPU环境下高效运行姿态估计算法。

MiVOS - 交互式视频对象分割方法与差异感知融合

MiVOS视频对象分割交互式分割DAVISPyTorchGithub开源项目

该项目介绍了一种模块化的交互视频对象分割方法，通过交互生成对象掩码并采用差异感知的融合模块进行处理。该方法在DAVIS和YouTube等基准测试中表现出色，并支持用户交互的GUI工具，简化了视频对象标注过程。项目还集成了多个预训练模型，并提供了快速下载和数据生成脚本，为研究人员和开发者提供了便捷高效的解决方案。

acezero - 基于增量学习的图像集合场景重建与姿态估计方法

ACE0PyTorch深度估计场景坐标重建相机注册Github开源项目

该项目提出了一种基于增量学习的场景坐标重建方法，结合了RANSAC和DSAC*算法，实现了高精度的图像姿态估计。ACE0提供了丰富的实验数据和可视化工具，支持部分重建和自监督重定位等高级用例。项目代码基于PyTorch实现，并已在Ubuntu 20.04和多种GPU环境下测试。

daam - 解释稳定扩散模型的跨注意力归因图方法

DAAMStable DiffusionHugging FacePyTorchColabGithub开源项目

这篇文章介绍了一种基于跨注意力机制的方法——注意力归因图（DAAM），用于解析稳定扩散模型。内容包括DAAM在命令行界面和库中的实际应用示例，以及在HuggingFace平台上的在线演示。文章展示了如何生成与单词关联的热力图，支持Stable Diffusion XL (SDXL)和Diffusers 0.21.1版本的模型。还提供了PyTorch安装指南和DAAM快速入门教程，帮助用户实现和探索模型结果。文章中还包括相关视频资源和扩展工具的链接，供用户参考。

InfiniTransformer - 非官方的PyTorch和Transformers实现

InfiniTransformerPyTorch🤗TransformersLlama3Gemma modelGithub开源项目

InfiniTransformer是一个非官方的PyTorch和Transformers实现，支持Llama3和Gemma模型。包含两种Infini注意力实现类型：全模型替换和仅替换注意力层。详细介绍了从克隆仓库、安装依赖到训练和推理的步骤，便于用户快速上手和扩展。

keras_cv_attention_models - 深度学习模型和使用指南

Keras_cv_attention_modelsTensorFlowPyTorch模型训练Github开源项目

该项目提供全面的深度学习模型和使用指南，支持Keras和PyTorch后端。涵盖基础操作、模型训练、推理优化等功能，并详细介绍识别、检测、分割和语言模型的使用。还支持ONNX导出和推理性能评估。

Stylized-ImageNet - 介绍如何在卷积神经网络中创建和使用风格化的ImageNet数据集

ImageNetStylized-ImageNetCNNPyTorchTensorFlowGithub开源项目

项目详细介绍了如何创建Stylized-ImageNet，一个经风格化处理的ImageNet版本，用于诱导卷积神经网络（CNN）的形状偏向。Stylized-ImageNet通过改变图像的局部纹理而保持整体形状完整，并有助于提高模型的准确性和鲁棒性。项目提供了使用说明、训练细节和Docker镜像，简化实现过程。用户还可使用提供的代码对任何图像数据集进行风格化处理，提升研究效率。

InSPyReNet - 优化显著目标检测的高分辨率图像金字塔网络

InSPyReNet显著性目标检测高分辨率图像图像金字塔PyTorchGithub开源项目

本项目介绍了一种基于图像金字塔的显著目标检测框架，称为逆显著性金字塔重构网络（InSPyReNet）。该方法无需高分辨率数据集即可进行高分辨率预测，并通过多尺度的图像融合解决感受野差异问题。实验结果表明，InSPyReNet在多项显著目标检测指标和边界精度上优于现有方法。项目提供了PyTorch实现，支持多GPU训练，且在HuggingFace等平台上提供了Web演示和命令行工具。

carefree-learn - 简化深度学习流程，支持PyTorch高效训练与推理

PyTorchdeep learningMIT许可模块化AI模型Github开源项目

carefree-learn项目致力于简化深度学习流程，特别是基于PyTorch的训练与推理。采用模块优先、原生兼容的设计原则，支持AI模型推理，符合现代AI的发展趋势，并遵循MIT许可证。项目提供易于使用的接口和高性能模块，适合开发者与使用者。

silero-vad - 企业级预训练语音活动检测工具，适用于多种平台

Silero VAD音频处理语音活动检测声学模型PyTorchGithub开源项目

Silero VAD 是一种企业级预训练语音活动检测工具，具备高精确度和快速处理能力。支持多种采样率、体积小巧，适用于 IoT、移动设备和电信应用。通过 PyTorch 和 ONNX 实现高度便携，无需注册或密钥，易于集成和广泛使用。

doctr - 由深度学习提供支持的无缝、高性能和可访问的库，用于 OCR 相关任务

docTROCRTensorFlowPyTorch文本识别Github开源项目

docTR提供高效、准确的OCR解决方案，支持PDF和图像文件，基于TensorFlow 2和PyTorch。能快速检测识别文档文字，并提供多种处理旋转文档选项。用户可使用预训练模型快速上手或自定义架构。解析结果可视化且支持导出为JSON格式，方便后续处理和分析。

Mask3D - 改进3D语义实例分割方法，兼容多种数据集

Mask3D3D实例分割ScanNetPyTorchICRA 2023Github开源项目

Mask3D是一个提升3D语义实例分割的开源项目，支持ScanNet、ScanNet200、S3DIS和STPLS3D数据集。项目集成了PyTorch、PyTorch Lightning和Hydra工具，提供高效的架构和训练流程，包括数据预处理、模型训练与测试。此外，Mask3D在多个挑战中表现优异，包括在ECCV 2022的Urban3D挑战中获得第二名。

text2cinemagraph - 文本描述生成电影图像的全自动方法

Text2CinemagraphStable DiffusionPyTorchOptical Flow PredictionODISEGithub开源项目

该项目提供了一种由文本描述生成映画图的全自动方法。通过Stable Diffusion技术，从自然图像和视频数据集中提取语义信息，预测并传递运动到艺术风格图像中，生成电影图像。详细说明了环境设置、预训练模型下载及推理和训练指南，适用于高级图像处理和动画生成的用户。

torch-conv-kan - 引入基于Kolmogorov-Arnold表示理论的高效卷积神经网络

TorchConv KANKolmogorov-Arnold NetworksPyTorchConvolutional layersCUDAGithub开源项目

项目展示了使用PyTorch和CUDA加速的Kolmogorov-Arnold网络（KAN）模型的训练、验证和量化，支持MNIST、CIFAR、TinyImagenet和Imagenet1k数据集的性能评估。当前项目持续开发，已发布涉及ResNet、VGG、DenseNet、U-net等架构的新模型和预训练权重，适用于医疗图像分割和高效卷积神经网络的进一步研究和优化。

SAM-Adapter-PyTorch - 提升复杂场景下图像分割效果的开源项目

SAM-AdapterSegment AnythingICCVPythonPyTorchGithub开源项目

SAM-Adapter项目提升了SAM在伪装、阴影和医疗图像分割中的表现。最新的更新支持更强大的SAM2骨干网络，并提供多种预训练模型和数据集下载链接，便于快速上手。该项目在IEEE/CVF国际计算机视觉会议上展示，并包含详细的环境配置和训练指南，方便研究人员进行深度学习任务。

PINTO_model_zoo - 提供多框架神经网络模型转换与量化的开源工具

PINTO_model_zoo量化TensorFlowONNXPyTorchGithub开源项目

PINTO_model_zoo 是一个开源工具库，支持 TensorFlow、PyTorch、ONNX、OpenVINO 等多个框架的模型转换和量化。项目提供多种量化方法，包括权重量化、整数量化和浮点数量化，旨在优化模型性能以适应不同平台，如 RaspberryPi 和 EdgeTPU。它还提供大量预量化模型和详细转换指南，帮助开发者在各种设备上高效部署深度学习模型。

3D-BoundingBox - 使用深度学习与几何方法，实现高效的3D边界框估计

3D Bounding BoxPyTorchYOLOv3Kitti深度学习Github开源项目

项目提供基于PyTorch的深度学习解决方案，通过结合YOLOv3和2D-3D几何转换，实现高效3D边界框估计。主要功能包括下载预训练权重、通过视频和图像数据进行模型推理和训练，依赖PyTorch和其他深度学习库。项目未来计划是在Kitti数据集上训练自定义YOLO网络和姿态可视化。目前版本每帧处理时间约为0.4秒，并计划进一步提升速度。文档中详细介绍了模型训练步骤及实际应用操作。

HorNet - 基于递归门控卷积的高效视觉骨干网络

HorNet高阶空间交互Recursive Gated ConvolutionImageNetPyTorchGithub开源项目

HorNet是一个基于递归门控卷积的视觉骨干网络家族，专注于高效的高阶空间交互。项目提供了多个在ImageNet数据集上训练和评估的模型，如HorNet-T、HorNet-S和HorNet-B，广泛应用于图像分类和点云理解等领域。项目页面提供详细的训练和评估说明及模型下载链接。HorNet在提升图像和3D对象分类精度方面表现优异，是计算机视觉研究中的重要工具。

gpytorch - 基于PyTorch实现的灵活高斯过程建模工具

GPyTorchGaussian processPyTorchGPU加速KISS-GPGithub开源项目

GPyTorch是一个基于PyTorch实现的高斯过程库，旨在简便地创建可扩展、灵活的高斯过程模型。它通过数值线性代数技术实现了显著的GPU加速，并集成了如SKI/KISS-GP和随机Lanczos展开等先进算法，同时能与深度学习框架无缝结合。支持Python 3.8及以上版本。更多信息、示例和教程请参阅官方文档。

kaolin - 提供3D深度学习工具的PyTorch库

KaolinPyTorch3D深度学习NVIDIA渲染Github开源项目

Kaolin库提供多种3D表示形式的PyTorch API，包含模块化可微渲染、快速转换、数据加载、3D检查点、可微摄像机和光照API等GPU优化操作。版本0.16.0新增Simplicits方法用于弹性模拟和四元数数学功能，优化工作流程。用户可通过教程快速使用新API进行模型可视化。

PerceptualSimilarity - 利用深度特征提供图像块相似度评估的方法

LPIPSBAPPSPyTorchPerceptual MetricPerceptual LossGithub开源项目

由Richard Zhang等人在CVPR 2018上提出的感知相似性度量和数据集项目，通过利用深度特征提供图像块相似度评估的新方法。项目包括感知度量（LPIPS）和数据集（BAPPS），适用于PyTorch和TensorFlow，可用于感知损失优化。主要功能包括通过命令行和Python代码评估图像距离，并提供多种网络架构选择。项目详细介绍了度量和数据集的使用及训练方法，从依赖设置到实际应用的全面指导，适合研究人员和开发者。

PARE - 三维人体姿态与形状估计的遮挡问题解决方案

PARE3D人体姿态估计ICCV 2021PyTorch人体形状估计Github开源项目

PARE是一种三维人体姿态和形状估计方法，具备遮挡鲁棒性。该项目基于PyTorch实现，提供演示和评估代码，支持在Ubuntu 18.04和Python 3.7以上环境下运行。用户可以通过Google Colab体验其功能，包括详细的训练和评估指引以及遮挡敏感性分析脚本，适用于非商业科学研究。

Holocron - 深度学习计算机视觉技巧的高效实现与应用

HolocronPyTorch深度学习计算机视觉模型Github开源项目

Holocron项目提供深度学习计算机视觉最新技术的高效实现，增强开发者灵活性并与PyTorch生态系统兼容。支持多种图像分类、目标检测和语义分割模型，包括Res2Net、Darknet和YOLO等。项目附带详细文档、示例代码和实时演示，助力开发者快速上手并部署高性能视觉解决方案，并提供多种优化算法和工具提升训练效率与准确性。适用于追求前沿性能和灵活开发环境的研究人员和工程师。

V2V-PoseNet_RELEASE - 从单个深度图进行高精度3D手部和人体姿态预测

V2V-PoseNet3D手势估计深度图PyTorch团队SNU CVLABGithub开源项目

V2V-PoseNet是一种基于单个深度图的高精度3D手部和人体姿态估计方法。该项目由首尔国立大学计算机视觉实验室开发，并在HANDS2017挑战赛中表现出色。其内容包括模型架构、训练代码、数据集说明及预训练模型下载。支持ICVL、NYU、MSRA和ITOP等多个著名数据集，并提供详细的比较和测试结果。仓库还包含可视化代码，方便研究人员进一步应用和测试。

fast-reid - 重识别方法和工具箱

FastReIDPyTorch重识别人脸识别模型转化Github开源项目

FastReID是一个研究平台，实现了先进的实例重识别算法，重新编写前一版本（reid strong baseline）而来。该平台支持图像检索和人脸识别等多项任务，具备自动混合精度训练、多GPU分布式训练、模型蒸馏等功能，支持多种骨干网络结构和多个数据集的同时测试。新更新包括支持DG-ReID和Vision Transformer骨干网络。更多信息请参考官方文档。

hummingbird - 用于将经过训练的传统 ML 模型编译为张量计算的库

Hummingbird机器学习模型PyTorch神经网络加速推理Github开源项目

Hummingbird通过将训练好的传统机器学习模型编译为张量计算，使其能够借助神经网络框架（如PyTorch）加速。用户可利用神经网络框架的优化和硬件加速，无需重新设计模型。支持多种模型如决策树、随机森林、LightGBM和XGBoost，并提供易于替换的推理API。支持转换为PyTorch、TorchScript、ONNX和TVM格式。

pytorch-CycleGAN-and-pix2pix - PyTorch中的高效CycleGAN和pix2pix图像翻译

CycleGANpix2pixPyTorch图像翻译神经网络Github开源项目

该项目提供了PyTorch框架下的CycleGAN和pix2pix图像翻译实现，支持配对和无配对的图像翻译。最新版本引入img2img-turbo和StableDiffusion-Turbo模型，提高了训练和推理效率。项目页面包含详细的安装指南、训练和测试步骤，以及常见问题解答。适用于Linux和macOS系统，兼容最新的PyTorch版本，并提供Docker和Colab支持，便于快速上手。

相关文章

Article Cover

RelBench：斯坦福大学最新发布，将关系型数据库转为图形表示，提高预测准确性

2024年08月03日

Article Cover

CycleGAN: 无配对图像到图像转换的革命性技术

Article Cover

MockingBird: 5秒内克隆声音并生成任意语音内容的AI技术

Article Cover

PyTorch-Grad-CAM:计算机视觉的高级AI可解释性工具

Article Cover

RobustVideoMatting: 突破性的实时高分辨率视频抠图技术

Article Cover

DeepPavlov: 开源对话系统和聊天机器人的深度学习框架

Article Cover

Thinc：一个创新的深度学习库，为您的机器学习项目带来全新体验

Article Cover

DeepPavlov: 开源对话系统和聊天机器人的深度学习框架

Article Cover

Pyannote：揭秘声音的DNA，精准分辨出各个发言者的声音

2024年08月03日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号