#PyTorch

skorch - scikit-learn兼容的PyTorch神经网络库
skorchPyTorchscikit-learn神经网络GridSearchCVGithub开源项目
skorch 是一款与 scikit-learn 兼容的神经网络库,通过封装 PyTorch 简化深度学习模型的构建和训练。功能包括学习率调度、早停与参数冻结等,并支持 Hugging Face 和 GPyTorch 的集成。用户可通过 pip 或 conda 安装,并在 sklearn Pipeline 和网格搜索中使用其功能,提升深度学习模型的开发与优化效率。
ao - 优化PyTorch工作流,实现高性能和内存占用减少
torchaoPyTorch模型量化推理训练Github开源项目
torchao是一个用于PyTorch工作流的高性能库,能够创建并集成自定义数据类型和优化技术,实现推理速度提升至2倍,显存减少65%。无需大幅修改代码,保持准确度。支持量化、稀疏化及浮点数优化,适用于HuggingFace等模型。用户可以轻松优化模型,提高计算效率。支持int8、int4和float8等多种数据类型,兼容torch.compile()和FSDP。
prismer - 集成多任务专家的先进视觉语言模型
PrismerPrismerZHuggingfacePyTorchVision-Language ModelGithub开源项目
Prismer 是一款集成多任务专家的视觉语言模型,适用于图像标注和视觉问答任务。基于PyTorch 1.13,实现了与Huggingface工具的深度融合,支持多节点和多GPU训练。模型支持包括COCO 2014和Visual Genome在内的多个数据集进行预训练和微调,提供Prismer和PrismerZ多个版本的模型检查点。
pytorch-cpp - C++ 实现的 PyTorch 教程,为深度学习研究者提供从基础到高级的全面指南
PyTorchC++深度学习教程LibTorchGithub开源项目
本项目提供了 C++ 版本的 PyTorch 教程,适用于从基础到高级的深度学习研究者,涵盖线性回归、卷积神经网络和生成对抗网络等内容。支持 macOS、Linux 和 Windows 的多平台编译和运行,项目要求包括 C++-17 兼容编译器、CMake 和合适版本的 LibTorch。含有全面的构建与运行指南,以及交互式教程和 Docker 支持。
DragGAN - 基于交互点的生成图像操作
DragGANStyleGAN3PyTorchSIGGRAPH 2023GANGithub开源项目
DragGAN项目介绍了一种基于交互点操作的生成图像技术,可以在生成图像流形上进行精确调整。内容包括技术实现步骤如安装依赖、运行Docker、下载预训练权重和使用GUI进行图像编辑。该项目关键是集成了StyleGAN3和部分StyleGAN-Human代码,提供一个在Linux和Windows系统上高效运行的图像编辑工具。代码遵循CC-BY-NC许可,部分源代码基于Nvidia Source Code License。
cycle-diffusion - 零样本图像翻译与无配对图片转换的扩散模型方法
CycleDiffusion扩散模型零样本图像编辑HuggingFacePyTorchGithub开源项目
该项目展示了如何正规化扩散模型中的随机种子,并实现零样本图像到图像翻译和指导。CycleDiffusion方法无需配对图像,利用稳定扩散等模型实现图像翻译。项目还提供详细的安装和使用指南,包括依赖项、预训练模型和评估数据等内容,通过这些工具可提高生成图像的质量和一致性。
onnx2torch - ONNX模型转换至PyTorch的转换器
onnx2torchONNXPyTorch转换器安装Github开源项目
onnx2torch转换器使从ONNX到PyTorch的模型转换变得简单,从而简化深度学习工作流。通过简单函数调用即可完成转换,并支持自定义层扩展,且支持模型返回ONNX格式。适用于分割、检测、分类和变压器模型。尽管当前支持的模型和操作有限,用户可以通过GitHub反馈需求,以协助开发团队改进。支持通过pip或conda快速安装,并提供详细的使用示例和扩展教程。
onediff - 扩散模型加速库
onediffHF diffusersComfyUIPyTorchGPU加速Github开源项目
onediff提供开箱即用的扩散模型加速库,支持HF diffusers和ComfyUI。具备PyTorch代码编译及优化GPU内核,提升速度可达1.7倍。支持SD、SVD、LoRA等算法,兼容多种NVIDIA GPU。网站提供详细的安装与使用指南、性能对比及质量评估,适用于生产环境。了解更多关于onediff的加速方法和最新更新,以及详细的架构与功能特点。
stable-fast - 优化HuggingFace Diffusers推理性能的轻量级框架
Stable FastDiffusersPyTorchCUDATorchScriptGithub开源项目
stable-fast是一个优化HuggingFace Diffusers推理性能的轻量级框架,支持NVIDIA GPU。相比TensorRT和AITemplate需要几十分钟的编译时间,stable-fast仅需几秒钟即可完成模型编译。主要特色包括动态形状、低精度计算和多种算子融合。它还兼容ControlNet和LoRA,并支持最新的StableVideoDiffusionPipeline,是加速PyTorch推理的有效工具。
3DMPPE_ROOTNET_RELEASE - 单张RGB图像的相机距离感知的3D多人人体姿态估计实现
PyTorch3D姿态估计RootNet多人体姿态估计RGB图像Github开源项目
此项目基于PyTorch实现了3D多人人体姿态估计,兼容多种公开的2D和3D数据集,如Human3.6M、MPII、MS COCO、MuCo-3DHP、MuPoTS-3D和3DPW。其特点包括代码简洁灵活、直观的人体姿态可视化,并支持不同单位系统的适配。项目还提供详细的训练和测试指南,旨在帮助用户在GPU环境下高效运行姿态估计算法。
MiVOS - 交互式视频对象分割方法与差异感知融合
MiVOS视频对象分割交互式分割DAVISPyTorchGithub开源项目
该项目介绍了一种模块化的交互视频对象分割方法,通过交互生成对象掩码并采用差异感知的融合模块进行处理。该方法在DAVIS和YouTube等基准测试中表现出色,并支持用户交互的GUI工具,简化了视频对象标注过程。项目还集成了多个预训练模型,并提供了快速下载和数据生成脚本,为研究人员和开发者提供了便捷高效的解决方案。
acezero - 基于增量学习的图像集合场景重建与姿态估计方法
ACE0PyTorch深度估计场景坐标重建相机注册Github开源项目
该项目提出了一种基于增量学习的场景坐标重建方法,结合了RANSAC和DSAC*算法,实现了高精度的图像姿态估计。ACE0提供了丰富的实验数据和可视化工具,支持部分重建和自监督重定位等高级用例。项目代码基于PyTorch实现,并已在Ubuntu 20.04和多种GPU环境下测试。
daam - 解释稳定扩散模型的跨注意力归因图方法
DAAMStable DiffusionHugging FacePyTorchColabGithub开源项目
这篇文章介绍了一种基于跨注意力机制的方法——注意力归因图(DAAM),用于解析稳定扩散模型。内容包括DAAM在命令行界面和库中的实际应用示例,以及在HuggingFace平台上的在线演示。文章展示了如何生成与单词关联的热力图,支持Stable Diffusion XL (SDXL)和Diffusers 0.21.1版本的模型。还提供了PyTorch安装指南和DAAM快速入门教程,帮助用户实现和探索模型结果。文章中还包括相关视频资源和扩展工具的链接,供用户参考。
InfiniTransformer - 非官方的PyTorch和Transformers实现
InfiniTransformerPyTorch🤗TransformersLlama3Gemma modelGithub开源项目
InfiniTransformer是一个非官方的PyTorch和Transformers实现,支持Llama3和Gemma模型。包含两种Infini注意力实现类型:全模型替换和仅替换注意力层。详细介绍了从克隆仓库、安装依赖到训练和推理的步骤,便于用户快速上手和扩展。
keras_cv_attention_models - 深度学习模型和使用指南
Keras_cv_attention_modelsTensorFlowPyTorch模型训练Github开源项目
该项目提供全面的深度学习模型和使用指南,支持Keras和PyTorch后端。涵盖基础操作、模型训练、推理优化等功能,并详细介绍识别、检测、分割和语言模型的使用。还支持ONNX导出和推理性能评估。
Stylized-ImageNet - 介绍如何在卷积神经网络中创建和使用风格化的ImageNet数据集
ImageNetStylized-ImageNetCNNPyTorchTensorFlowGithub开源项目
项目详细介绍了如何创建Stylized-ImageNet,一个经风格化处理的ImageNet版本,用于诱导卷积神经网络(CNN)的形状偏向。Stylized-ImageNet通过改变图像的局部纹理而保持整体形状完整,并有助于提高模型的准确性和鲁棒性。项目提供了使用说明、训练细节和Docker镜像,简化实现过程。用户还可使用提供的代码对任何图像数据集进行风格化处理,提升研究效率。
InSPyReNet - 优化显著目标检测的高分辨率图像金字塔网络
InSPyReNet显著性目标检测高分辨率图像图像金字塔PyTorchGithub开源项目
本项目介绍了一种基于图像金字塔的显著目标检测框架,称为逆显著性金字塔重构网络(InSPyReNet)。该方法无需高分辨率数据集即可进行高分辨率预测,并通过多尺度的图像融合解决感受野差异问题。实验结果表明,InSPyReNet在多项显著目标检测指标和边界精度上优于现有方法。项目提供了PyTorch实现,支持多GPU训练,且在HuggingFace等平台上提供了Web演示和命令行工具。
carefree-learn - 简化深度学习流程,支持PyTorch高效训练与推理
PyTorchdeep learningMIT许可模块化AI模型Github开源项目
carefree-learn项目致力于简化深度学习流程,特别是基于PyTorch的训练与推理。采用模块优先、原生兼容的设计原则,支持AI模型推理,符合现代AI的发展趋势,并遵循MIT许可证。项目提供易于使用的接口和高性能模块,适合开发者与使用者。
silero-vad - 企业级预训练语音活动检测工具,适用于多种平台
Silero VAD音频处理语音活动检测声学模型PyTorchGithub开源项目
Silero VAD 是一种企业级预训练语音活动检测工具,具备高精确度和快速处理能力。支持多种采样率、体积小巧,适用于 IoT、移动设备和电信应用。通过 PyTorch 和 ONNX 实现高度便携,无需注册或密钥,易于集成和广泛使用。
doctr - 由深度学习提供支持的无缝、高性能和可访问的库,用于 OCR 相关任务
docTROCRTensorFlowPyTorch文本识别Github开源项目
docTR提供高效、准确的OCR解决方案,支持PDF和图像文件,基于TensorFlow 2和PyTorch。能快速检测识别文档文字,并提供多种处理旋转文档选项。用户可使用预训练模型快速上手或自定义架构。解析结果可视化且支持导出为JSON格式,方便后续处理和分析。
Mask3D - 改进3D语义实例分割方法,兼容多种数据集
Mask3D3D实例分割ScanNetPyTorchICRA 2023Github开源项目
Mask3D是一个提升3D语义实例分割的开源项目,支持ScanNet、ScanNet200、S3DIS和STPLS3D数据集。项目集成了PyTorch、PyTorch Lightning和Hydra工具,提供高效的架构和训练流程,包括数据预处理、模型训练与测试。此外,Mask3D在多个挑战中表现优异,包括在ECCV 2022的Urban3D挑战中获得第二名。
text2cinemagraph - 文本描述生成电影图像的全自动方法
Text2CinemagraphStable DiffusionPyTorchOptical Flow PredictionODISEGithub开源项目
该项目提供了一种由文本描述生成映画图的全自动方法。通过Stable Diffusion技术,从自然图像和视频数据集中提取语义信息,预测并传递运动到艺术风格图像中,生成电影图像。详细说明了环境设置、预训练模型下载及推理和训练指南,适用于高级图像处理和动画生成的用户。
torch-conv-kan - 引入基于Kolmogorov-Arnold表示理论的高效卷积神经网络
TorchConv KANKolmogorov-Arnold NetworksPyTorchConvolutional layersCUDAGithub开源项目
项目展示了使用PyTorch和CUDA加速的Kolmogorov-Arnold网络(KAN)模型的训练、验证和量化,支持MNIST、CIFAR、TinyImagenet和Imagenet1k数据集的性能评估。当前项目持续开发,已发布涉及ResNet、VGG、DenseNet、U-net等架构的新模型和预训练权重,适用于医疗图像分割和高效卷积神经网络的进一步研究和优化。
SAM-Adapter-PyTorch - 提升复杂场景下图像分割效果的开源项目
SAM-AdapterSegment AnythingICCVPythonPyTorchGithub开源项目
SAM-Adapter项目提升了SAM在伪装、阴影和医疗图像分割中的表现。最新的更新支持更强大的SAM2骨干网络,并提供多种预训练模型和数据集下载链接,便于快速上手。该项目在IEEE/CVF国际计算机视觉会议上展示,并包含详细的环境配置和训练指南,方便研究人员进行深度学习任务。
PINTO_model_zoo - 提供多框架神经网络模型转换与量化的开源工具
PINTO_model_zoo量化TensorFlowONNXPyTorchGithub开源项目
PINTO_model_zoo 是一个开源工具库,支持 TensorFlow、PyTorch、ONNX、OpenVINO 等多个框架的模型转换和量化。项目提供多种量化方法,包括权重量化、整数量化和浮点数量化,旨在优化模型性能以适应不同平台,如 RaspberryPi 和 EdgeTPU。它还提供大量预量化模型和详细转换指南,帮助开发者在各种设备上高效部署深度学习模型。
3D-BoundingBox - 使用深度学习与几何方法,实现高效的3D边界框估计
3D Bounding BoxPyTorchYOLOv3Kitti深度学习Github开源项目
项目提供基于PyTorch的深度学习解决方案,通过结合YOLOv3和2D-3D几何转换,实现高效3D边界框估计。主要功能包括下载预训练权重、通过视频和图像数据进行模型推理和训练,依赖PyTorch和其他深度学习库。项目未来计划是在Kitti数据集上训练自定义YOLO网络和姿态可视化。目前版本每帧处理时间约为0.4秒,并计划进一步提升速度。文档中详细介绍了模型训练步骤及实际应用操作。
HorNet - 基于递归门控卷积的高效视觉骨干网络
HorNet高阶空间交互Recursive Gated ConvolutionImageNetPyTorchGithub开源项目
HorNet是一个基于递归门控卷积的视觉骨干网络家族,专注于高效的高阶空间交互。项目提供了多个在ImageNet数据集上训练和评估的模型,如HorNet-T、HorNet-S和HorNet-B,广泛应用于图像分类和点云理解等领域。项目页面提供详细的训练和评估说明及模型下载链接。HorNet在提升图像和3D对象分类精度方面表现优异,是计算机视觉研究中的重要工具。
gpytorch - 基于PyTorch实现的灵活高斯过程建模工具
GPyTorchGaussian processPyTorchGPU加速KISS-GPGithub开源项目
GPyTorch是一个基于PyTorch实现的高斯过程库,旨在简便地创建可扩展、灵活的高斯过程模型。它通过数值线性代数技术实现了显著的GPU加速,并集成了如SKI/KISS-GP和随机Lanczos展开等先进算法,同时能与深度学习框架无缝结合。支持Python 3.8及以上版本。更多信息、示例和教程请参阅官方文档。
kaolin - 提供3D深度学习工具的PyTorch库
KaolinPyTorch3D深度学习NVIDIA渲染Github开源项目
Kaolin库提供多种3D表示形式的PyTorch API,包含模块化可微渲染、快速转换、数据加载、3D检查点、可微摄像机和光照API等GPU优化操作。版本0.16.0新增Simplicits方法用于弹性模拟和四元数数学功能,优化工作流程。用户可通过教程快速使用新API进行模型可视化。
PerceptualSimilarity - 利用深度特征提供图像块相似度评估的方法
LPIPSBAPPSPyTorchPerceptual MetricPerceptual LossGithub开源项目
由Richard Zhang等人在CVPR 2018上提出的感知相似性度量和数据集项目,通过利用深度特征提供图像块相似度评估的新方法。项目包括感知度量(LPIPS)和数据集(BAPPS),适用于PyTorch和TensorFlow,可用于感知损失优化。主要功能包括通过命令行和Python代码评估图像距离,并提供多种网络架构选择。项目详细介绍了度量和数据集的使用及训练方法,从依赖设置到实际应用的全面指导,适合研究人员和开发者。
PARE - 三维人体姿态与形状估计的遮挡问题解决方案
PARE3D人体姿态估计ICCV 2021PyTorch人体形状估计Github开源项目
PARE是一种三维人体姿态和形状估计方法,具备遮挡鲁棒性。该项目基于PyTorch实现,提供演示和评估代码,支持在Ubuntu 18.04和Python 3.7以上环境下运行。用户可以通过Google Colab体验其功能,包括详细的训练和评估指引以及遮挡敏感性分析脚本,适用于非商业科学研究。
Holocron - 深度学习计算机视觉技巧的高效实现与应用
HolocronPyTorch深度学习计算机视觉模型Github开源项目
Holocron项目提供深度学习计算机视觉最新技术的高效实现,增强开发者灵活性并与PyTorch生态系统兼容。支持多种图像分类、目标检测和语义分割模型,包括Res2Net、Darknet和YOLO等。项目附带详细文档、示例代码和实时演示,助力开发者快速上手并部署高性能视觉解决方案,并提供多种优化算法和工具提升训练效率与准确性。适用于追求前沿性能和灵活开发环境的研究人员和工程师。
V2V-PoseNet_RELEASE - 从单个深度图进行高精度3D手部和人体姿态预测
V2V-PoseNet3D手势估计深度图PyTorch团队SNU CVLABGithub开源项目
V2V-PoseNet是一种基于单个深度图的高精度3D手部和人体姿态估计方法。该项目由首尔国立大学计算机视觉实验室开发,并在HANDS2017挑战赛中表现出色。其内容包括模型架构、训练代码、数据集说明及预训练模型下载。支持ICVL、NYU、MSRA和ITOP等多个著名数据集,并提供详细的比较和测试结果。仓库还包含可视化代码,方便研究人员进一步应用和测试。
fast-reid - 重识别方法和工具箱
FastReIDPyTorch重识别人脸识别模型转化Github开源项目
FastReID是一个研究平台,实现了先进的实例重识别算法,重新编写前一版本(reid strong baseline)而来。该平台支持图像检索和人脸识别等多项任务,具备自动混合精度训练、多GPU分布式训练、模型蒸馏等功能,支持多种骨干网络结构和多个数据集的同时测试。新更新包括支持DG-ReID和Vision Transformer骨干网络。更多信息请参考官方文档。
hummingbird - 用于将经过训练的传统 ML 模型编译为张量计算的库
Hummingbird机器学习模型PyTorch神经网络加速推理Github开源项目
Hummingbird通过将训练好的传统机器学习模型编译为张量计算,使其能够借助神经网络框架(如PyTorch)加速。用户可利用神经网络框架的优化和硬件加速,无需重新设计模型。支持多种模型如决策树、随机森林、LightGBM和XGBoost,并提供易于替换的推理API。支持转换为PyTorch、TorchScript、ONNX和TVM格式。
pytorch-CycleGAN-and-pix2pix - PyTorch中的高效CycleGAN和pix2pix图像翻译
CycleGANpix2pixPyTorch图像翻译神经网络Github开源项目
该项目提供了PyTorch框架下的CycleGAN和pix2pix图像翻译实现,支持配对和无配对的图像翻译。最新版本引入img2img-turbo和StableDiffusion-Turbo模型,提高了训练和推理效率。项目页面包含详细的安装指南、训练和测试步骤,以及常见问题解答。适用于Linux和macOS系统,兼容最新的PyTorch版本,并提供Docker和Colab支持,便于快速上手。