Logo

#Pytorch

Logo of EasyOCR
EasyOCR
EasyOCR是一款支持80多种语言和主要书写系统(如拉丁文、中文、阿拉伯文等)的光学字符识别(OCR)工具。它提供简单的安装和使用指南,帮助快速实现文本检测与识别,适用于多种场景。最新版本增加了Apple Silicon支持并修复了兼容性问题。未来版本将支持手写文本识别,进一步增强其功能。
Logo of eat_pytorch_in_20_days
eat_pytorch_in_20_days
本书帮助读者在20天内系统性地掌握Pytorch,从基础到进阶,涵盖核心概念与实际应用。内容基于Pytorch官方文档,优化了结构和范例,提升了用户友好度。适合有一定基础的学习者,提供每日学习计划和实用代码,并附有资源获取方式。欢迎对Pytorch感兴趣的读者前来学习和讨论,获取全面的深度学习指南。
Logo of WaveRNN
WaveRNN
WaveRNN通过Pytorch实现了Deepmind的高效神经音频合成技术,并包含Tacotron训练支持, 提供两种预训练模型。项目向研究者和开发者开放,并附有详细使用指南与多样化的自定义功能,以便进行高质量的文本到语音转换。
Logo of pytorch-rl
pytorch-rl
pytorch-rl项目在Pytorch中实现了多种深度强化学习算法,适用于连续动作空间。用户可以在CPU或GPU上高效训练这些算法,并与OpenAI Gym无缝集成。支持的算法包括DQN、DDPG、PPO等,涵盖环境建模和参数空间噪声探索等功能。
Logo of tab-transformer-pytorch
tab-transformer-pytorch
Tab Transformer项目在Pytorch中实现了表格数据的注意力网络,性能接近GBDT。亚马逊最新研究称在实际表格数据集上使用注意力机制超越了GBDT。项目提供详细安装和使用说明,并包含改进的FT Transformer模型以供比较。
Logo of vit-pytorch
vit-pytorch
本项目展示了如何在PyTorch中实现和使用视觉Transformer(ViT)模型,包括Simple ViT、NaViT、Distillation、Deep ViT等多种变体。利用基于Transformer架构的简单编码器,本项目在视觉分类任务中达到了先进水平。用户可以通过pip进行安装,并参考提供的代码示例进行模型加载和预测。项目还支持高级功能如知识蒸馏、变分图像尺寸训练和深度模型优化,适用于多种视觉任务场景。
Logo of facenet-pytorch
facenet-pytorch
facenet-pytorch是一个开源项目,利用Pytorch实现的Inception Resnet (V1)模型,已在VGGFace2和CASIA-Webface上预训练。项目还包括高效的MTCNN实现,用于人脸检测。其特点包括快速人脸检测、生成面部识别嵌入、视频流中的人脸跟踪以及从TensorFlow到Pytorch的参数转换。开发者可以通过简单的安装和使用指引快速集成和应用这些高精度、高性能的预训练模型和工具。
Logo of Bayesian-Neural-Networks
Bayesian-Neural-Networks
项目在PyTorch框架下实现了多种贝叶斯神经网络的近似推断方法,包括Bayes by Backprop、MC Dropout、SGLD和Kronecker-Factorised Laplace。这些方法适用于同质和异质回归实验及MNIST分类实验。项目提供了模型训练脚本、Colab笔记本和实验结果的可视化工具,方便用户进行模型训练和评估。所有依赖和数据集已在笔记本中预设,并支持免费GPU运行平台,帮助用户轻松上手。
Logo of audiolm-pytorch
audiolm-pytorch
AudioLM是一个基于Pytorch的音频生成模型,具有T5引导的文本到音频转换功能。该项目还兼容SoundStream和Facebook的EnCodec,并提供了多个音频编码和解码模块。用户可以通过完整的训练和使用流程,包括SoundStream、分层Transformer和基于文本条件的音频合成,来进行音频生成技术的研究和开发。
Logo of make-a-video-pytorch
make-a-video-pytorch
此项目实现了 Meta AI 的 Make-A-Video 在 PyTorch 下的版本,利用伪 3D 卷积和时序注意力技术,显著增强了视频的时序一致性。支持图像和视频帧的处理,并且可轻松适用于 DALL-E2 和 Imagen 等模型。项目提供了完整的安装和使用指南,并支持空间和时间一致性的 Unet 模型。
Logo of med-seg-diff-pytorch
med-seg-diff-pytorch
med-seg-diff-pytorch是一个基于PyTorch的医学图像分割框架,采用扩散概率模型(DDPM)和特征级条件增强技术。该项目提供简易安装和使用方法,支持自定义数据集训练,并计划增加更多功能。它为医学图像分析领域提供了一个功能强大、使用灵活的开源工具。
Logo of MEGABYTE-pytorch
MEGABYTE-pytorch
MEGABYTE-pytorch是一个基于PyTorch实现的多尺度Transformer模型,专门用于预测百万字节长度的序列。该项目具有灵活的配置选项,支持多个本地模型,并整合了Flash Attention等先进技术。MEGABYTE-pytorch通过简洁的API接口实现长序列处理、模型训练和文本生成。此外,项目提供了基于enwik8数据集的训练示例,为开发者提供了实用参考。
Logo of video-diffusion-pytorch
video-diffusion-pytorch
video-diffusion-pytorch项目实现了基于扩散模型的文本到视频生成技术。该开源项目采用时空分解U-net结构,将2D图像生成扩展至3D视频领域。支持文本条件生成、BERT编码和批量训练等功能。目前在移动MNIST数据集上表现良好,为研究人员和开发者提供了探索视频生成新前沿的工具。该技术有望在复杂视频生成任务中取得进展。
Logo of deep-learning-for-image-processing
deep-learning-for-image-processing
本教程介绍深度学习在图像处理中的应用,涵盖使用Pytorch和Tensorflow进行网络结构搭建和训练。课程内容包括图像分类、目标检测、语义分割、实例分割和关键点检测,适合研究生和深度学习爱好者。所有PPT和源码均可下载,助力学习和研究。
Logo of CV
CV
本项目提供深度学习视频讲解及笔记资源,涵盖Pytorch、李沐、吴恩达等名师课程,并附有详细的数据集和实用工具。适合从事AI算法开发、图像处理及语音识别方向的求职者,并提供多家知名企业的内推机会,帮助自学者搭建交流平台,实现技术突破和职业发展。
Logo of imagen-pytorch
imagen-pytorch
Google的Imagen是一种基于Pytorch实现的文本到图像神经网络,被视为此领域的新技术标杆。它采用简化的架构和优化的设计,例如级联DDPM、动态剪辑和内存高效的Unet设计。该项目在从文本转换成图像的合成过程中,表现出了相比DALL-E2的显著优势,为研究人员和开发者提供了实用的图像生成工具。
Logo of tutel
tutel
Tutel MoE是一种优化的专家混合实现,支持Pytorch、CUDA、ROCm和CPU等多种框架和硬件。它加速了动态训练和推理,并提供了多项功能更新,例如tensorcore选项、自定义专家扩展和NCCL超时设置。Tutel支持灵活配置和转换工具,适用于多节点和多GPU分布式模式。用户可以轻松集成和测试Tutel,并通过详尽的示例和文档获得技术支持。
Logo of Semi-supervised-learning
Semi-supervised-learning
USB是一个基于Pytorch的Python包,专为简化和扩展半监督学习(SSL)而设计。它实现了14种SSL算法,并在计算机视觉(CV)、自然语言处理(NLP)和音频分类领域提供了15个评估任务。项目内容包括详细的安装、使用和开发指南,以及各种基准测试结果。USB支持用户快速启动和测试现有的SSL算法,并通过Docker镜像进一步简化使用过程。
Logo of dsmil-wsi
dsmil-wsi
结合自监督对比学习与多实例学习网络,实现10倍速度优化全视图图像分类。最新版本支持交叉验证、改进多标签任务指标并修复脚本错误。了解如何在TCGA肺癌和Camelyon16数据集上进行训练与测试,以及生成色彩和检测图的详细步骤。
Logo of GradCache
GradCache
Gradient Cache技术突破了GPU/TPU内存限制,可以无限扩展对比学习的批处理大小。仅需一个GPU即可完成原本需要8个V100 GPU的训练,并能够用更具成本效益的高FLOP低内存系统替换大内存GPU/TPU。该项目支持Pytorch和JAX框架,并已整合至密集段落检索工具DPR。
Logo of UnboundedNeRFPytorch
UnboundedNeRFPytorch
UnboundedNeRFPytorch项目专注于基准测试多种最新的大规模神经辐射场(NeRF)算法,并提供简洁高效的代码库。项目展示了在Unbounded Tanks & Temples和Mip-NeRF-360基准测试中的优秀表现,旨在帮助研究人员和开发者提升NeRF应用效果。包括详细的安装步骤、数据处理指南和训练自定义NeRF模型的方法,适合技术用户快速上手并获得佳绩。
Logo of musiclm-pytorch
musiclm-pytorch
MusicLM-Pytorch通过使用Google的新型SOTA音乐生成模型来生成音乐。该项目结合了文本条件的AudioLM和MuLan文本-音频对比学习模型。通过MuLaNEmbedQuantizer获取条件嵌入,用户可以在经过训练后,实现语义、粗粒度和细粒度的三种AudioLM转换器的音乐生成。项目包含详细的安装和使用指南,适合对AI音乐生成技术感兴趣的开发者。
Logo of seemore
seemore
seemore是一个基于PyTorch的开源视觉语言模型(VLM)项目。它包括图像编码器、视觉-语言投影器和解码器三个核心组件,参考了CLIP和LLaVA等前沿VLM架构。项目提供完整代码实现和详细教程,有助于开发者理解VLM原理。seemore在Databricks平台开发,支持GPU加速,并集成MLFlow用于实验管理。
Logo of ETSformer-pytorch
ETSformer-pytorch
ETSformer-pytorch是一个开源的时间序列分析工具,基于PyTorch实现了先进的Transformer模型。该项目集成了多头指数平滑注意力机制和频率选择功能,适用于时间序列预测和分类任务。ETSformer-pytorch提供简单的安装和使用方法,支持灵活的模型配置,并包含专门的分类包装器。这一工具为研究人员和开发者提供了处理复杂时间序列数据的有效解决方案。
Logo of phenaki-pytorch
phenaki-pytorch
项目采用PyTorch框架,实现Phenaki视频生成技术。通过Mask GIT方法,能根据文本提示生成最长2分钟的视频。引入token critic技术以提升生成质量。提供简洁API,支持条件和无条件生成模式。包含完整训练与推理代码,适用于文本到图像和视频生成的相关研究。
Logo of parti-pytorch
parti-pytorch
本项目是Google Parti模型的PyTorch实现,Parti是一种基于纯注意力机制的文本到图像生成神经网络。项目包含ViT VQGan VAE训练代码和视觉Transformer的优化,提高了训练效率。实现了简便的安装和使用流程,支持条件生成和分类器引导。这为研究人员和开发者提供了探索和改进文本到图像生成技术的平台。
Logo of denoising-diffusion-pytorch
denoising-diffusion-pytorch
Denoising Diffusion Probabilistic Model在Pytorch中的实现,通过去噪得分匹配估计数据分布梯度,并使用Langevin采样生成样本。这种方法可能成为GANs的有力竞争者。项目支持多GPU训练,提供详细的安装和使用指南,是研究人员和开发者的高效工具,支持1D序列数据和图像数据的生成和训练。
Logo of DALLE2-pytorch
DALLE2-pytorch
DALL-E 2的Pytorch实现由OpenAI开发,采用先进的神经网络技术将文本描述转化为高质量图像。本版本特别优化扩散先验网络,提供高性能的模型变体。开源项目鼓励开发者通过GitHub和Hugging Face参与贡献,并在Discord社区进行交流和支持。
Logo of pytorch-cifar100
pytorch-cifar100
pytorch-cifar100项目提供了一套完整的训练和测试框架,使得使用者能在CIFAR-100数据集上通过多种网络架构实施图像识别。支持的网络包括VGG, ResNet, DenseNet等多种深度学习模型,并详细记录每种模型的错误率。项目还包括自定义数据集模块的示例代码,供不熟悉数据处理的用户参考。项目提供了清晰的代码,便于使用者根据需求调整模型训练与测试。
Logo of pytorch-bert-crf-ner
pytorch-bert-crf-ner
该项目是一个用PyTorch实现的BERT和CRF结合的韩文命名实体识别器,适用于PyTorch v1.2及Python 3.x环境。通过实际案例和详细日志展示该识别器的使用方法及其高效的韩文命名实体识别能力。借助于SKTBrain的KoBERT模型,本项目实现了容易上手的BERT-CRF命名实体识别系统。
Logo of voicebox-pytorch
voicebox-pytorch
该项目实现了MetaAI的最新文本到语音模型Voicebox,利用旋转嵌入和自适应归一化技术提升模型效果。还融合了SpearTTS和Conditioned Flow Matching等技术,提高训练和采样效率。项目获得Imminent Grant资助,致力于推动开源文本到语音技术的发展,并感谢各大赞助商的支持。用户可以通过pip install命令轻松安装和使用该项目。
Logo of enformer-pytorch
enformer-pytorch
此项目实现了Deepmind的Enformer模型在Pytorch框架下的应用,用于预测基因表达,并支持微调预训练模型以适应下游任务。用户可以通过简易安装和提供的代码示例快速使用该模型。此外,该项目还包含染色质可及性预测的微调方法,并支持从Huggingface下载预训练权重。在内存优化和详细的安装、使用说明方面进行了多项改进,帮助用户高效地进行基因组数据分析和预测。
Logo of stylegan2-pytorch
stylegan2-pytorch
简便的StyleGAN2 Pytorch实现,无需编程,只需使用命令行即可进行训练。支持多GPU与低数据量训练及图像插值视频生成,适合研究人员和开发者。
Logo of detrex
detrex
detrex是一个开源工具箱,专为最先进的Transformer检测算法提供支持。该工具箱基于Detectron2构建,并参考了MMDetection和DETR的模块设计。detrex模块化设计,提供强大基线,通过优化超参数将模型性能提升至0.2至1.1AP。该工具箱轻量易用,支持最新算法如Focus-DETR、SQR-DETR、Align-DETR、EVA-01和EVA-02,帮助用户构建定制模型。
Logo of lion-pytorch
lion-pytorch
Lion是一种由Google Brain团队开发的新型优化器,部分效果优于Adam(w)。本文介绍了Lion在Pytorch中的实现和使用方法。通过调整学习率、权重衰减和参数β1、β2,Lion在语言建模和文本生成等任务中表现良好。其安装与使用简单,适合各种大型模型的训练。
Logo of naturalspeech2-pytorch
naturalspeech2-pytorch
NaturalSpeech 2是一个基于PyTorch的开源项目,实现了零样本语音和歌唱合成。该项目采用神经音频编解码器和潜在扩散模型,结合非自回归生成和去噪扩散技术,实现高质量的文本到语音转换。项目还优化了注意力机制和Transformer组件,为研究人员和开发者提供了探索先进TTS技术的平台。
Logo of gotch
gotch
Gotch是基于PyTorch C++ API (Libtorch)开发的Go语言深度学习框架。它实现了全面的张量操作、动态计算图、JIT接口和预训练模型加载等功能,同时支持CPU和GPU。Gotch采用纯Go API设计,便于构建和训练神经网络模型,适合深度学习研究和应用开发。
Logo of Watermark-Removal-Pytorch
Watermark-Removal-Pytorch
该项目实现了基于深度图像先验的水印去除技术,无需训练数据即可处理已知和未知水印。该方法通过简单API调用,支持图像编辑等任务。项目采用PyTorch开发,提供MPS加速,包含使用说明和结果展示。
Logo of tsai
tsai
tsai是基于Pytorch和fastai的开源深度学习库,专注时间序列分析,涵盖分类、回归和预测等任务。支持多种模型和数据集,并提供详尽的教程。适用于Pytorch 2.0,安装简便,适合开发和前沿研究。
Logo of Voice-Cloning-App
Voice-Cloning-App
Voice-Cloning-App,一个基于Python/Pytorch的高效工具,使用户能在多个平台上进行人声合成和训练。特点包括支持多GPU使用、自动化数据集创建、多语言支持及系统的远程训练功能。即将支持更多语音合成技术和GPU型号,优化数据处理效率。
Logo of DALLE-pytorch
DALLE-pytorch
基于OpenAI的DALL-E以及CLIP技术,DALLE-pytorch是一种开源的AI解决方案,可将文本高效转化为图像。该工具在Pytorch框架下开发,支持包括OpenAI预训练的VAE在内的多种训练模式。DALLE-pytorch不仅采用了深度可逆网络和稀疏注意力技术,而且提供了高灵活性和可扩展性,适合多种数据集。
Logo of iAI
iAI
这篇文章提供了在Ubuntu平台上设置AI实验环境的详细指导,涵盖硬件要求、双系统安装、NVIDIA驱动、CUDA、cuDNN、Anaconda、OpenCV、Docker、TensorRT、Pytorch等软件的安装与配置。内容包括从基础环境搭建到深度学习算法如YOLO V3和Faster R-CNN的实际应用,并附有常见问题解答和最佳实践,帮助用户高效构建AI开发环境。
Logo of mixture-of-experts
mixture-of-experts
基于Pytorch实现的稀疏门控专家混合模型,可以在保持计算量不变的情况下大幅增加语言模型的参数量。项目参考了TensorFlow的实现,并进行了增强。还包含ST Mixture of Experts的使用指南,安装和使用示例,以及自定义专家网络的支持。
Logo of inseq
inseq
Inseq是一个基于Pytorch的可定制工具包,专为序列生成模型的后验可解释性分析设计。它支持多种特性归因方法,可高效分析单例或整套数据集的各类模型,包括GPT-2。Inseq支持在Jupyter Notebook、浏览器和命令行中进行可视化,并提供多种后处理和归因映射合并功能。
Logo of avalanche
avalanche
Avalanche 是基于 PyTorch 的持续学习开源库,提供快速原型设计、训练和评估工具。其模块包括数据处理、模型训练、评估和日志记录,帮助研究人员提高代码效率和研究影响力。简单示例和教程使用户快速上手,社区支持持续改进库功能。
Logo of Awesome-Monocular-3D-detection
Awesome-Monocular-3D-detection
了解单目3D物体检测的最新研究进展,页面涵盖2024至2016年的相关学术论文,并持续更新。您可浏览详细的文章列表,涉及单目3D检测领域的各种关键主题和方法。此外,网站还提供Pytorch代码,方便研究和应用。适合研究人员、开发人员和单目3D检测领域的爱好者。
Logo of toolformer-pytorch
toolformer-pytorch
Toolformer-Pytorch是由MetaAI开发的开源项目,旨在使语言模型能够自主调用API工具来完成任务。得益于Stability.ai的支持和开源社区的贡献,该项目显著提升了语言模型对工具的理解和使用能力。无论是时间查询还是简单的数学运算,Toolformer都表现出色,同时通过优化和微调,降低了文本困惑度。安装简单,适用于各种Python环境。
Logo of alphafold3-pytorch
alphafold3-pytorch
这是AlphaFold 3的PyTorch开源实现项目。它包含完整的模型架构、训练和推理流程,以及详细的数据准备指南。项目支持原子级和分子级的输入处理,提供PDB数据集筛选和聚类脚本。丰富的文档和示例代码有助于用户理解和使用AlphaFold 3模型。该实现为蛋白质结构预测研究提供了有价值的开源工具。
Logo of e2-tts-pytorch
e2-tts-pytorch
E2-TTS-pytorch是一个开源项目,实现了基于PyTorch的E2-TTS(Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS)模型。该项目提供了持续时间预测器和E2TTS模型的简洁实现,支持自定义模型参数如维度和深度。项目包含代码示例和采样功能,基于最新研究成果,为研究人员和开发者提供了一个灵活的TTS实验平台。
Logo of titok-pytorch
titok-pytorch
TiTok-Pytorch是一个基于PyTorch实现的图像编码和重建框架,源自ByteDance的研究。该项目将图像压缩为32个token,实现高效的图像重构和生成。TiTok-Pytorch提供简便的安装和使用方法,支持图像tokenization、重建和代码提取。这个框架适用于图像压缩、生成和重建等领域的深度学习项目,为高效图像处理提供了新的解决方案。