Logo

#卷积神经网络

Logo of pytorch-handbook
pytorch-handbook
本开源书籍为使用PyTorch进行深度学习开发的用户提供系统化的入门指南。教程内容覆盖了从环境搭建到高级应用的各个方面,包括PyTorch基础、深度学习数学原理、神经网络、卷积神经网络、循环神经网络等,还包含实践案例与多GPU并行训练技巧。书籍持续更新,与PyTorch版本同步,适合所有深度学习研究者。
Logo of cnn-explainer
cnn-explainer
CNN Explainer 是一个用于学习卷积神经网络的互动可视化工具,提供实时演示和本地运行功能。用户可以克隆代码库并在本地环境中运行,支持自定义模型和图像类别。该工具由乔治亚理工学院与俄勒冈州立大学合作开发。
Logo of d2l-pytorch
d2l-pytorch
本项目基于《Dive Into Deep Learning》书籍,将MXNet代码转换为PyTorch实现。内容包括安装指南、线性神经网络、多层感知器、卷积神经网络、现代卷积网络、循环神经网络和注意力机制等章节。提供详细教程和示例代码,适合使用PyTorch进行深度学习的开发者。建议克隆仓库或使用nbviewer查看notebook文件。
Logo of machine-learning-experiments
machine-learning-experiments
该项目展示了一系列交互式机器学习实验,包括Jupyter笔记本来演示模型训练过程,以及在线演示页面来展示模型运行效果。涵盖多层感知机至卷积神经网络等多种技术,适合探索和学习各类机器学习方法。
Logo of quickai
quickai
QuickAI 是一个 Python 库,简化了前沿机器学习模型的实验流程。支持 EfficientNet、VGG、ResNet 等图像分类模型和 GPT-NEO、Distill BERT 等自然语言处理模型。只需1-2行代码即可完成模型训练和评估,兼容 TensorFlow 和 PyTorch,并提供 Docker 容器便于环境配置。适用于各水平用户,助力快速推进机器学习项目。
Logo of vit-pytorch
vit-pytorch
本项目展示了如何在PyTorch中实现和使用视觉Transformer(ViT)模型,包括Simple ViT、NaViT、Distillation、Deep ViT等多种变体。利用基于Transformer架构的简单编码器,本项目在视觉分类任务中达到了先进水平。用户可以通过pip进行安装,并参考提供的代码示例进行模型加载和预测。项目还支持高级功能如知识蒸馏、变分图像尺寸训练和深度模型优化,适用于多种视觉任务场景。
Logo of FCOS
FCOS
FCOS算法是一种完全卷积的单阶段对象检测方法,通过避免使用锚点框,提高了检测性能和速度。在COCO minival数据集上,FCOS实现了46FPS和40.3的AP评分,并在各种模型和硬件上表现出色,包括ResNe(x)t和MobileNet等。与Faster R-CNN相比,FCOS在ResNet-50平台上表现更佳(38.7对36.8的AP),且训练和推理时间更短。该项目已基于Detectron2实现,并引入了多项优化和改进。
Logo of grenade
grenade
Grenade 是一个高效实用的递归神经网络库,专为 Haskell 语言设计,支持复杂网络的简洁精确定义。几行代码就能指定并初始化一个在 MNIST 数据集上达到约1.5%测试误差的神经网络。Grenade 支持卷积、池化、全连接、LSTM 等多种层类型,内置反向传播和梯度更新功能。基于纯函数设计,允许灵活组合训练函数,甚至实现生成对抗网络。性能依托 hmatrix、BLAS 和 LAPACK,支持并行处理。
Logo of MagNet
MagNet
MagNet是一种多尺度语义分割框架,采用多阶段处理方法解决高分辨率图像中的局部歧义问题。每个处理阶段对应一个放大级别,实现从粗到细的信息传播。在城市景观、航拍场景和医学图像等高分辨率数据集上的实验显示,MagNet的性能显著超越现有方法,为高分辨率图像的精确语义分割提供了新的技术方案。
Logo of topaz
topaz
Topaz是一个用于冷冻电镜图像分析的开源工具。它使用卷积神经网络进行颗粒检测,并提供显微图和断层图去噪功能。Topaz的处理流程包括图像预处理、模型训练、分割和颗粒提取。该工具支持GPU加速,可通过多种方式安装。Topaz为冷冻电镜数据处理提供了全面的解决方案,助力结构生物学研究。
Logo of mit-deep-learning
mit-deep-learning
本项目汇集了MIT深度学习课程的全面教程,涵盖基础知识、场景分割和生成对抗网络(GANs)等主题,适合初学者和进阶用户。项目包括前沿模型如DeepLab和BigGAN,并提供Jupyter Notebook和Google Colab示例,帮助学习者掌握核心技术。另有深度强化学习竞赛DeepTraffic,挑战开发者在复杂交通环境中训练神经网络实现高速驾驶。
Logo of wav2letter
wav2letter
wav2letter++现已整合到Flashlight中,专注于端到端和在线语音识别的研究。该项目提供多种预训练模型和数据准备指南,适用于有监督和半监督学习。通过Flashlight的ASR应用实现所有功能,确保高效、准确的语音识别。
Logo of lama
lama
LaMa 使用傅立叶卷积技术,提供高效的图像修复服务,尤其擅长处理大尺寸遮罩和周期性结构的修复。项目支持多种格式和分辨率,适应各类复杂场景。通过多平台融合,开放源代码和在线体验,LaMa 旨在推动图像处理技术的创新和应用。
Logo of pytorch-cifar100
pytorch-cifar100
pytorch-cifar100项目提供了一套完整的训练和测试框架,使得使用者能在CIFAR-100数据集上通过多种网络架构实施图像识别。支持的网络包括VGG, ResNet, DenseNet等多种深度学习模型,并详细记录每种模型的错误率。项目还包括自定义数据集模块的示例代码,供不熟悉数据处理的用户参考。项目提供了清晰的代码,便于使用者根据需求调整模型训练与测试。
Logo of Python-AI
Python-AI
《深度学习100例》开源项目现已开放,提供代码和数据资源,涵盖卷积神经网络、循环神经网络、生成对抗网络等主题,并包含机器学习和自然语言处理的实用案例。每周更新至少两篇原创文章,最新内容将在公众号首发。可加入技术交流群进行交流与反馈,获取最新技术资源和实战经验。
Logo of EEG-Conformer
EEG-Conformer
EEG Conformer是一种结合卷积和自注意力机制的EEG分类与可视化工具。其卷积模块提取时间和空间上的局部特征,自注意力模块捕捉全局关联,最终通过全连接层进行分类预测。此外,EEG Conformer还具备将类激活映射到脑拓扑图的可视化功能。支持Python 3.10和Pytorch 1.12,在多个BCI竞赛数据集上表现出色。
Logo of a-PyTorch-Tutorial-to-Object-Detection
a-PyTorch-Tutorial-to-Object-Detection
本教程详细指导如何使用PyTorch实现物体检测模型,包括模型构建、训练、评估和推理等环节。采用高效的单次多框检测(SSD)算法,介绍多尺度特征图、先验框和非极大值抑制等关键概念。适合具备PyTorch和卷积神经网络基础的学习者,教程提供中文翻译版便于理解和应用。
Logo of inceptionnext
inceptionnext
InceptionNeXt是一种创新的图像识别模型,融合了Inception的设计理念和ConvNeXt的架构。通过分解大型深度卷积核,该模型在速度和准确率方面取得了平衡,达到了ResNet-50的速度和ConvNeXt-T的精度。在ImageNet数据集上,InceptionNeXt展现出卓越性能,推动了计算机视觉领域的发展。研究团队提供了多种规模的预训练模型,适用于不同的应用场景。
Logo of unet.cu
unet.cu
这个开源项目使用纯C++/CUDA实现了UNet扩散模型训练框架,支持无条件扩散。框架包含线性层、组归一化、注意力等核心算子的GPU加速实现,重点优化3x3卷积。通过多次迭代提升CUDA kernel性能,训练速度达PyTorch的40%。项目展示了深度学习框架在GPU上的高效实现过程,为相关开发提供参考。
Logo of UNetPlusPlus
UNetPlusPlus
UNet++是一种改进的医学图像分割架构,通过重新设计跳跃连接和密集连接解码器,解决了U-Net的架构深度和连接设计问题。项目提供Keras和PyTorch实现,并获得多个第三方支持。UNet++在医学图像分割任务中表现优异,为研究提供了有力工具。该项目已在GitHub开源,欢迎研究者使用和贡献。
Logo of DeepLearningFlappyBird
DeepLearningFlappyBird
该项目演示了如何使用深度Q学习算法在Flappy Bird游戏中进行应用。项目利用Python、TensorFlow和OpenCV等技术,详细讲解了如何通过卷积神经网络处理游戏画面并优化游戏策略,使AI智能体可以自学并在游戏中取得高分。内容包括游戏画面的预处理、网络结构的设计、训练过程的参数调整以及常见问题的解决方案。此项目适合对深度强化学习有兴趣的开发者和研究人员参考。
Logo of deep-learning-v2-pytorch
deep-learning-v2-pytorch
本仓库提供 Udacity 深度学习 v7 纳米学位课程的相关资料,包括各种深度学习主题的教程笔记本,涉及卷积神经网络、循环神经网络和生成对抗网络等模型的实现。内容涵盖权重初始化、批量归一化等技术,用户还可以访问项目起始代码,并学习在 AWS SageMaker 上部署模型。
Logo of awesome-deep-learning-papers
awesome-deep-learning-papers
'Awesome Deep Learning Papers' 提供的是一份经精心策划的文献列表,囊括了2012至2016年间在深度学习领域中引用率最高的研究论文。覆盖从图像处理到自然语言处理等众多研究领域,旨在为研究人员与技术爱好者提供启发思考与深入了解的必读材料。
Logo of AdversarialNetsPapers
AdversarialNetsPapers
AdversarialNetsPapers 作为一个致力于生成对抗网络(GANs)的论文与资源集,包括影像转换、面部属性操作等应用范畴以及理论研究和机器学习实践。项目自2014年以来,积累包含大量关键论文与对应代码,为研究者与开发者构建了一个深度学习、图像处理及生成模型的知识库。
Logo of conformer
conformer
Conformer模型结合卷积神经网络和Transformers,能同时捕捉音频的局部和全局依赖关系,提高语音识别精度并节省参数。本项目提供该模型的PyTorch实现,包含详细的安装和使用指南,适用于Python 3.7及更高版本。
Logo of MIMDet
MIMDet
MIMDet是一个利用掩码图像建模技术的开源项目,能够提升预训练的Vanilla Vision Transformer在目标检测中的表现。此框架采用混合架构,用随机初始化的卷积体系取代预训练的大核Patchify体系,实现多尺度表示无需上采样。在COCO数据集上的表现亮眼,使用ViT-Base和Mask R-CNN模型时,分别达到51.7的框AP和46.2的掩码AP;使用ViT-L模型时,成绩分别是54.3的框AP和48.2的掩码AP。
Logo of SparK
SparK
该项目实现了BERT风格的自监督预训练方法在卷积神经网络中的应用,能够对如ResNet等任意CNN进行预训练。项目代码简洁易读,只需最少的依赖项。在ImageNet数据集上表现优异,展示了小模型在预训练后能够超越大模型的能力,同时生成性自监督学习优于对比学习。
Logo of CAT
CAT
CAT是一种创新的图像恢复模型,采用矩形窗口自注意力机制扩大特征提取范围。模型通过水平和垂直矩形窗口并行聚合特征,实现窗口间交互。结合CNN的局部特性,CAT在全局-局部特征耦合方面表现出色。实验证实该方法在多种图像恢复任务中超越了现有技术水平。
Logo of neurvps
neurvps
NeurVPS是一种用于图像消失点检测的深度学习算法。该算法采用几何启发的卷积运算符,结合数据驱动方法和几何先验,在多个数据集上超越了现有方法。项目提供PyTorch实现,包含模型训练、评估和预训练模型,便于研究人员复现实验。
Logo of zheye
zheye
zheye是一个开源项目,专注于识别知乎的倒立汉字验证码。该项目结合了卷积神经网络和高斯混合模型,可准确定位图中的倒立文字。zheye提供完整的训练和测试流程,包括依赖安装、模型训练和验证码评估。作为计算机视觉领域的实践案例,zheye展示了先进的图像识别技术。项目开发目的为学习和研究,使用时需遵守相关协议。
Logo of DeepLearning.ai-Summary
DeepLearning.ai-Summary
此页面收录了DeepLearning.ai系列课程的详细笔记和总结,涵盖神经网络、超参数调整、机器学习项目结构、卷积神经网络和序列模型。读者可以通过这些笔记全面了解深度学习的基础知识和实际应用。
Logo of interviews.ai
interviews.ai
本书包含数百个AI面试问题的详细解答,涵盖信息理论、贝叶斯统计和算法微分等核心主题。特别为数据科学研究生和求职者设计,帮助在面试中脱颖而出。无论是初学者还是有经验的研究人员,都能从中获益。书中配有清晰图表和逐步解析,助读者全面掌握深度学习理论和实践。
Logo of Deep-Learning-Papers-Reading-Roadmap
Deep-Learning-Papers-Reading-Roadmap
该项目提供了一条有序的深度学习论文阅读路径,覆盖从基础到前沿技术的多个阶段。涵盖图像识别到语音识别等多个领域的关键论文,并提供直观的阅读指导和详细分类,以助力读者全面理解深度学习。适用于学术研究者和行业开发者。
Logo of deep-learning-roadmap
deep-learning-roadmap
为开发者和研究人员提供深度学习的综合资源,从入门到高级应用全覆盖,涵盖图像识别、自然语言处理等关键领域。借助本平台,您可以迅速找到所需资源,掌握最前沿的深度学习技术。
Logo of ppl.nn
ppl.nn
PPLNN是一款高效的深度学习推理引擎,兼容各种ONNX模型,并对OpenMMLab进行了优化。其最新的LLM引擎包括闪存注意力、分裂K注意力、动态批处理和张量并行等功能,并支持INT8分组和通道量化。项目发布了多个LLM模型,如LLaMA、ChatGLM和Baichuan,并提供详细的构建和集成指南。
Logo of computer-vision-course
computer-vision-course
由Hugging Face社区超过60位贡献者共同创建的计算机视觉课程,涵盖从计算机视觉基础到卷积神经网络、视觉Transformer、多模态模型、生成模型等多种前沿技术。每位作者自由选择风格创作,并经过社区审核和修订。课程展示了开源社区的合作成就,欢迎新的贡献和改进建议。
Logo of kotlindl
kotlindl
KotlinDL是一种高层次的深度学习API,用Kotlin编写,适用于JVM和安卓环境。它利用TensorFlow和ONNX Runtime,为开发者提供从零训练深度学习模型、导入Keras和ONNX模型进行推理,以及迁移学习功能。KotlinDL旨在简化深度学习的部署,是生产环境的理想选择。提供详尽的文档、教程和丰富的代码示例,帮助开发者轻松上手并优化深度学习应用。
Logo of FocalNet
FocalNet
FocalNet是一种创新的视觉模型架构,无需使用注意力机制。其核心的焦点调制技术在多项视觉任务中超越了现有的自注意力方法。该模型在ImageNet分类和COCO检测等基准测试中表现优异,同时保持了高效简洁的实现。FocalNet具有平移不变性、强输入依赖性等特点,为计算机视觉领域提供了一种全新的建模思路。
Logo of DeepCrack
DeepCrack
DeepCrack是一种端到端深度卷积神经网络,用于自动裂缝检测。该网络通过学习分层卷积特征来表示裂缝,融合多尺度特征以捕捉线性结构。基于SegNet架构,DeepCrack在三个挑战性数据集上平均F值超过0.87,性能优于现有方法。项目提供四个裂缝数据集和预训练模型,为相关研究提供支持。