#Vision Transformer
Awesome-Transformer-Attention - 视觉变换器与注意力机制的最新研究进展
Vision Transformer深度学习多模态学习Transformer注意力机制Github开源项目
探索视觉变换器和注意力机制的最新发展,包括由Min-Hung Chen持续更新的论文、代码与链接资源。适合学术与实际应用,发现创新思路。
MultiModalMamba - 处理文本与图像的多模态AI模型
MultiModalMambaVision TransformerMambaZetaAI模型Github开源项目
MultiModalMamba 是一个结合 Vision Transformer 和 Mamba 的高性能多模态 AI 模型,基于简洁强大的 Zeta 框架。它可以同时处理文本和图像数据,适用于各种 AI 任务,并支持定制化设置。MultiModalMamba 提供高效数据处理和多种数据类型融合,优化您的深度学习模型表现。
pixel - 像素编码语言模型,无需固定词汇表实现多语言处理
PIXEL语言模型图像编码BERTVision TransformerGithub开源项目
PIXEL是一个将文本渲染为图像进行语言处理的模型,消除了固定词汇表的需求。在同样的数据上,PIXEL在非拉丁脚本的语法和语义处理上优于BERT。PIXEL由文本渲染器、编码器和解码器组成,采用ViT-MAE技术实现图像级语言模型。用户可以通过Gradio演示体验PIXEL,并查看预训练和微调指南。未来将提供渲染指南、优化模型及HuggingFace transformers的集成。
vit-pytorch - 通过PyTorch实现多种视觉Transformer变体
Vision TransformerPytorch深度学习卷积神经网络图像分类Github开源项目
本项目展示了如何在PyTorch中实现和使用视觉Transformer(ViT)模型,包括Simple ViT、NaViT、Distillation、Deep ViT等多种变体。利用基于Transformer架构的简单编码器,本项目在视觉分类任务中达到了先进水平。用户可以通过pip进行安装,并参考提供的代码示例进行模型加载和预测。项目还支持高级功能如知识蒸馏、变分图像尺寸训练和深度模型优化,适用于多种视觉任务场景。
dinov2 - 通过无监督学习构建强大视觉特征的先进方法
DINOv2视觉特征自监督学习Vision Transformer计算机视觉Github开源项目
DINOv2是一种先进的无监督视觉特征学习方法,在1.42亿张未标注图像上预训练后生成高性能、鲁棒的通用视觉特征。这些特征可直接应用于多种计算机视觉任务,仅需简单线性分类器即可实现优异效果。DINOv2提供多种预训练模型,包括带寄存器的变体,在ImageNet等基准测试中表现卓越。
vision_transformer - 视觉Transformer和MLP-Mixer模型库 高性能图像识别
Vision TransformerMLP-Mixer图像识别JAXFlaxGithub开源项目
项目包含多种视觉Transformer(ViT)和MLP-Mixer模型实现,提供ImageNet和ImageNet-21k预训练模型及JAX/Flax微调代码。通过交互式Colab笔记本可探索5万多个模型检查点。这些高性能图像分类模型代表了计算机视觉的前沿进展。
ViT-Prisma - 视觉变换器和CLIP模型机制解析开源库
Vision Transformer机器学习解释性图像处理开源库神经网络可视化Github开源项目
ViT-Prisma是一个专注于Vision Transformer和CLIP模型的开源机制解析库。它提供logit归因、注意力可视化和激活修补等技术,用于深入分析模型内部机制。该库还包含ViT训练代码和预训练模型,支持ImageNet-1k和dSprites分类任务。ViT-Prisma为视觉模型可解释性研究提供了实用的工具集。
GeoSeg - 遥感图像语义分割框架 支持多种数据集和先进模型
GeoSeg语义分割遥感图像Vision Transformer深度学习Github开源项目
GeoSeg是一个开源的遥感图像语义分割工具箱,基于PyTorch等框架开发。它专注于先进视觉Transformer模型,支持多个遥感数据集,提供统一训练脚本和多尺度训练测试功能。项目实现了Mamba、Vision Transformer和CNN等多种网络架构,为遥感图像分割研究提供统一基准平台。
QFormer - 四边形注意力机制提升视觉Transformer性能
Vision Transformer注意力机制计算机视觉图像分类目标检测Github开源项目
QFormer是一种创新的视觉Transformer模型,采用四边形注意力机制替代传统窗口注意力。该模型通过可学习的四边形回归模块,将默认窗口转换为目标四边形进行计算,从而更好地建模不同形状和方向的目标。在图像分类、目标检测、语义分割和人体姿态估计等多项视觉任务中,QFormer在保持低计算成本的同时,性能显著优于现有的视觉Transformer模型。
LViT - 结合语言和视觉Transformer的医学图像分割技术
LViT医学图像分割Vision Transformer数据集深度学习Github开源项目
LViT是一种创新的医学图像分割方法,融合了语言信息和视觉Transformer。该技术在QaTa-COV19、MosMedData+和MoNuSeg等多个数据集上展现出优异性能,大幅提升了分割精度。项目包含完整代码实现、数据准备指南、训练评估流程及详细实验结果。除常规任务外,LViT在结肠息肉和食管CT等特定领域分割中也表现出色。
Awesome-Transformer-in-Medical-Imaging - Transformer在医学图像分析中的应用进展综述
Vision Transformer医学图像分析图像分割图像分类深度学习Github开源项目
本项目整理了Transformer模型在医学图像分析中的最新研究进展。内容涵盖图像分类、分割、重建、合成等多个领域,系统地归纳和分类了相关论文。项目提供了医学图像分析中Transformer应用的分类体系,详细的参考文献,以及开源代码库链接,为研究人员提供了全面的学习和实践资源。
deformableLKA - 变形大核注意力机制提升医学图像分割效果
医学图像分割Deformable Large Kernel AttentionD-LKA NetVision Transformer3D分割Github开源项目
变形大核注意力(D-LKA Attention)是一种新型医学图像分割方法。它通过大型卷积核高效处理图像数据,并使用可变形卷积适应不同数据模式。该方法有2D和3D两个版本,尤其是3D版本在处理跨层数据时表现优异。基于此技术开发的D-LKA Net架构在多个医学分割数据集上的表现超过了现有方法,展现了其在医学图像分析领域的潜力。
CellViT - 基于Vision Transformer的细胞核分割与分类模型
CellViT细胞分割Vision Transformer深度学习PanNuke数据集Github开源项目
CellViT是一种基于Vision Transformer的深度学习方法,用于数字化组织样本中的细胞核自动实例分割。该项目结合了预训练的Vision Transformer编码器和U-Net架构,在PanNuke数据集上取得了领先性能。通过引入加权采样策略,CellViT提高了对复杂细胞实例的识别能力。它能够快速处理千兆像素级全切片图像,并可与QuPath等软件集成,为后续分析提供定位化的深度特征。
vit_small_patch16_384.augreg_in21k_ft_in1k - 增强的视觉转换器模型及其在图像分类中的应用
ImageNet图像分类开源项目Vision TransformerPyTorch模型Huggingface数据增强Github
ViT图像分类模型结合增强与正则化技术,基于ImageNet-21k训练后在ImageNet-1k微调。模型通过JAX进行训练并移植至PyTorch,拥有22.2M参数和384x384图像输入,展示了12.4 GMACs的高效性。适用于图像分类与特征提取,在视觉识别和嵌入生成中表现出色。
dinov2-small-imagenet1k-1-layer - 视觉特征学习的Transformer模型
DINOv2特征提取开源项目模型GithubHuggingface自监督学习图像分类Vision Transformer
DINOv2方法无监督预训练的Vision Transformer,适用于影像特征学习增强场景。此小尺寸模型能在ImageNet-1k数据集上执行分类任务,通过提取特征来辅助下游任务。尽管模型未包含微调头,但可附加线性层进行标准分类,适合高精度视觉特征需求的应用。
vit-base-patch16-224-in21k - 基于ImageNet-21k预训练的视觉Transformer模型
ImageNet-21kGithubHuggingface图像识别Vision Transformer开源项目模型预训练模型深度学习
这是一个基于Transformer架构的视觉模型,在包含1400万图像和21843个类别的ImageNet-21k数据集上预训练。模型将图像转换为16x16像素的固定大小patch序列,通过自注意力机制处理。它可用于图像分类等多种视觉任务,提供强大的特征提取能力。模型支持PyTorch和JAX/Flax框架,适用于需要高性能视觉理解的应用场景。
nsfw_image_detection - 基于ViT的NSFW图像检测模型
模型图像分类GithubHugging FaceVision Transformer内容审核NSFWHuggingface开源项目
这是一个基于Vision Transformer (ViT)的NSFW图像分类模型。经过80,000张多样化图像训练,模型能有效区分正常和不适当内容。采用224x224像素分辨率,16批量大小和5e-5学习率,评估准确率达98%。该模型主要用于内容安全和审核,但仅限于NSFW图像分类。
vit-base-patch16-224 - Vision Transformer图像分类模型在ImageNet数据集上的应用
模型神经网络开源项目Huggingface图像分类机器学习Vision TransformerImageNetGithub
vit-base-patch16-224是一个基于Vision Transformer架构的图像分类模型,在ImageNet-21k数据集上预训练并在ImageNet 2012上微调。该模型采用16x16像素的图像分块和序列化处理方法,可高效处理224x224分辨率的图像。在多个图像分类基准测试中,vit-base-patch16-224展现出较好的性能,为计算机视觉任务提供了一种基于Transformer的新方案。
vit-tiny-patch16-224 - 轻量级ViT模型实现高效图像分类
Huggingface图像分类模型权重转换ImageNetVision TransformerGithub开源项目Hugging Face
vit-tiny-patch16-224是一个轻量级视觉transformer模型,专注于图像分类任务。这个模型采用16x16的patch大小和224x224的输入分辨率,在保持分类准确性的同时大幅降低了计算资源需求。其小型结构使其特别适合在资源受限环境中使用或需要快速推理的场景。值得注意的是,该模型是基于Google的ViT架构,由第三方研究者使用timm仓库的权重进行转换和发布。
vit-large-patch32-384 - 基于Transformer架构的大规模图像分类模型
模型Github开源项目Huggingface图像分类Vision TransformerImageNet计算机视觉深度学习
Vision Transformer (ViT) 是一个基于Transformer架构的大型视觉模型,在ImageNet-21k数据集上预训练,并在ImageNet 2012数据集上微调。模型采用图像分块和序列化处理方法,支持384x384分辨率的输入。ViT在多个图像分类基准测试中表现优异,可用于图像分类、特征提取等计算机视觉任务。该模型支持PyTorch框架,适合研究人员和开发者使用。
vit_base_patch16_224.augreg2_in21k_ft_in1k - 高性能Vision Transformer图像分类与特征提取模型
模型开源项目Huggingface图像分类pytorch-image-modelsVision TransformerImageNetGithubtimm
该模型基于Vision Transformer架构,在ImageNet-21k上预训练并在ImageNet-1k上微调,采用额外的数据增强和正则化技术。适用于图像分类和特征提取,具有8660万参数,支持224x224输入尺寸。模型在性能和效率间取得平衡,可满足多样化的计算机视觉任务需求。
dinov2-base - 基于Vision Transformer的自监督视觉特征学习模型
特征提取图像处理HuggingfaceDINOv2模型Vision TransformerGithub开源项目自监督学习
DINOv2-base是Facebook AI研究团队开发的基于Vision Transformer的自监督视觉模型。该模型在大规模图像数据集上预训练,无需标注数据即可学习强大的视觉特征表示。DINOv2-base可应用于图像分类、目标检测等多种视觉任务,支持直接特征提取或针对特定任务进行微调。作为开源项目,它为计算机视觉研究和应用提供了灵活而有力的基础。
vit_base_patch14_reg4_dinov2.lvd142m - 基于寄存器的先进Vision Transformer图像特征模型
HuggingfaceDINOv2模型Vision TransformertimmGithub图像特征提取开源项目自监督学习
vit_base_patch14_reg4_dinov2.lvd142m是一款基于寄存器的Vision Transformer图像特征模型。该模型采用自监督DINOv2方法在LVD-142M数据集上预训练,拥有8660万参数,支持518x518分辨率的图像处理。模型适用于图像分类和特征提取,提供简洁的使用方法和代码示例。作为一种无监督学习的先进视觉模型,它为计算机视觉领域提供了新的研究方向和应用可能。
dinov2-small - 小型Vision Transformer模型用于无监督视觉特征学习
计算机视觉DINOv2Huggingface模型Vision TransformerGithub图像特征提取开源项目自监督学习
DINOv2-small是一个基于Vision Transformer架构的小型模型,通过无监督学习方法训练。该模型将图像分割为固定大小的块,并使用Transformer编码器处理,能够提取强大的视觉特征。作为预训练模型,它不包含特定任务的微调头,主要用于特征提取。研究者可以在此基础上添加任务相关的分类层,以适应不同的下游视觉应用。
vit-face-expression - Vision Transformer驱动的七类面部表情识别模型
模型FER2013情感分析开源项目HuggingfaceVision TransformerGithub数据预处理人脸表情识别
vit-face-expression模型采用Vision Transformer架构,通过FER2013数据集微调,实现了七种基本面部表情的识别。该模型可分析愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性表情,在测试集上达到71.16%的准确率。这一开源项目为面部情绪分析领域提供了新的解决方案。
vit-small-patch16-224 - Google开发的轻量级视觉Transformer模型用于高效图像分类
ImageNet模型图像分类pytorch-image-modelsGithubsafetensorsVision TransformerHuggingface开源项目
vit-small-patch16-224是Google开发的轻量级视觉Transformer模型,针对高效图像分类任务进行了优化。该模型由社区成员从timm仓库转换并上传至Hugging Face平台。它与ViT-base模型具有相同的使用方式,特别适合计算资源有限的应用场景。模型在ImageNet数据集上经过训练,可用于各种计算机视觉任务,如图像识别和分类。相比ViT-base,它具有更小的模型尺寸和更快的推理速度,同时保持了良好的性能表现。需要注意的是,模型的safetensors版本要求torch 2.0或更高版本的运行环境。
vit_tiny_patch16_384.augreg_in21k_ft_in1k - ViT-Tiny 轻量级视觉转换器模型实现图像分类与特征提取
ImageNet模型图像分类Githubtimm深度学习Vision TransformerHuggingface开源项目
ViT-Tiny是一款轻量级视觉转换器模型,专为图像分类和特征提取而设计。该模型在ImageNet-21k上预训练,并在ImageNet-1k上微调,采用了先进的数据增强和正则化技术。模型仅有5.8M参数,能处理384x384尺寸的图像,通过timm库可轻松加载用于推理或进一步微调。ViT-Tiny在保持高性能的同时,大幅降低了计算资源需求,适合各类图像识别应用场景。
dpt-hybrid-midas - 基于Vision Transformer的单目深度估计模型
计算机视觉深度估计Huggingface模型DPT-HybridVision TransformerGithub开源项目单目深度估计
DPT-Hybrid-MiDaS是一款基于Vision Transformer的单目深度估计模型。该模型在140万张图像上训练,利用ViT-hybrid作为主干网络,支持零样本深度估计。在多个数据集上,DPT-Hybrid-MiDaS展现出优于传统方法的性能。这一开源模型为计算机视觉领域的研究人员和开发者提供了有力工具,可用于进一步的微调和应用开发。
vit-huge-patch14-224-in21k - 大型视觉Transformer模型实现高效图像识别与特征提取
图像识别Huggingface模型深度学习Vision TransformerGithub预训练模型ImageNet-21k开源项目
vit-huge-patch14-224-in21k是基于ImageNet-21k数据集预训练的大型视觉Transformer模型。它将图像分割为固定大小的块,通过Transformer编码器处理,可用于图像分类等多种计算机视觉任务。该模型提供了强大的图像特征提取能力,适用于各类下游视觉应用。
dinov2-large - 基于Vision Transformer的大规模自监督视觉特征学习模型
特征提取图像处理HuggingfaceDINOv2模型Vision TransformerGithub开源项目自监督学习
DINOv2-large是基于Vision Transformer架构的大规模视觉模型,采用自监督学习方法训练。该模型能从海量未标注图像中学习视觉特征表示,适用于多种下游视觉任务。它将图像转换为固定大小的patch序列输入Transformer编码器,提取高质量特征。研究人员可直接使用其预训练编码器进行特征提取,或针对特定任务进行微调,体现了模型的通用性和灵活性。
vit-mae-large - MAE预训练的大型Vision Transformer模型
模型自编码器Github图像处理预训练模型Vision Transformer开源项目Huggingface机器学习
这是一个使用MAE方法预训练的大型Vision Transformer模型。通过随机遮挡75%的图像块进行自监督学习,该模型有效学习图像的内部表示。它可用于图像分类等下游视觉任务,采用masked autoencoder架构进行预训练。该模型由Facebook Research团队开发,基于ImageNet-1K数据集训练,适用于各种计算机视觉应用。
vit-base-patch16-384 - Vision Transformer:基于图像分块的高效视觉识别模型
ImageNet模型图像分类计算机视觉Github深度学习Vision TransformerHuggingface开源项目
Vision Transformer (ViT) 是一种基于Transformer架构的视觉识别模型,在ImageNet-21k上进行预训练,并在ImageNet 2012上微调。模型采用图像分块和序列化处理方法,有效处理384x384分辨率的图像。ViT在多个图像分类基准测试中表现优异,适用于各种计算机视觉任务。该预训练模型为研究人员和开发者提供了快速开发高精度图像识别应用的基础。
vit_giant_patch14_dinov2.lvd142m - 基于Vision Transformer的无监督视觉特征提取模型
自监督学习图像分类DINOv2Huggingface开源项目模型GithubVision Transformer图像特征提取
该项目介绍了使用DINOv2方法的Vision Transformer(ViT)模型,通过无监督学习在LVD-142M数据集上进行预训练。这一模型适用于图像分类和嵌入,帮助提取稳健的视觉特征以及实现高效的图像识别。ViT模型的参数量为1136.5M和1784.2 GMACs,显现出其出色的性能和灵活性。用户可以在GitHub查看和下载该模型的代码和更多资源。
vit_large_patch14_reg4_dinov2.lvd142m - 带寄存器的视觉Transformer模型用于图像特征提取
模型图像分类GithubtimmDINOv2Vision Transformer特征提取开源项目Huggingface
vit_large_patch14_reg4_dinov2.lvd142m是一个带寄存器的视觉Transformer模型,在LVD-142M数据集上使用自监督DINOv2方法预训练。该模型具有3.044亿参数,可处理518x518大小的图像,适用于图像分类和特征提取任务。它结合了ViT和DINOv2技术,为计算机视觉应用提供了高效的解决方案。
vit_base_patch8_224.dino - 将自监督DINO方法应用于视觉变换器以增强图像特征提取能力
Github模型ImageNet开源项目图像分类自监督学习Vision TransformerHuggingface特征提取
该项目利用Vision Transformer (ViT) 和自监督DINO方法进行图像特征提取,支持图像分类和嵌入应用。模型在ImageNet-1k数据集上进行了预训练,具有85.8M参数,能够处理224 x 224分辨率的图像。由于其参数利用效率高,该模型在大规模数据集上表现良好,适合精确特征提取的视觉任务,增强图像识别及分析能力。通过`timm`库可轻松实现模型调用和图像处理,满足多种计算机视觉应用需求。
vit_large_patch16_384.augreg_in21k_ft_in1k - 使用ImageNet数据集进行图像分类的Vision Transformer模型
Vision Transformer特征提取模型比较模型Github开源项目图像分类预训练模型Huggingface
该Vision Transformer模型专用于图像分类,最初在ImageNet-21k上进行扩展和正则化训练,并在ImageNet-1k上进行微调。由原作者使用JAX开发,后移植至PyTorch框架。模型的显著特点包括支持384x384图像尺寸,参数量达到304.7M,提升图像识别的准确性。该模型简化了图像分类和图像嵌入生成的过程。高效的数据增强和正则化策略进一步提升了模型性能,是计算机视觉研究与应用的有效工具。
相关文章
Awesome-Transformer-Attention: 视觉Transformer和注意力机制的全面综述
2024年08月30日
MultiModalMamba: 融合ViT与Mamba的高性能多模态AI模型
2024年09月04日
DINOv2: 无监督学习的强大视觉特征提取器
2024年09月04日
Vision Transformer: 图像识别的变革性架构
2024年09月05日
ViT-Prisma:一个强大的视觉Transformer机制可解释性库
2024年09月05日
GeoSeg: 一个基于计算机视觉的高效遥感影像语义分割工具箱
2024年09月05日
QFormer: 突破性的四边形注意力视觉Transformer
2024年09月05日
LViT: 语言与视觉变压器在医学图像分割中的融合
2024年09月05日
Transformer在医学影像分析中的应用:一个全面综述
2024年09月05日