#视觉Transformer

CrossFormer:基于跨尺度注意力的多功能视觉Transformer

3 个月前

CrossFormer++视觉Transformer 跨尺度注意力图像分类目标检测 Github 开源项目

3 个月前

CLIPSelf: 视觉Transformer自我蒸馏实现开放词汇密集预测

3 个月前

CLIPSelf 视觉Transformer 开放词汇密集预测 COCO Github 开源项目

3 个月前

FasterViT：具有层次注意力机制的快速视觉Transformer

3 个月前

FasterViT 视觉Transformer 图像分类目标检测层级注意力机制 Github 开源项目

3 个月前

SPViT:通过软令牌剪枝实现更快的视觉Transformer

3 个月前

SPViT 自注意力机制卷积层视觉Transformer 模型剪枝 Github 开源项目

3 个月前

LITv2: 快速视觉Transformer与HiLo注意力机制

3 个月前

LITv2 HiLo注意力视觉Transformer 图像分类目标检测 Github 开源项目

3 个月前

FastViT: 快速混合视觉Transformer的结构重参数化

3 个月前

FastViT 视觉Transformer 图像分类模型性能结构重参数化 Github 开源项目

3 个月前

GiT: 通过通用语言界面实现通用视觉Transformer

3 个月前

GiT 视觉Transformer 多任务学习计算机视觉语言接口 Github 开源项目

3 个月前

Hiera: 快速、强大且简单的层级视觉Transformer

3 个月前

Hiera 视觉Transformer 图像识别视频识别 MAE预训练 Github 开源项目

3 个月前

GroupMixFormer：推动视觉 Transformer 的新进展

3 个月前

GroupMixFormer 视觉Transformer 自注意力机制图像分类计算机视觉 Github 开源项目

3 个月前

相关项目

GroupMixFormer

GroupMixFormer是一种创新的视觉Transformer模型,引入群组混合注意力(GMA)机制来增强传统自注意力。GMA可同时捕捉不同尺度的token和群组相关性,显著提升模型表征能力。在多项计算机视觉任务中,GroupMixFormer以较少参数实现了领先性能。其中GroupMixFormer-L在ImageNet-1K分类上达到86.2% Top-1准确率,GroupMixFormer-B在ADE20K分割上获得51.2% mIoU,展现出强大潜力。

GiT

GiT是一种通用视觉Transformer模型,采用单一ViT架构处理多种视觉任务。该模型设计简洁,无需额外视觉编码器和适配器。通过统一语言接口,GiT实现了从目标检测到图像描述等多任务能力。在多任务训练中,GiT展现出任务间协同效应,性能超越单任务训练且无负迁移。GiT在零样本和少样本测试中表现优异,并随模型规模和数据量增加而持续提升性能。

ml-fastvit

FastViT是一种采用结构重参数化技术的混合视觉Transformer模型。该模型在ImageNet-1K数据集上实现了准确率和延迟的良好平衡,提供多个变体以适应不同应用场景。FastViT在iPhone 12 Pro上的基准测试显示出优秀的移动端性能。项目开源了预训练模型、训练评估代码和使用文档。

hiera

Hiera是一种分层视觉Transformer模型,在图像和视频任务中表现出色,同时保持高效推理。该模型简化了现有Transformer的复杂模块,并通过MAE预训练学习空间偏置,实现了简洁高效的架构。项目提供了模型库、推理示例和基准测试脚本,支持通过PyTorch Hub和Hugging Face Hub使用预训练模型。

LITv2

LITv2是一种基于HiLo注意力机制的高效视觉Transformer模型。它将注意力头分为两组,分别处理高频局部细节和低频全局结构,从而在多种模型规模下实现了优于现有方法的性能和更快的速度。该项目开源了图像分类、目标检测和语义分割任务的预训练模型和代码实现。

FasterViT

FasterViT是一种创新的视觉transformer模型,采用分层注意力机制高效捕获短程和长程信息。在ImageNet分类任务中,FasterViT实现了精度和吞吐量的新平衡,无需额外训练数据即达到最先进水平。该项目提供多种预训练模型,适应不同计算资源和精度需求,支持任意分辨率输入,为目标检测、分割等下游任务提供灵活选择。

SPViT

SPViT项目提出了一种单路径自注意力剪枝方法，将预训练ViT模型中的自注意力层剪枝为卷积层，形成混合模型结构。该方法通过权重共享机制降低了模型搜索成本，在减少计算资源消耗的同时保持了模型性能。实验表明，SPViT在多个基准测试中表现良好，为Vision Transformer模型的优化设计提供了新思路。

CLIPSelf

CLIPSelf项目提出创新自蒸馏方法,使视觉Transformer能进行开放词汇密集预测。该方法利用模型自身知识蒸馏,无需标注数据,提升了目标检测和实例分割等任务性能。项目开源代码和模型,提供详细训练测试说明,为计算机视觉研究提供重要资源。

CrossFormer

CrossFormer++是一种创新的视觉Transformer模型，通过跨尺度注意力机制解决了不同尺度对象特征间建立关联的问题。该模型引入跨尺度嵌入层和长短距离注意力等设计，并采用渐进式分组策略和激活冷却层来平衡性能与计算效率。在图像分类、目标检测和语义分割等视觉任务中表现优异，尤其在密集预测任务中效果显著。CrossFormer++为计算机视觉领域提供了一种灵活高效的新型架构。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com