Vision-RWKV

基于RWKV架构的高效视觉感知模型

Vision-RWKV 计算机视觉深度学习图像处理神经网络 Github 开源项目

Vision-RWKV是一种基于RWKV架构的视觉感知模型。该模型可高效处理高分辨率图像，具有全局感受野，并通过大规模数据集预训练实现良好扩展性。在图像分类任务中，Vision-RWKV性能超越ViT模型；在密集预测任务中，它以更低计算量和更快速度胜过基于窗口的ViT，并与全局注意力ViT相当。Vision-RWKV展现出成为多种视觉任务中ViT替代方案的潜力。

Github

Huggingface

介绍相关项目

clip-vision-model-tiny - 轻量级AI图像处理与分析视觉模型

GithubHuggingfaceMIT协议代码许可开源协议开源项目模型许可证软件授权

基于MIT许可证开发的轻量级图像视觉模型，采用紧凑架构设计，具备高效的图像处理和分析能力。该开源项目适用于快速部署场景，可在资源受限环境中保持准确的图像识别表现。

vit-huge-patch14-224-in21k - 大型视觉Transformer模型实现高效图像识别与特征提取

GithubHuggingfaceImageNet-21kVision Transformer图像识别开源项目模型深度学习预训练模型

vit-huge-patch14-224-in21k是基于ImageNet-21k数据集预训练的大型视觉Transformer模型。它将图像分割为固定大小的块，通过Transformer编码器处理，可用于图像分类等多种计算机视觉任务。该模型提供了强大的图像特征提取能力，适用于各类下游视觉应用。

dino-vits16 - DINO训练的小型Vision Transformer模型及其应用

DINOGithubHuggingfaceVision Transformer图像处理开源项目模型特征提取自监督学习

dino-vits16是一个基于DINO方法训练的小型Vision Transformer模型。该模型在ImageNet-1k数据集上进行自监督预训练，能够有效学习图像特征表示。它采用16x16像素的图像块作为输入，可应用于多种视觉任务。dino-vits16展示了自监督学习在计算机视觉领域的潜力，为图像分类等下游任务奠定了基础。

efficientnetv2_rw_m.agc_in1k - EfficientNetV2模型：图像分类与多功能特征提取

EfficientNet-v2GithubHuggingfaceImageNet-1ktimm图像分类开源项目模型模型使用

EfficientNetV2是一个在timm库中实现的高效图像分类模型。通过使用以ResNet Strikes Back为基础的训练策略和SGD优化器（带Nesterov动量），结合自适应梯度剪裁，模型在ImageNet-1k数据集上进行训练。这一架构轻量且强大，支持包括图像分类、特征提取和图像嵌入的多种图像处理任务。

maxvit_nano_rw_256.sw_in1k - 轻量级MaxViT图像分类模型适合边缘计算

GithubHuggingfaceImageNetMaxViT图像分类开源项目模型模型比较预训练模型

maxvit_nano_rw_256.sw_in1k是一款轻量级图像分类模型，由Ross Wightman基于MaxViT架构设计并在ImageNet-1k数据集上训练。该模型结合MBConv卷积和自注意力机制，参数量15.45M，GMAC 4.46，在256x256输入下Top-1准确率达82.93%。其高效设计适合在边缘设备上进行快速准确的图像分类。

owlvit-base-patch32 - OWL-ViT：基于CLIP的开放词汇目标检测模型

CLIPGithubHuggingfaceOWL-ViT开源项目模型目标检测计算机视觉零样本学习

OWL-ViT是一种基于CLIP的目标检测模型，专注于开放词汇和零样本检测任务。它结合了ViT结构的视觉编码器和因果语言模型的文本编码器，通过端到端训练实现了灵活的文本条件目标检测。该模型支持单一或多个文本查询，能够在未见过的类别上进行定位和分类，为计算机视觉领域的研究提供了新的工具和方向。

Qwen2-VL-72B-Instruct-AWQ - 强大多模态AI实现高分辨率图像和长视频深度理解

GithubHuggingfaceQwen2-VL多模态大语言模型开源项目模型视觉理解视频理解

Qwen2-VL-72B-Instruct-AWQ是一款先进的多模态AI模型，在图像和视频理解方面表现卓越。这个模型能够处理各种分辨率的图像，理解超过20分钟的长视频，并支持多语言文本识别。通过采用动态分辨率和多模态旋转位置编码等创新技术，该模型在视觉理解基准测试中展现了领先优势。Qwen2-VL作为通用视觉语言模型，可广泛应用于复杂推理和内容创作等多个领域。

vit_tiny_patch16_224.augreg_in21k - 增强与正则化的ViT图像分类模型

GithubHuggingfaceImageNet-21kVision Transformer图像分类开源项目数据增强模型特征骨干

这是一个高效的Vision Transformer（ViT）图像分类模型，经过增强和正则化，在ImageNet-21k上进行了训练。由论文作者在JAX中开发，并由Ross Wightman移植到PyTorch。模型的类型包括图像分类和特征提取，参数量为9.7百万，1.1 GMACs，处理图像尺寸为224x224。项目中有图像分类和嵌入的代码示例，以及支持特定数据转换的功能，提升模型性能。该模型适用于高效图像识别应用，并提供开发者比较参考的方法。

vitmatte-small-composition-1k - Vision Transformer驱动的先进图像抠图模型

GithubHuggingfaceViTMatte图像抠图开源项目模型深度学习视觉transformer计算机视觉

ViTMatte-small-composition-1k模型采用Vision Transformer技术，为图像抠图任务带来突破性进展。其简洁有效的结构设计，结合Composition-1k数据集的训练，实现了高精度的前景对象分割。该开源项目不仅为研究人员提供了直接可用的工具，还通过Hugging Face平台支持进一步的模型优化，推动了计算机视觉技术的发展。

InternVL2-1B - 多模态大语言模型实现多图像和视频智能理解

GithubHuggingfaceInternVL2人工智能多模态大语言模型开源项目模型自然语言处理计算机视觉

InternVL2-1B是一款新型多模态大语言模型，结合了InternViT-300M-448px视觉模型和Qwen2-0.5B-Instruct语言模型。该模型在文档理解、图表分析和场景文字识别等任务中表现优异，能有效处理长文本、多图像和视频输入。InternVL2-1B在开源多模态模型中表现突出，部分能力可与商业模型比肩。通过采用8k上下文窗口训练，该模型大幅提升了处理长输入序列的能力。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号