精选计算机视觉工具:AI应用、网站与开源项目大全

InternVL2-26B

InternVL2-26B

InternVL2大语言模型

全新多模态智能体实现长文本多图像及视频的智能理解

videomae-base-finetuned-kinetics

videomae-base-finetuned-kinetics

神经网络计算机视觉

VideoMAE模型基于自监督学习实现Kinetics-400数据集80.9%分类准确率

deit_small_patch16_224.fb_in1k

deit_small_patch16_224.fb_in1k

计算机视觉神经网络

DeiT架构图像分类模型 基于ImageNet-1k训练的高效Transformer

rtdetr_r101vd_coco_o365

rtdetr_r101vd_coco_o365

RT-DETRGithub

实时目标检测革新者RT-DETR超越传统性能表现

owlv2-large-patch14-ensemble

owlv2-large-patch14-ensemble

CLIP模型

Google OWLv2模型实现零样本开放词汇目标检测

mask2former-swin-large-mapillary-vistas-panoptic

mask2former-swin-large-mapillary-vistas-panoptic

语义分割计算机视觉

Mask2Former:集实例、语义和全景分割于一体的图像分割模型

vit-mae-base

vit-mae-base

模型Github

MAE预训练Vision Transformer模型的图像处理能力

ProteusV0.2

ProteusV0.2

ProteusV0.2图像生成

基于OpenDalleV1.1的高级AI图像生成模型

DFN2B-CLIP-ViT-L-14

DFN2B-CLIP-ViT-L-14

计算机视觉图像分类

基于CLIP架构的大规模数据集训练图像识别模型

SlimSAM-uniform-77

SlimSAM-uniform-77

模型Github

高效压缩分割模型实现接近原始SAM性能

Depth-Anything-V2-Large

Depth-Anything-V2-Large

模型计算机视觉

单目深度估计新突破:高精度细节与高效性能的完美平衡

dpt-beit-base-384

dpt-beit-base-384

图像处理神经网络

基于BEiT主干的DPT模型实现单目深度估计

mask2former-swin-large-ade-semantic

mask2former-swin-large-ade-semantic

模型Github

Mask2Former:统一架构实现多类型图像分割

Florence-2-large-ft

Florence-2-large-ft

图像识别计算机视觉

统一表示实现多种视觉任务的AI基础模型

donut-base

donut-base

计算机视觉Huggingface

Donut模型:革新文档理解的图像到文本AI技术

GLaMM-GranD-Pretrained

GLaMM-GranD-Pretrained

模型计算机视觉

基于GranD数据集的区域级理解和分割预训练模型

evf-sam2

evf-sam2

模型Github

EVF-SAM优化文本引导的Segment Anything Model性能

siglip-base-patch16-256

siglip-base-patch16-256

多模态模型SigLIP

改进CLIP的多模态预训练模型SigLIP

MASt3R_ViTLarge_BaseDecoder_512_catmlpdpt_metric

MASt3R_ViTLarge_BaseDecoder_512_catmlpdpt_metric

模型3D视觉

基于3D的高精度图像匹配技术

resnet-18

resnet-18

模型Github

深度残差学习实现图像识别突破