精选计算机视觉工具:AI应用、网站与开源项目大全

InternVL2-26B
InternVL2大语言模型
全新多模态智能体实现长文本多图像及视频的智能理解

videomae-base-finetuned-kinetics
神经网络计算机视觉
VideoMAE模型基于自监督学习实现Kinetics-400数据集80.9%分类准确率

deit_small_patch16_224.fb_in1k
计算机视觉神经网络
DeiT架构图像分类模型 基于ImageNet-1k训练的高效Transformer

rtdetr_r101vd_coco_o365
RT-DETRGithub
实时目标检测革新者RT-DETR超越传统性能表现

owlv2-large-patch14-ensemble
CLIP模型
Google OWLv2模型实现零样本开放词汇目标检测

mask2former-swin-large-mapillary-vistas-panoptic
语义分割计算机视觉
Mask2Former:集实例、语义和全景分割于一体的图像分割模型

vit-mae-base
模型Github
MAE预训练Vision Transformer模型的图像处理能力

ProteusV0.2
ProteusV0.2图像生成
基于OpenDalleV1.1的高级AI图像生成模型

DFN2B-CLIP-ViT-L-14
计算机视觉图像分类
基于CLIP架构的大规模数据集训练图像识别模型

SlimSAM-uniform-77
模型Github
高效压缩分割模型实现接近原始SAM性能

Depth-Anything-V2-Large
模型计算机视觉
单目深度估计新突破:高精度细节与高效性能的完美平衡

dpt-beit-base-384
图像处理神经网络
基于BEiT主干的DPT模型实现单目深度估计

mask2former-swin-large-ade-semantic
模型Github
Mask2Former:统一架构实现多类型图像分割

Florence-2-large-ft
图像识别计算机视觉
统一表示实现多种视觉任务的AI基础模型

donut-base
计算机视觉Huggingface
Donut模型:革新文档理解的图像到文本AI技术

GLaMM-GranD-Pretrained
模型计算机视觉
基于GranD数据集的区域级理解和分割预训练模型

evf-sam2
模型Github
EVF-SAM优化文本引导的Segment Anything Model性能

siglip-base-patch16-256
多模态模型SigLIP
改进CLIP的多模态预训练模型SigLIP

MASt3R_ViTLarge_BaseDecoder_512_catmlpdpt_metric
模型3D视觉
基于3D的高精度图像匹配技术

resnet-18
模型Github
深度残差学习实现图像识别突破
推荐工具精选
AI云服务特惠
懂AI专属折扣关注微信公众号
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号