精选计算机视觉工具:AI应用、网站与开源项目大全

yolov10x

yolov10x

深度学习Github

高效的实时端到端物体检测工具

vit_large_patch14_clip_336.openai

vit_large_patch14_clip_336.openai

数据集OpenAI

通过CLIP模型探索计算机视觉鲁棒性

vip-llava-7b

vip-llava-7b

聊天机器人ViP-LLaVA

ViP-LLaVA的多模态对话与视觉指令协同应用

superpoint

superpoint

Github开源项目

自监督模型SuperPoint提高多视图几何问题的兴趣点检测和描述

yolov10m

yolov10m

计算机视觉PyTorch

高效的实时目标检测系统

vit_large_patch14_clip_224.openai

vit_large_patch14_clip_224.openai

HuggingfaceCLIP

探索OpenAI提出的CLIP模型在计算机视觉任务中零样本分类的潜力

owlv2-base-patch16-finetuned

owlv2-base-patch16-finetuned

CLIP零样本检测

介绍OWLv2模型在零样本物体检测中的应用与发展

InternVL2-40B

InternVL2-40B

场景文本理解视觉理解

强化跨模态大语言模型的能力

llava-v1.6-34b

llava-v1.6-34b

自然语言处理计算机视觉

大规模多模态模型的开源项目介绍

vit-base-patch32-384

vit-base-patch32-384

ImageNetGithub

Vision Transformer图像分类模型支持大规模数据训练

yolov10n

yolov10n

开源项目模型

YOLOv10n:实时对象检测的创新技术

Tarsier-7b

Tarsier-7b

视频描述开源项目

开源大规模视频语言模型,提升视频描述和理解能力

detr-resnet-50-panoptic

detr-resnet-50-panoptic

Transformer计算机视觉

DETR模型:结合ResNet-50的端到端目标检测与全景分割

tiny-random-llava-1.5

tiny-random-llava-1.5

计算机视觉开源项目

基于LLaVA-1.5的轻量级多模态模型配置工具

vit-base-patch32-224-in21k

vit-base-patch32-224-in21k

Vision Transformer计算机视觉

Vision Transformer模型在2100万图像数据集上预训练

swin-base-patch4-window7-224-in22k

swin-base-patch4-window7-224-in22k

图像识别开源项目

基于shifted windows的分层视觉Transformer图像处理模型

sam2.1-hiera-large

sam2.1-hiera-large

计算机视觉Github

Meta开源的新一代图像视频智能分割模型

siglip-base-patch16-512

siglip-base-patch16-512

Github模型

采用Sigmoid损失函数的开源计算机视觉模型

fastvit_ma36.apple_in1k

fastvit_ma36.apple_in1k

计算机视觉图像分类

Apple开源的高性能混合视觉Transformer图像处理模型

Llama-3.2-90B-Vision

Llama-3.2-90B-Vision

MetaGithub

前沿视觉语言模型助力图像识别和推理