精选计算机视觉工具:AI应用、网站与开源项目大全

yolov10x
深度学习Github
高效的实时端到端物体检测工具

vit_large_patch14_clip_336.openai
数据集OpenAI
通过CLIP模型探索计算机视觉鲁棒性

vip-llava-7b
聊天机器人ViP-LLaVA
ViP-LLaVA的多模态对话与视觉指令协同应用

superpoint
Github开源项目
自监督模型SuperPoint提高多视图几何问题的兴趣点检测和描述

yolov10m
计算机视觉PyTorch
高效的实时目标检测系统

vit_large_patch14_clip_224.openai
HuggingfaceCLIP
探索OpenAI提出的CLIP模型在计算机视觉任务中零样本分类的潜力

owlv2-base-patch16-finetuned
CLIP零样本检测
介绍OWLv2模型在零样本物体检测中的应用与发展

InternVL2-40B
场景文本理解视觉理解
强化跨模态大语言模型的能力

llava-v1.6-34b
自然语言处理计算机视觉
大规模多模态模型的开源项目介绍

vit-base-patch32-384
ImageNetGithub
Vision Transformer图像分类模型支持大规模数据训练

yolov10n
开源项目模型
YOLOv10n:实时对象检测的创新技术

Tarsier-7b
视频描述开源项目
开源大规模视频语言模型,提升视频描述和理解能力

detr-resnet-50-panoptic
Transformer计算机视觉
DETR模型:结合ResNet-50的端到端目标检测与全景分割

tiny-random-llava-1.5
计算机视觉开源项目
基于LLaVA-1.5的轻量级多模态模型配置工具

vit-base-patch32-224-in21k
Vision Transformer计算机视觉
Vision Transformer模型在2100万图像数据集上预训练

swin-base-patch4-window7-224-in22k
图像识别开源项目
基于shifted windows的分层视觉Transformer图像处理模型

sam2.1-hiera-large
计算机视觉Github
Meta开源的新一代图像视频智能分割模型

siglip-base-patch16-512
Github模型
采用Sigmoid损失函数的开源计算机视觉模型

fastvit_ma36.apple_in1k
计算机视觉图像分类
Apple开源的高性能混合视觉Transformer图像处理模型

Llama-3.2-90B-Vision
MetaGithub
前沿视觉语言模型助力图像识别和推理
推荐工具精选
AI云服务特惠
懂AI专属折扣关注微信公众号
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号