图像识别AI工具大全:实用软件、网站推荐
图像识别

TF-ID-large-no-caption
开源项目TF-ID
学术文献中图表精准识别工具

resnet-152
图像识别ResNet-152
深入解析ResNet-152在图像分类中的应用

owlv2-large-patch14
目标检测Github
开源零样本对象检测模型,支持多文本查询

git-base-coco
Github模型
应用于多任务的图像文本生成模型

chinese-clip-vit-base-patch16
Github模型
中文数据驱动的多模态对比学习工具

omdet-turbo-swin-tiny-hf
目标检测Github
实时开放词汇目标检测模型 支持批量多任务处理

donut-base-finetuned-docvqa
文档理解Donut
基于Donut架构的无OCR文档理解与问答模型

llava-interleave-qwen-7b-hf
图像识别自然语言处理
领先的多模态AI模型 支持多图像视频和3D输入处理

vit-base-patch32-224-in21k
Vision Transformer计算机视觉
Vision Transformer模型在2100万图像数据集上预训练

TinyCLIP-ViT-40M-32-Text-19M-LAION400M
Github模型
基于亲和力模仿和权重继承的CLIP模型压缩方法

swin-base-patch4-window7-224-in22k
图像识别开源项目
基于shifted windows的分层视觉Transformer图像处理模型

Virchow2
图像识别PyTorch
基于神经网络的病理切片图像分析与特征提取模型

vip-llava-7b-hf
ViP-LLaVAHuggingface
基于自然视觉提示的多模态语言模型

llava-onevision-qwen2-7b-si
Huggingface机器学习
多模态AI模型实现图像和视频的深度理解

fuyu-8b
Github模型
无需图像编码器的轻量级多模态开源模型

instructblip-flan-t5-xl
InstructBLIP机器学习
InstructBLIP视觉语言模型实现智能图像理解与对话

Llama-3.2-11B-Vision-Instruct
多模态大语言模型图像识别
Meta推出支持图文交互的语言模型

doctr-crnn-vgg16-bn-fascan-v1
开源项目PyTorch
VGG16-CRNN文字识别模型

MiniCPM-Llama3-V-2_5-int4
Github开源项目
轻量级视觉问答模型实现实时图像对话

japanese-clip-vit-b-16
ViT-B/16图像识别
日语CLIP模型实现跨模态文本图像语义匹配
推荐工具精选
AI云服务特惠
懂AI专属折扣关注微信公众号
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号