图像识别AI工具大全:实用软件、网站推荐

图像识别

TF-ID-large-no-caption

TF-ID-large-no-caption

开源项目TF-ID

学术文献中图表精准识别工具

resnet-152

resnet-152

图像识别ResNet-152

深入解析ResNet-152在图像分类中的应用

owlv2-large-patch14

owlv2-large-patch14

目标检测Github

开源零样本对象检测模型,支持多文本查询

git-base-coco

git-base-coco

Github模型

应用于多任务的图像文本生成模型

chinese-clip-vit-base-patch16

chinese-clip-vit-base-patch16

Github模型

中文数据驱动的多模态对比学习工具

omdet-turbo-swin-tiny-hf

omdet-turbo-swin-tiny-hf

目标检测Github

实时开放词汇目标检测模型 支持批量多任务处理

donut-base-finetuned-docvqa

donut-base-finetuned-docvqa

文档理解Donut

基于Donut架构的无OCR文档理解与问答模型

llava-interleave-qwen-7b-hf

llava-interleave-qwen-7b-hf

图像识别自然语言处理

领先的多模态AI模型 支持多图像视频和3D输入处理

vit-base-patch32-224-in21k

vit-base-patch32-224-in21k

Vision Transformer计算机视觉

Vision Transformer模型在2100万图像数据集上预训练

TinyCLIP-ViT-40M-32-Text-19M-LAION400M

TinyCLIP-ViT-40M-32-Text-19M-LAION400M

Github模型

基于亲和力模仿和权重继承的CLIP模型压缩方法

swin-base-patch4-window7-224-in22k

swin-base-patch4-window7-224-in22k

图像识别开源项目

基于shifted windows的分层视觉Transformer图像处理模型

Virchow2

Virchow2

图像识别PyTorch

基于神经网络的病理切片图像分析与特征提取模型

vip-llava-7b-hf

vip-llava-7b-hf

ViP-LLaVAHuggingface

基于自然视觉提示的多模态语言模型

llava-onevision-qwen2-7b-si

llava-onevision-qwen2-7b-si

Huggingface机器学习

多模态AI模型实现图像和视频的深度理解

fuyu-8b

fuyu-8b

Github模型

无需图像编码器的轻量级多模态开源模型

instructblip-flan-t5-xl

instructblip-flan-t5-xl

InstructBLIP机器学习

InstructBLIP视觉语言模型实现智能图像理解与对话

Llama-3.2-11B-Vision-Instruct

Llama-3.2-11B-Vision-Instruct

多模态大语言模型图像识别

Meta推出支持图文交互的语言模型

doctr-crnn-vgg16-bn-fascan-v1

doctr-crnn-vgg16-bn-fascan-v1

开源项目PyTorch

VGG16-CRNN文字识别模型

MiniCPM-Llama3-V-2_5-int4

MiniCPM-Llama3-V-2_5-int4

Github开源项目

轻量级视觉问答模型实现实时图像对话

japanese-clip-vit-b-16

japanese-clip-vit-b-16

ViT-B/16图像识别

日语CLIP模型实现跨模态文本图像语义匹配