图像识别
学术文献中图表精准识别工具
深入解析ResNet-152在图像分类中的应用
开源零样本对象检测模型,支持多文本查询
应用于多任务的图像文本生成模型
中文数据驱动的多模态对比学习工具
实时开放词汇目标检测模型 支持批量多任务处理
基于Donut架构的无OCR文档理解与问答模型
领先的多模态AI模型 支持多图像视频和3D输入处理
Vision Transformer模型在2100万图像 数据集上预训练
基于亲和力模仿和权重继承的CLIP模型压缩方法
基于shifted windows的分层视觉Transformer图像处理模型
基于神经网络的病理切片图像分析与特征提取模型
基于自然视觉提示的多模态语言模型
多模态AI模型实现图像和视频的深度理解
无需图像编码器的轻量级多模态开源模型
InstructBLIP视觉语言模型实现智能图像理解与对话
Meta推出支持图文交互的语言模型
VGG16-CRNN文字识别模型
轻量级视觉问答模型实现实时图像对话
日语CLIP模型实现跨模态文本图像语义匹配
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号