#图像识别

moondream - 小巧高效的视觉语言模型 兼容多平台运行
moondream视觉语言模型图像识别AI问答深度学习Github开源项目
moondream是一款小型视觉语言模型,可在多种平台上运行。该模型在VQAv2、GQA和TextVQA等基准测试中表现优异,能够回答图像相关问题并提供详细描述。moondream支持批量处理,可通过transformers库或GitHub仓库使用。尽管体积小巧,该模型在图像理解和问答任务上表现出色。
Poker - 多平台实时对战的智能德州扑克机器人
DeeperMind扑克机器人图像识别蒙特卡洛模拟策略分析Github开源项目
DeeperMind是一款开源的德州扑克机器人,支持Pokerstars、Partypoker和GGPoker等多个平台的实时对战。它结合图像识别、蒙特卡洛模拟和遗传算法,可长时间自主操作。该项目提供策略分析和编辑功能,支持用户优化策略。DeeperMind还允许添加新桌面和代码贡献,是一个不断发展的社区协作项目。
SikuliX1 - 跨平台的图像识别自动化工具
SikuliX自动化测试图像识别GUI自动化跨平台Github开源项目
SikuliX是一款跨平台的自动化工具,可在Windows、Mac和Linux/Unix系统上运行。它采用OpenCV的图像识别技术来识别屏幕上的GUI元素,并通过模拟鼠标和键盘操作来控制这些元素。这使得SikuliX在无法直接访问应用程序或网页源代码的情况下特别有用。目前,SikuliX正在开发2.0.6版本,要求Java 11或更高版本,并为各操作系统提供了专用的IDE下载。SikuliX适用于自动化测试、数据录入和屏幕操作等多种场景。
trace.moe - 将动漫截图精准溯源的开源搜索引擎
trace.moe动漫场景搜索APIDocker图像识别Github开源项目
trace.moe是一个开源的动漫场景搜索引擎,能够准确定位动漫截图的出处,包括具体作品、集数和时间点。该项目提供Web集成、API接口和浏览器扩展,适用于开发者和普通用户。此开源项目采用模块化设计,包含网页服务器、API服务器和媒体服务器等核心组件。系统支持Web集成和浏览器扩展,便于开发者进行二次开发。同时,trace.moe还提供了详细的部署指南,方便用户自行搭建和定制动漫场景搜索服务。
tesseract-ocr-for-php - 用于PHP的Tesseract OCR封装库
Tesseract OCRPHP图像识别开源库多语言支持Github开源项目
tesseract-ocr-for-php是一个PHP封装库,提供简洁的接口调用Tesseract OCR引擎。该库支持多语言文字识别、自定义配置和多种输出格式(如HOCR、PDF)。适用于文档数字化、图像文字提取等OCR应用场景。通过Composer可快速集成到PHP项目中,简化OCR开发流程。
LeNet5-MNIST-PyTorch - PyTorch实现LeNet-5识别MNIST数据集
LeNet-5MNISTPyTorch深度学习图像识别Github开源项目
这是一个开源深度学习项目,使用PyTorch实现LeNet-5卷积神经网络识别MNIST数据集。项目采用MaxPooling和ReLU,测试集精度达99%。包含完整代码实现,涵盖数据处理、模型训练和评估。适合深度学习初学者学习卷积神经网络基础知识。
gImageReader - 基于tesseract-ocr的开源图像文字识别工具 支持多格式处理
gImageReaderOCR软件图像识别tesseract-ocrPDF处理Github开源项目
gImageReader是一个基于tesseract-ocr的开源图像文字识别工具。它提供简洁的Gtk/Qt前端界面,支持从多种来源导入PDF和图像,包括磁盘、扫描设备、剪贴板和屏幕截图。该工具可批量处理文件,支持手动或自动定义识别区域,输出格式包括纯文本和hOCR。gImageReader还具备文本后处理、拼写检查和生成PDF等功能,支持多语言识别。作为一款功能全面的OCR软件,gImageReader为用户提供了便捷的文字识别解决方案。
gosseract - Go语言OCR解决方案 利用Tesseract C++库
gosseractOCRTesseractGo语言图像识别Github开源项目
gosseract是一个Go语言OCR包,利用Tesseract C++库实现光学字符识别。它支持多种图像格式,提供简单API和丰富配置选项。项目包含一个可快速部署的OCR服务器应用,适用于文档数字化、图像文本提取等场景。gosseract支持多语言识别,可轻松集成到各类Go项目中。
tesserocr - Python封装的OCR引擎简化技术集成
tesserocrOCRPythonTesseract API图像识别Github开源项目
tesserocr是基于Tesseract OCR引擎的Python封装库,通过Cython集成Tesseract C++ API。它提供简洁的Pythonic接口,支持多线程并发,可与Pillow库配合。tesserocr简化了OCR集成,便于开发者在Python项目中实现高效文字识别。该库支持多种图像格式,提供丰富的API功能,包括文本识别、布局分析和方向检测等。tesserocr支持多种语言识别、图像预处理、文本布局分析等高级功能。它还提供了简单的命令行接口,方便快速测试和使用。该库适用于各种OCR应用场景,如文档数字化、图像文本提取和自动化数据录入等。
MLKit - Android机器学习开发的高效工具库
MLKit机器学习图像识别AndroidGoogleGithub开源项目
MLKit是一个Android机器学习工具库,集成了Google的多项视觉识别技术。它支持条码扫描、人脸检测、图像标签和对象检测等功能。开发者无需深厚的机器学习背景,即可通过简单的代码实现复杂功能。此外,MLKit还提供API支持在应用中使用自定义TensorFlow Lite模型,为开发者提供了更多灵活性。
PaddleOCR-json - 基于PaddleOCR的跨平台离线文字识别组件
PaddleOCR-jsonOCR图像识别离线组件APIGithub开源项目
PaddleOCR-json是基于PaddleOCR开发的离线文字识别组件,支持Windows和Linux系统。该项目提供简单的API接口,兼容多种编程语言,便于快速集成OCR功能。其特点包括部署便捷、识别迅速、精度较高,支持多语言识别,适用于多种复杂场景的文字识别需求。作为开源项目,PaddleOCR-json为开发者提供了一个灵活高效的OCR解决方案。
simple-ocr-opencv - 基于OpenCV和NumPy的轻量级Python OCR工具
OCRPythonOpenCV图像识别机器学习Github开源项目
simple-ocr-opencv是一个基于OpenCV和NumPy的Python OCR工具。它采用矩形模型进行图像分割,使用k-NN算法实现字符分类。项目结构清晰,包含示例代码,支持自定义训练,并提供预标注训练图像和交互式标注功能。开发者可通过example.py快速上手。这个开源项目遵循GNU AGPLv3许可证,适合需要实现基础OCR功能的开发者使用。
multi_token - 将多模态嵌入到大语言模型的开源框架
multi_token多模态嵌入大语言模型图像识别语音识别Github开源项目
multi_token是一个开源项目,旨在扩展大语言模型的多模态处理能力。该框架支持将图像、音频、文档和视频等多种模态编码为统一格式,并嵌入到单个模型中。它提供了简便的实现方法,使开发者能够轻松构建支持长文档、图像、音频和视频等多模态输入的语言模型。
webcamGPT - 实时视频流分析工具,基于OpenAI视觉API
webcamGPTOpenAI vision API视频流聊天图像识别API密钥Github开源项目
webcamGPT是一个基于OpenAI视觉API的开源工具集,用于实时分析图像、视频文件和网络摄像头流。该项目提供简便的安装方法和API密钥配置指南,便于开发者快速集成。尽管仍处于开发阶段,webcamGPT已展示出在视频流智能分析方面的潜力,为计算机视觉应用开辟了新的可能性。
chinese-clip-vit-base-patch16 - 中文数据驱动的多模态对比学习工具
Github模型开源项目零样本学习深度学习Chinese-CLIP图像识别Huggingface多模态检索
项目通过ViT和RoBERTa实现了中文CLIP模型,支持图像和文本的嵌入计算及相似性分析,具备零样本学习和图文检索功能。该模型在多项基准测试中表现优秀,包括MUGE、Flickr30K-CN等。结合其官方API,用户可轻松实现多场景中的图文转换与识别。详细信息和实施教程可在GitHub获取。
Chance: Visual Intelligence - 视觉智能搜索,让世界触手可及
AI工具Chance AI视觉智能AI绘图图像识别增强现实
Chance: Visual Intelligence通过视觉智能技术提供便捷的视觉搜索,帮助识别艺术品、建筑和宠物等,获取详尽信息和背景故事。平台致力于连接视觉世界,提升内容参与体验,并提供无算法推荐的清晰信息流和音频辅助功能。
owlv2-large-patch14 - 开源零样本对象检测模型,支持多文本查询
目标检测Github开源项目OWLv2CLIPAI研究Huggingface图像识别模型
OWLv2模型是一种零样文本感知对象检测模型,使用CLIP作为多模态骨干,通过结合视觉和文本特征实现开词汇检测。模型去除了视觉模型的最终token池化层,并附加分类和框头,能够处理多文本查询,扩展了图像识别的应用潜力。研究者通过重新训练和微调CLIP,提高了其在公开检测数据集上的性能,有助于探讨计算机视觉模型的鲁棒性。
GOT-OCR2_0 - GOT-OCR2_0为OCR技术开创统一端到端模型新纪元
OCR视觉语言模型图像识别Huggingface模型GithubGOT开源项目自然语言处理
GOT-OCR2_0项目提出通用OCR理论,通过统一端到端模型实现OCR 2.0。该模型具备多语言识别、版面分析和细粒度OCR能力,可处理普通文本、格式化文本及多页文档。项目提供开源训练代码和在线演示,为OCR技术发展开辟新方向。
llava-onevision-qwen2-7b-ov - 基于Qwen2的多模态模型 支持图像和视频理解
图像识别多模态Huggingface模型大语言模型视频理解Github开源项目LLaVA-OneVision
LLaVA-OneVision-qwen2-7b-ov是基于Qwen2开发的多模态模型,具备32K标记上下文窗口。该模型通过LLaVA-OneVision数据集训练,可理解图像、多图和视频内容。在AI2D、ChartQA、DocVQA等多个多模态基准测试中表现优异,支持英语和中文,适用于多种多模态应用场景。
git-base-coco - 应用于多任务的图像文本生成模型
Github模型模型训练开源项目COCO图像识别Huggingface视觉问答GIT
GIT是一种基于Transformer的图像文本生成模型,进行了COCO数据集的微调。其设计提升了在图像和视频描述以及问答上的能力。模型结合了CLIP图像令牌与文本令牌进行训练,能够有效预测下一个文本令牌。GIT被应用于图像和视频的标题生成、视觉问答和图像分类等视觉任务,利用大量图像文本对进行训练,实现了多样化的视觉语言任务,提升了视觉理解和交互的效果。
Llama-3.2-90B-Vision-Instruct - Meta开发的多模态大语言模型实现图像理解与视觉推理
模型多模态大语言模型Github图像识别Llama 3.2-VisionHuggingface开源项目Meta自然语言处理
Llama-3.2-90B-Vision-Instruct是Meta开发的多模态大语言模型,用于图像理解和视觉推理。该模型基于Llama 3.1构建,集成视觉适配器,支持图像和文本输入。在视觉识别、图像推理、描述和问答方面表现优异,超越多数多模态模型。模型具有128K上下文长度,采用60亿(图像,文本)对训练,知识覆盖至2023年12月。
food-category-classification-v2.0 - 12类食品图像分类模型 准确率达96%
模型开源项目Huggingface食品分类机器学习Gradio图像识别Github深度学习
food-category-classification-v2.0是一个食品类别图像分类模型,可识别12种食品类别,包括面包、乳制品、甜点、蛋类、油炸食品、水果、肉类、面条、米饭、海鲜、汤和蔬菜。模型通过分析图像视觉特征进行分类,适用于食品博客、餐厅和食谱网站的图片管理。准确率达96%,可提高内容分类效率。
HuatuoGPT-Vision-7B - 融合视觉知识的医疗多模态语言模型助力诊断
模型GithubPubMedVision多模态大语言模型开源项目Huggingface图像识别医疗应用HuatuoGPT-Vision
HuatuoGPT-Vision-7B是基于Qwen2-7B和LLaVA-v1.5架构的多模态医疗语言模型。该模型利用PubMedVision数据集训练,将医学视觉知识融入多模态LLM中,能同时处理文本和图像输入。开源代码可从GitHub获取,便于模型部署和使用。HuatuoGPT-Vision-7B在医疗诊断、图像分析等领域展现出潜力,为医疗应用提供了新的解决方案。
yolos-small - 基于Vision Transformer的高效物体检测模型
模型目标检测视觉模型COCO数据集YOLOS开源项目Huggingface图像识别Github
YOLOS是一种基于Vision Transformer的物体检测模型,在COCO 2017数据集上进行了微调。该模型采用DETR损失函数训练,使用双向匹配损失和匈牙利算法优化参数。YOLOS-small版本在COCO验证集上达到36.1 AP的性能,而基础版本可达到与DETR相当的42 AP。YOLOS为计算机视觉领域提供了一种简单高效的物体检测方案,适用于多种目标检测场景。
vit-large-patch16-224-in21k - 基于ImageNet-21k预训练的大型Vision Transformer模型
模型计算机视觉ImageNet-21kGithub图像识别预训练模型Vision TransformerHuggingface开源项目
该模型是在ImageNet-21k数据集(1400万图像,21843类别)上预训练的大型Vision Transformer (ViT)。它采用Transformer架构,将224x224分辨率的图像分割成16x16的patch序列进行处理。模型可提取强大的图像特征,适用于分类等多种下游视觉任务。用户可直接用于图像嵌入或在特定任务上微调。
MiniCPM-V-2_6-int4 - 精简高效的多语言视觉AI对话模型
模型MiniCPM-V开源项目HuggingfaceHugging Face图像识别多模态Github量化模型
MiniCPM-V-2_6-int4是一款经过int4量化的多语言视觉对话模型,GPU内存占用仅约7GB。该模型支持图像理解、OCR、多图像处理和视频分析等视觉任务,可通过Python代码实现流式输出。作为一个资源友好型视觉AI工具,MiniCPM-V-2_6-int4在保持性能的同时提高了部署效率,适合开发者进行各类视觉AI应用开发。
cogvlm-chat-hf - 开源视觉语言模型CogVLM在多项跨模态基准测试中超越PaLI-X 55B
模型开源GithubCogVLM图像识别视觉语言模型Huggingface开源项目多模态
CogVLM是一款开源视觉语言模型,具有100亿视觉参数和70亿语言参数。在NoCaps、Flicker30k等10个经典跨模态基准测试中,CogVLM实现了最先进的性能,部分超越PaLI-X 55B。其架构包括视觉变换器编码器、MLP适配器、预训练语言模型和视觉专家模块。CogVLM能进行多模态对话,适用于图像描述和视觉问答等任务。该模型对学术研究开放,经登记后可免费用于商业用途。
Florence-2-large-ft - 统一表示实现多种视觉任务的AI基础模型
图像识别计算机视觉多任务学习Huggingface模型GithubFlorence-2开源项目自然语言处理
Florence-2是一款视觉基础模型,采用提示式方法处理多种视觉和视觉语言任务。该模型基于包含54亿标注的FLD-5B数据集进行多任务学习,可通过简单文本提示执行图像描述、目标检测和分割等任务。Florence-2采用序列到序列架构,在零样本和微调场景中表现优异,展现了较强的竞争力。
Qwen2-VL-72B-Instruct - 多模态视觉语言模型实现图像视频理解与交互
模型多模态处理Qwen2-VLGithub图像识别视频理解视觉语言模型Huggingface开源项目
Qwen2-VL-72B-Instruct是一款多模态视觉语言模型,具备处理任意分辨率图像和长达20分钟视频的能力。该模型可执行复杂视觉推理任务,支持多语言,并能作为智能代理操控设备。在多项视觉语言基准测试中,Qwen2-VL-72B-Instruct展现出优异的性能。
XLM-Roberta-Large-Vit-B-16Plus - 支持50多种语言的多模态视觉语言模型
多语言CLIP图像识别Huggingface模型机器学习XLM-RobertaGithub开源项目自然语言处理
XLM-Roberta-Large-Vit-B-16Plus是一个多语言视觉语言模型,扩展了CLIP模型至50多种语言。该模型包含多语言文本编码器,可与Vit-B-16Plus图像编码器协同工作。在多语言MS-COCO数据集的文本-图像检索任务中,它在11种语言中均表现出色。模型能够从多语言文本和图像中提取特征向量,适用于跨语言的图像文本匹配应用。
llava-onevision-qwen2-72b-ov-sft - 基于Qwen2的多模态AI模型 支持图像和视频交互
多模态模型图像识别Huggingface视频处理模型GithubQwen2开源项目LLaVA-OneVision
LLaVA-OneVision是基于Qwen2的多模态AI模型,支持图像、多图和视频交互。模型在专用数据集上训练,具有32K tokens上下文窗口,提供0.5B、7B和72B三种规模。支持英语和中文,可处理单图、多图和视频输入。项目开源了代码、在线演示和论文,为AI研究和开发提供了实用工具。
layoutlm-document-qa - LayoutLM文档智能问答模型
模型Github视觉问答开源项目HuggingfaceLayoutLM图像识别自然语言处理文档问答
LayoutLM文档智能问答模型是一个经过SQuAD2.0和DocVQA数据集微调的多模态模型。它能够准确回答发票、合同等各类文档图像中的问题,支持简单的Python代码调用。该模型为文档信息提取和理解提供了高效便捷的解决方案,适用于多种文档处理场景。
resnet-152 - 深入解析ResNet-152在图像分类中的应用
图像识别ResNet-152卷积神经网络深度学习模型Github开源项目图像分类Huggingface
ResNet-152 v1.5模型在ImageNet-1k上预训练,采用224x224分辨率,改进后的下采样策略提升了模型的准确性。该模型可用于图像分类,亦可在模型中心找到特定任务的微调版本。
llava-1.6-mistral-7b-gguf - 基于Mistral-7B的LLaVA多模态模型GGUF量化版
MistralLLaVA模型多模态模型图像识别Github机器学习开源项目Huggingface
LLaVA-1.6-Mistral-7B是一款开源的视觉语言模型GGUF量化版本,提供3bit至8bit多个压缩等级选择。该模型整合了图像理解与对话能力,通过大规模图文对和多模态指令数据训练而成。其中4bit和5bit量化版本在性能与模型体积之间取得良好平衡,适合在计算资源有限的场景下部署使用
Florence-2-base-ft - 基于Transformers.js的图像识别文本生成引擎
Transformers.js模型深度学习Florence-2图像识别模型转换GithubHuggingface开源项目
Florence-2-base-ft是一个基于ONNX权重的图像识别模型,专门针对Web环境优化。通过Transformers.js框架,该模型能够实现图像描述生成等功能。开发者可以通过JavaScript API将图像分析能力集成到Web应用中,项目提供在线演示展示具体应用效果。
Llama-3.2-11B-Vision-Instruct-nf4 - 量化视觉语言模型实现高效图像分析与理解
神经网络量化图像识别开源项目模型模型部署视觉AI模型GithubLlama-3.2Huggingface
Llama-3.2-11B-Vision-Instruct-nf4是一个基于meta-llama/Llama-3.2-11B-Vision-Instruct的量化视觉语言模型,采用BitsAndBytes的NF4(4位)量化技术,无需双重量化即可实现高效推理。该模型主要用于图像字幕生成等视觉分析任务,并提供详细的使用示例代码。项目还包含配套的ComfyUI自定义节点,为开发者提供了便捷的视觉分析工具集成方案。