Logo

#图像识别

Logo of CLIP
CLIP
CLIP通过对比学习训练神经网络,结合图像和文本,实现自然语言指令预测。其在ImageNet零样本测试中的表现与ResNet50相当,无需使用原始标注数据。安装便捷,支持多种API,适用于零样本预测和线性探针评估,推动计算机视觉领域发展。
Logo of computervision-recipes
computervision-recipes
computervision-recipes为数据科学家和机器学习工程师提供计算机视觉领域的实用示例和指南,涵盖面部识别、图像识别等多种视觉任务,并便利地利用先进库加速从概念到实现的全过程,并在云端实现模型训练与部署。
Logo of X-AnyLabeling
X-AnyLabeling
X-AnyLabeling是一个集合先进模型技术的强大标注工具,集成AI推理引擎,支持图像与视频处理。该工具支持单帧与批量预测,适用于分类、检测、分割和OCR等视觉任务,兼容多种标注样式与主流标签格式。通过使用GPU加速推理,X-AnyLabeling 保证高效率和高精度的处理性能,突出其技术优势。
Logo of attention-ocr
attention-ocr
该项目提供了基于注意力机制的OCR模型,结合了CNN与LSTM,用于图像识别,并能够导出为SavedModel或frozen graph格式。用户可以通过生成TFRecords数据集、训练、测试及可视化等步骤完整运行该OCR系统。项目还支持通过Tensorflow Serving提供REST API服务,并可以在Google Cloud ML Engine上进行模型训练。目前该项目依赖Tensorflow 1.x,未来计划升级到Tensorflow 2。
Logo of recognize-anything
recognize-anything
Recognize Anything Model是一系列开源图像识别模型,包括RAM++、RAM和Tag2Text。这些模型能准确识别常见和开放域类别,支持高精度图像标签生成和全面描述。项目提供预训练模型、推理代码和训练数据集,适用于多种计算机视觉任务。模型性能优于现有先进方案,尤其在零样本识别方面表现突出。
Logo of Imagga
Imagga
Imagga提供全面的图像识别API和计算机视觉解决方案,包括自动标签、视觉搜索、人脸识别和内容审核等功能。其技术广泛应用于技术、媒体和电商等行业,服务全球30,000多家初创公司和200多家企业客户。Imagga通过可定制的机器学习技术,助力开发者和企业构建下一代智能图像应用。
Logo of Snippai
Snippai
Snippai提供多样化的AI图像处理功能。该平台能够识别公式并转换为LaTeX格式,提取文本内容,将表格转换为Markdown格式,分析图像内容,解决图像中的问题,解释代码片段,以及提取主要颜色。这些功能旨在提高用户的图像处理效率,为各类图像识别和转换需求提供全面解决方案。
Logo of Q
Q
Q是一款融合GPT-4o-mini和GPT-4o AI模型的多功能应用,提供语音聊天、图像生成与识别、交互式讲故事等服务。支持个性化设置,采用灵活的按需付费模式。Q不仅能进行智能对话,还展现独特个性,为用户创造全新的AI互动体验。
Logo of PlotCh.at
PlotCh.at
PlotCh.at是一个创新的数据可视化交互平台,通过智能识别上传的图表或图形数据图片,生成数据表格并提供详细解释。这种直观的图表数据分析方式使复杂的视觉数据探索变得高效简单。该可视化数据交互工具适用于学生、研究人员和商业分析师,助力深入洞察数据信息,提升数据分析效率。
Logo of moondream
moondream
moondream是一款小型视觉语言模型,可在多种平台上运行。该模型在VQAv2、GQA和TextVQA等基准测试中表现优异,能够回答图像相关问题并提供详细描述。moondream支持批量处理,可通过transformers库或GitHub仓库使用。尽管体积小巧,该模型在图像理解和问答任务上表现出色。
Logo of tesseract-ocr-for-php
tesseract-ocr-for-php
tesseract-ocr-for-php是一个PHP封装库,提供简洁的接口调用Tesseract OCR引擎。该库支持多语言文字识别、自定义配置和多种输出格式(如HOCR、PDF)。适用于文档数字化、图像文字提取等OCR应用场景。通过Composer可快速集成到PHP项目中,简化OCR开发流程。
Logo of tesserocr
tesserocr
tesserocr是基于Tesseract OCR引擎的Python封装库,通过Cython集成Tesseract C++ API。它提供简洁的Pythonic接口,支持多线程并发,可与Pillow库配合。tesserocr简化了OCR集成,便于开发者在Python项目中实现高效文字识别。该库支持多种图像格式,提供丰富的API功能,包括文本识别、布局分析和方向检测等。tesserocr支持多种语言识别、图像预处理、文本布局分析等高级功能。它还提供了简单的命令行接口,方便快速测试和使用。该库适用于各种OCR应用场景,如文档数字化、图像文本提取和自动化数据录入等。
Logo of multi_token
multi_token
multi_token是一个开源项目,旨在扩展大语言模型的多模态处理能力。该框架支持将图像、音频、文档和视频等多种模态编码为统一格式,并嵌入到单个模型中。它提供了简便的实现方法,使开发者能够轻松构建支持长文档、图像、音频和视频等多模态输入的语言模型。
Logo of tesseract.js
tesseract.js
Tesseract.js 是一个功能强大的 JavaScript 库,支持从图像中提取多种语言的文字,适用于浏览器和 Node.js 环境。它利用 WebAssembly 技术封装了 Tesseract OCR 引擎,支持通过 CDN、Webpack 或本地安装进行集成。该库具备低内存占用、快速处理、多种图像格式支持和并行处理功能。最新版本优化了文件大小和运行时性能,兼容多平台,适用于文档扫描和实时视频识别等应用。
Logo of yolov3
yolov3
YOLOv3是Ultralytics公司开发的开源视觉AI技术,汇集了广泛的研究和丰富经验。平台包含详尽的文档和教程,支持社区讨论,简化学习和实施过程。此技术因其出色性能和易用性,在全球范围内被广泛采用,帮助用户迅速部署并有效训练模型。
Logo of lbot-whatsapp
lbot-whatsapp
LBot是一个用于WhatsApp的智能机器人,具备照片和视频转贴图、文本转语音和音乐识别等功能。通过简单配置,可启用Chat-GPT聊天、天气查询和货币转换等多种功能。支持Windows、Linux和Termux平台,并提供详细的安装指南和API密钥配置说明。适用于个人和业务应用,显著提升WhatsApp的使用体验。
Logo of AIAS
AIAS
AIAS提供多种图像识别和自然语言处理SDK,包括OCR工具、动物分类、单目深度估计等图像处理功能,以及词向量、机器翻译、情感分析等自然语言处理应用。该项目旨在提升开发效率,满足多种业务需求。
Logo of hiera
hiera
Hiera是一种分层视觉Transformer模型,在图像和视频任务中表现出色,同时保持高效推理。该模型简化了现有Transformer的复杂模块,并通过MAE预训练学习空间偏置,实现了简洁高效的架构。项目提供了模型库、推理示例和基准测试脚本,支持通过PyTorch Hub和Hugging Face Hub使用预训练模型。
Logo of PhotoTag.ai
PhotoTag.ai
PhotoTag.ai是一款基于AI的图像识别工具,为照片和视频自动生成关键词、标题和描述。支持15种以上语言,适用于股票摄影、电商、社媒、博客和营销等多个领域。该平台通过智能标记技术,有效提高内容管理效率,减少手动操作时间。
Logo of Scrabblecam
Scrabblecam
Scrabblecam是一款基于AI技术的Scrabble游戏辅助工具。通过深度学习算法,它能够分析真实棋盘照片,识别当前局势并推荐最佳走法。用户可以上传照片或直接拍摄,系统会快速提供分析结果。Scrabblecam还提供API接口,便于开发者集成其功能。这一工具为Scrabble爱好者提供了智能化的游戏辅助体验。
Logo of Onyxium
Onyxium
Onyxium平台整合了多种AI工具,包括文本生成、图像创建、图像识别、文本分析和语音识别等功能。该平台适用于个人和团队,提供工作流程优化、多语言支持和视频集成等特性。用户可根据需求选择免费或付费计划,灵活使用不同级别的AI服务。Onyxium旨在为用户提供便捷的AI技术接入渠道,助力提升效率和拓展应用领域。
Logo of Deepengin
Deepengin
Deepengin提供专业的图像和视频审核API服务。通过先进的计算机视觉技术,自动检测和过滤照片、视频及直播中的不当内容,如裸露、暴力、毒品和攻击性手势。平台易于集成,确保数据隐私和安全。适用于社交媒体、在线教育和电商平台等需要大规模内容审核的应用,有效维护内容环境,保护品牌形象。Deepengin以毫秒级的处理速度和99%以上的准确率,支持多语言内容审核,为企业提供全面的内容安全解决方案。
Logo of Poker
Poker
DeeperMind是一款开源的德州扑克机器人,支持Pokerstars、Partypoker和GGPoker等多个平台的实时对战。它结合图像识别、蒙特卡洛模拟和遗传算法,可长时间自主操作。该项目提供策略分析和编辑功能,支持用户优化策略。DeeperMind还允许添加新桌面和代码贡献,是一个不断发展的社区协作项目。
Logo of LeNet5-MNIST-PyTorch
LeNet5-MNIST-PyTorch
这是一个开源深度学习项目,使用PyTorch实现LeNet-5卷积神经网络识别MNIST数据集。项目采用MaxPooling和ReLU,测试集精度达99%。包含完整代码实现,涵盖数据处理、模型训练和评估。适合深度学习初学者学习卷积神经网络基础知识。
Logo of MLKit
MLKit
MLKit是一个Android机器学习工具库,集成了Google的多项视觉识别技术。它支持条码扫描、人脸检测、图像标签和对象检测等功能。开发者无需深厚的机器学习背景,即可通过简单的代码实现复杂功能。此外,MLKit还提供API支持在应用中使用自定义TensorFlow Lite模型,为开发者提供了更多灵活性。
Logo of webcamGPT
webcamGPT
webcamGPT是一个基于OpenAI视觉API的开源工具集,用于实时分析图像、视频文件和网络摄像头流。该项目提供简便的安装方法和API密钥配置指南,便于开发者快速集成。尽管仍处于开发阶段,webcamGPT已展示出在视频流智能分析方面的潜力,为计算机视觉应用开辟了新的可能性。
Logo of Galileo AI
Galileo AI
Galileo AI提供先进的AI技术和解决方案,助力企业数据分析与业务优化,促进科技持续创新。
Logo of open_clip
open_clip
OpenCLIP是一个先进的开源深度学习项目,专注于OpenAI的CLIP模型的实现和优化。该项目在多样化的数据源和不同的计算预算下成功训练出多个高效能模型,涵盖图像和文本嵌入、模型微调及新模型开发等多个领域。通过增强图像与语言的联合理解能力,OpenCLIP显著推动了人工智能技术的发展,拓宽了其应用领域。
Logo of UniRepLKNet
UniRepLKNet
UniRepLKNet项目提出了一个适用于图像、音频、视频、点云和时间序列的大核卷积网络统一架构。通过提供四个设计大核卷积网络的架构指南,显著提升了多模态数据的识别性能。特别是在全球温度和风速预测等挑战性的时间序列预测任务中,UniRepLKNet表现优异,超过了现有系统。这一项目不仅重振了卷积神经网络在传统领域的表现,还展示了其在新兴领域的广泛应用潜力。
Logo of RegionSpot
RegionSpot
RegionSpot是一个开源计算机视觉项目,专门用于识别图像中的任意区域。该项目利用深度学习技术,通过文本提示或边界框输入来定位和分割图像中的特定区域。RegionSpot提供了多个预训练模型,在罕见物体检测中实现了26.3%的框AP和23.4%的掩码AP。项目支持自定义词汇,并提供简单的API接口,适用于多种计算机视觉应用场景。
Logo of tesseract.js-core
tesseract.js-core
tesseract.js-core是tesseract.js的核心组件,将Tesseract OCR引擎从C语言编译为JavaScript WebAssembly。该项目提供跨平台的文字识别功能,适用于浏览器和Node.js环境。它包含构建脚本、JavaScript封装和第三方依赖,并对Tesseract进行了优化,增加了页面角度检测和图像旋转等功能。开发者可使用Docker构建,或运行最小示例测试其功能。
Logo of College Tools
College Tools
College Tools是一款集成于多个学习管理系统(LMS)的AI学习助手。该工具利用AI算法提供即时作业解答和详细解释,支持图像识别,可处理复杂图表问题。兼容Blackboard、Canvas等多种LMS平台,帮助学生高效完成作业。注重隐私保护,使用过程不可检测,为学生提供安全可靠的学习支持。
Logo of Objective
Objective
Objective提供AI原生搜索API,为网站和应用集成多模态搜索功能。其技术能理解自然语言,处理不完整数据,分析图像内容。通过融合多种搜索和检索方法,实现语义理解、图像识别和上下文关联。Objective提供多语言SDK和RESTful API,便于快速部署。系统还能根据用户查询自动优化搜索性能,提供相关且自然的搜索结果。例如,它可以显著改善电子商务网站的产品搜索体验,或优化内容平台的文章检索效率,为各行各业带来智能搜索解决方案。
Logo of Clipboard TTS
Clipboard TTS
Clipboard TTS是一款专为阅读障碍者设计的多功能文本转语音工具。该应用支持49种语言和100多种声音,能自动检测剪贴板内容变化并朗读。它集成了自动词典、图像文字识别、自动翻译、字体定制、文本高亮和背景调整等功能,显著改善了用户的阅读体验。此外,Clipboard TTS还提供历史记录和AI辅助功能,满足多样化的阅读需求。这款工具致力于帮助用户克服阅读障碍,实现更自由的阅读体验。
Logo of Imagga
Imagga
Imagga提供多功能图像识别API和计算机视觉解决方案,包括自动标记、分类、裁剪、颜色分析、视觉搜索和人脸识别等。其API支持云端及本地部署,助力开发智能图像应用。Imagga技术已在82多个国家广泛应用,服务众多知名企业和初创公司。
Logo of SikuliX1
SikuliX1
SikuliX是一款跨平台的自动化工具,可在Windows、Mac和Linux/Unix系统上运行。它采用OpenCV的图像识别技术来识别屏幕上的GUI元素,并通过模拟鼠标和键盘操作来控制这些元素。这使得SikuliX在无法直接访问应用程序或网页源代码的情况下特别有用。目前,SikuliX正在开发2.0.6版本,要求Java 11或更高版本,并为各操作系统提供了专用的IDE下载。SikuliX适用于自动化测试、数据录入和屏幕操作等多种场景。
Logo of gImageReader
gImageReader
gImageReader是一个基于tesseract-ocr的开源图像文字识别工具。它提供简洁的Gtk/Qt前端界面,支持从多种来源导入PDF和图像,包括磁盘、扫描设备、剪贴板和屏幕截图。该工具可批量处理文件,支持手动或自动定义识别区域,输出格式包括纯文本和hOCR。gImageReader还具备文本后处理、拼写检查和生成PDF等功能,支持多语言识别。作为一款功能全面的OCR软件,gImageReader为用户提供了便捷的文字识别解决方案。
Logo of PaddleOCR-json
PaddleOCR-json
PaddleOCR-json是基于PaddleOCR开发的离线文字识别组件,支持Windows和Linux系统。该项目提供简单的API接口,兼容多种编程语言,便于快速集成OCR功能。其特点包括部署便捷、识别迅速、精度较高,支持多语言识别,适用于多种复杂场景的文字识别需求。作为开源项目,PaddleOCR-json为开发者提供了一个灵活高效的OCR解决方案。
Logo of awesome-deep-learning-papers
awesome-deep-learning-papers
'Awesome Deep Learning Papers' 提供的是一份经精心策划的文献列表,囊括了2012至2016年间在深度学习领域中引用率最高的研究论文。覆盖从图像处理到自然语言处理等众多研究领域,旨在为研究人员与技术爱好者提供启发思考与深入了解的必读材料。
Logo of deep-learning-roadmap
deep-learning-roadmap
为开发者和研究人员提供深度学习的综合资源,从入门到高级应用全覆盖,涵盖图像识别、自然语言处理等关键领域。借助本平台,您可以迅速找到所需资源,掌握最前沿的深度学习技术。
Logo of persian-license-plate-recognition
persian-license-plate-recognition
利用先进的深度学习模型和友好界面,实现高精度的波斯车牌识别。适用于交通监控和自动车辆识别,支持实时视频流处理与管理。
Logo of TF-ID
TF-ID
TF-ID是一系列用于从学术论文中提取表格和图像的目标检测模型。项目开源了训练代码、模型权重和标注数据集。TF-ID包含四个版本,分为基础和大型模型,可提取有无标题文本的表格和图像。模型基于Florence-2微调,测试准确率达98.06%。项目提供使用示例和完整训练指南,方便研究者复现和应用。
Logo of screenshot-to-code
screenshot-to-code
screenshot-to-code是一个AI驱动的工具,能将截图、原型和Figma设计转换为功能性代码。支持HTML+Tailwind、React、Vue等多种前端技术栈,并集成了Claude Sonnet 3.5、GPT-4O等先进AI模型。此外,该工具还具备将网站视频或屏幕录像转化为功能性原型的能力,为开发和设计过程提供了高效的解决方案。
Logo of Lenso.ai
Lenso.ai
Lenso.ai作为一款创新的人工智能反向图像搜索工具,能够分析全球数十亿张图像。该工具采用先进的AI技术,可迅速处理上传的图片,准确识别地点、人物和重复图像。操作简单直观,无需专业背景,广泛应用于摄影师寻找风景、营销人员搜索相关图片以及版权检索等领域。Lenso.ai通过人工智能技术大幅提升了图像搜索的精确度和效率,为用户带来便捷、简单且精准的图像搜索体验。
Logo of OLOCR
OLOCR
OLOCR是一个免费且无限制的在线OCR文字识别服务平台。支持英文OCR和多种语言的图像转文字及PDF文档识别,提供批量处理功能。可轻松上传图片或PDF文件,实现快速、准确的文本提取。适用于需要大规模文字识别的个人和企业,为文档数字化和信息提取提供便捷解决方案。
Logo of Math Sniper
Math Sniper
Math Sniper是一款多功能学习辅助工具,涵盖数学、生物、化学、物理等多个学科。通过拍照识别功能,该应用能即时提供从基础算术到高等数学的详细解答步骤。它不仅覆盖代数、几何、三角函数等数学领域,还能解决其他科目的相关问题。应用提供全天候在线辅导,帮助理解复杂概念。Math Sniper简化学习过程,将精确性和便捷性相结合,适合各层次学习者使用。此外,它在历史和经济学等领域也有广泛应用,进一步拓展了其功能范围。
Logo of vision_transformer
vision_transformer
项目包含多种视觉Transformer(ViT)和MLP-Mixer模型实现,提供ImageNet和ImageNet-21k预训练模型及JAX/Flax微调代码。通过交互式Colab笔记本可探索5万多个模型检查点。这些高性能图像分类模型代表了计算机视觉的前沿进展。
Logo of trace.moe
trace.moe
trace.moe是一个开源的动漫场景搜索引擎,能够准确定位动漫截图的出处,包括具体作品、集数和时间点。该项目提供Web集成、API接口和浏览器扩展,适用于开发者和普通用户。此开源项目采用模块化设计,包含网页服务器、API服务器和媒体服务器等核心组件。系统支持Web集成和浏览器扩展,便于开发者进行二次开发。同时,trace.moe还提供了详细的部署指南,方便用户自行搭建和定制动漫场景搜索服务。
Logo of gosseract
gosseract
gosseract是一个Go语言OCR包,利用Tesseract C++库实现光学字符识别。它支持多种图像格式,提供简单API和丰富配置选项。项目包含一个可快速部署的OCR服务器应用,适用于文档数字化、图像文本提取等场景。gosseract支持多语言识别,可轻松集成到各类Go项目中。
Logo of simple-ocr-opencv
simple-ocr-opencv
simple-ocr-opencv是一个基于OpenCV和NumPy的Python OCR工具。它采用矩形模型进行图像分割,使用k-NN算法实现字符分类。项目结构清晰,包含示例代码,支持自定义训练,并提供预标注训练图像和交互式标注功能。开发者可通过example.py快速上手。这个开源项目遵循GNU AGPLv3许可证,适合需要实现基础OCR功能的开发者使用。