#图像标注
supervision - 可重复的计算机视觉工具
Supervision计算机视觉模型连接器数据集工具图像标注Github开源项目
Supervision 是一个模型无关的计算机视觉工具包,支持分类、检测和分割模型的集成。用户可以加载数据集、可视化检测结果并进行区域统计。该工具包提供了丰富的注释和数据集处理功能,适用于零售和交通管理等领域。了解更多关于使用 Supervision 加速计算机视觉应用开发的信息。
labelme - Python图像标注工具,支持多种格式导出
Labelme图像标注Python实例分割语义分割Github开源项目
Labelme是一个Python图像标注工具,使用Qt构建界面,支持多边形、矩形、圆形、线条和点的标注,适用于图像分类、语义分割、实例分割和视频标注。提供GUI自定义功能,并支持导出VOC和COCO格式数据集。兼容Windows、macOS和Linux平台,安装简单,资源丰富,易于使用。
VoTT - 开源图像与视频标注工具,兼容多种数据存储方式
VoTT开源标注工具图像标注视频标注机器学习Github开源项目
VoTT是一个基于React和Redux的开源图像和视频标注工具,支持从本地或云存储导入数据,并将标注数据导出到不同的存储提供商。作为机器学习工作流中的工具,VoTT提供图像和视频帧的标签功能,采用现代开发框架TypeScript编写,并进行代码检查和单元测试。支持Azure Blob Storage、Bing Image Search等多种数据源,用户可通过浏览器使用Web版本。
Rectlabel-support - 图像标注工具,支持自动化标注和多格式导出
RectLabel自动标注文本识别导出格式图像标注Github开源项目
RectLabel 是一款图像标注工具,支持 Segment Anything 和 Core ML 模型的自动标注,能够识别文本、曲线、点线和骨架等。支持导出COCO、Labelme、CreateML、YOLO和DOTA格式,以及索引色和灰度掩码图像。通过自定义热键和快捷设置,提高标注效率,满足不同图像处理需求。
prodigy-recipes - 精准的自定义数据标注脚本,提升文本和图像模型性能
Prodigy命名实体识别文本分类图像标注脚本工具Github开源项目
本项目提供了一系列自定义的Prodigy脚本食谱,涵盖命名实体识别、文本分类、术语提取和图像标注等任务,旨在帮助提升训练数据的质量和模型性能。这些脚本附有详细注释和简化示例,适合处理各种数据标注需求。使用这些脚本需拥有Prodigy许可。
lvis-api - 大规模词汇实例分割API的便捷安装与功能
LVIS大词汇实例分割数据集图像标注APIGithub开源项目
LVIS API 提供读取和交互注释文件、可视化注释和评估结果的功能。该项目包含超过16.4万张图像和200万高质量实例分割掩码,并涵盖1200多个基础对象类别。支持在虚拟环境中通过pip安装。该API已在第2届联合COCO和LVIS工作坊的ECCV 2020大会上发布,适用于大规模词汇实例分割的研究和应用。
BMW-Labeltool-Lite - 图像标注工具,简化深度学习训练数据准备过程
LabelTool liteBMW-TensorFlow-Training-GUIBMW-YOLOv4-Training-Automation图像标注深度学习Github开源项目
一款无需复杂配置的图像数据标注工具,专注于边界框标注,支持即刻应用于深度学习训练数据。使用Docker环境快速部署,兼容Yolov4和TensorFlow训练平台,并支持连接预训练模型以加速标注。LabelTool lite简化了浏览、缩放、上传和管理数据集的过程,提升数据标注效率和质量。
OCR_DataSet - 综合OCR数据集资源库及工具集
文字识别数据集图像标注深度学习计算机视觉Github开源项目
OCR_DataSet项目整合了13个知名的多语言OCR数据集,涵盖ICDAR2015、MLT2019和COCO-Text_v2等。项目特色包括数据格式统一化、便捷的百度网盘下载、详尽的数据集信息表和简化的读取脚本。此外,项目还提供了数据生成工具链接,为OCR领域的研究和开发工作提供了全面的资源支持。
People For AI - 专业数据标注服务 为机器学习项目提供训练数据集
AI工具数据标注AI项目机器学习图像标注数据质量
People For AI提供专业数据标注服务,专注于机器学习项目的训练数据集制作。公司擅长复杂图像和文本标注,采用内部长期雇佣的专业人员确保质量和安全。透明的项目管理和专家团队支持是其特色。通过高质量数据标注,People For AI旨在加速客户的AI项目部署进程。
blip2-opt-6.7b-coco - 结合图像理解与自然语言处理的多模态AI系统
模型视觉问答开源项目BLIP-2Huggingface图像标注OPT-6.7bGithub图像编码器
BLIP-2是一种创新的视觉-语言AI系统,集成了CLIP图像编码器、查询转换器和OPT-6.7b大型语言模型。通过冻结预训练的图像编码器和语言模型,仅训练查询转换器,实现了视觉和语言的有效桥接。该模型能够完成图像描述、视觉问答和基于图像的对话等多样化任务。尽管BLIP-2继承了OPT模型的强大能力,但研究人员在应用时需要注意评估其在特定场景中可能存在的偏见和安全风险。
git-large-coco - 高级视觉与语言转换:大规模图像到文本模型
模型训练视觉问答开源项目图像标注GIT模型Huggingface视觉Github
GIT大型模型通过在COCO数据集上微调,实现图像到文本的转换,支持图像和视频字幕生成、视觉问答和图像分类等功能。该模型利用图像和文本令牌的结合,预测下一个文本令牌,并在多种视觉与语言应用场景中表现出色。
blip2-flan-t5-xxl - 整合CLIP和Flan T5的多模态模型实现图像理解与语言生成
图像处理HuggingfaceGithub开源项目视觉问答BLIP-2图像标注模型语言模型
BLIP2-FLAN-T5-XXL是一个集成CLIP图像编码器、查询转换器和Flan T5-xxl语言模型的多模态系统。通过查询转换架构连接图像特征和语言理解,实现图像描述生成、视觉问答和基于图像的对话功能。模型支持CPU/GPU部署,提供float16、int8等多种精度配置选项。目前主要应用于图像理解和自然语言生成的研究领域。
wd-eva02-large-tagger-v3 - 开源图像标签分类模型 支持评级角色和通用标签
数据集开源项目模型timmGithubHuggingface深度学习模型图像标注ONNX
WD EVA02-Large Tagger v3是一个开源的图像标签分类模型,支持评级、角色和通用标签分类。该模型基于Danbooru数据集训练,涵盖720万张图像。采用JAX-CV和timm库实现,支持ONNX推理,兼容性强。模型在验证集上达到0.4772的F1分数,支持批量推理,并提供了timm、ONNX和JAX等多种接口示例。最新版本更新了训练数据和标签至2024年2月,适用于图像分类、内容审核等多种应用场景,为开发者提供了实用的图像分析工具。
Florence-2-large-PromptGen-v1.5 - 高效的AI图像标注工具提升了处理速度和精度
轻量模型开源项目模型GithubHuggingface图像标注Florence-2-large-PromptGenMiaoshouAI准确性
Florence-2-large-PromptGen v1.5 是经过升级的图像标注工具,基于Microsoft Florence-2模型。此版本增加了新指令,提升标注精度,并优化了词汇解释。支持详细和混合风格的标签生成,尤其在T5XXL和CLIP_L的Flux模型中表现出色。其内存高效性和处理速度在图像标注领域具有明显优势。
相关文章