数据集管理框架 (Datumaro)
一个用于构建、转换和分析数据集的框架和命令行工具。
VOC数据集 ---> 标注工具
+ /
COCO数据集 -----> Datumaro ---> 数据集 ------> 模型训练
+ \
CVAT标注 ---> 发布、统计等
功能
-
数据集读取、写入、任意方向转换。
- CIFAR-10/100 (
分类
) - Cityscapes
- COCO (
图像信息
,实例
,人体关键点
,描述
,标签
,全景分割
,物体
) - CVAT
- ImageNet
- Kitti (
分割
,检测
,3D原始
/激光雷达点云
) - LabelMe
- LFW (
分类
,人物重识别
,关键点
) - MNIST (
分类
) - Open Images
- PASCAL VOC
(
分类
,检测
,分割
,动作分类
,人体布局
) - TF Detection API
(
边界框
,掩膜
) - YOLO (
边界框
)
其他格式及其文档可在此处找到。
- CIFAR-10/100 (
-
数据集构建
- 将多个数据集合并为一个
- 根据自定义标准筛选数据集:
- 移除某个类别的多边形
- 移除没有特定类别标注的图像
- 从图像中移除
遮挡
标注 - 只保留竖直方向的图像
- 从标注中移除小面积边界框
- 标注转换,例如:
- 多边形转实例掩膜,反之亦然
- 为掩膜标注应用自定义颜色映射
- 重命名或移除数据集标签
- 将数据集拆分为多个子集,如
训练集
、验证集
和测试集
:- 随机拆分
- 基于标注的任务特定拆分,
保持初始标签和属性分布
- 对于分类任务,基于标签
- 对于检测任务,基于边界框
- 对于重识别任务,基于标签, 避免训练集和测试集中出现相同ID
- 数据集采样
- 分析给定数据集的推理结果 并选择'最佳'和'最少量'的样本进行标注。
- 选择最适合模型训练的样本。
- 使用基于熵的算法进行采样
-
数据集质量检查
- 简单错误检查
- 与模型推理结果比较
- 多个数据集的合并和比较
- 基于任务类型(分类等)的标注验证
-
数据集比较
-
数据集统计(图像均值和标准差、标注统计)
-
模型集成
- 推理(OpenVINO、Caffe、PyTorch、TensorFlow、MxNet等)
- 可解释AI(RISE算法)
- 用于分类的RISE
- 用于目标检测的RISE
贡献
如果您认为需要进行某些更改,欢迎 提出问题。我们欢迎您参与开发, 相关说明可在我们的 贡献指南中找到。
遥测数据收集说明
OpenVINO™遥测库 用于收集有关Datumaro使用情况的基本信息。
要启用/禁用遥测数据收集,请参阅 指南。