WD-EVA02-Large-Tagger-V3项目介绍
项目概述
WD-EVA02-Large-Tagger-V3是一个强大的图像标签分类模型,专门用于支持评分、角色和通用标签的识别。该项目由SmilingWolf开发,使用JAX-CV框架进行训练,并得到了Google TRC项目提供的TPU支持。这个模型是图像标签分类领域的一个重要进展,为用户提供了高效准确的图像标注工具。
数据集特点
该模型的训练数据集具有以下特点:
- 最后的图像ID为7220105。
- 训练集使用ID模为0000-0899的Danbooru图像。
- 验证集使用ID模为0950-0999的图像。
- 过滤掉了通用标签少于10个的图像。
- 过滤掉了图像数量少于600的标签。
这种精心筛选的数据集确保了模型能够学习到广泛且有代表性的图像特征。
模型性能
在验证集上,模型achieved了0.4772的F1分数,阈值为0.5296。这个性能指标表明模型在精确度和召回率之间取得了良好的平衡。
最新更新
v1.0版本的模型和v3版本的数据集带来了多项重要更新:
- 扩大了训练图像的数量。
- 增加了更多最新的标签(更新至2024-02-28)。
- 实现了与timm库的兼容性,使得模型加载和使用变得更加简便。
- ONNX模型保持了与v2系列模型代码的兼容性。
- ONNX模型的批处理维度不再固定为1,支持更灵活的批量推理。
- 采用了宏观F1分数来衡量模型性能,以更好地评估整体训练进展。
使用说明
要运行ONNX模型,用户需要安装onnxruntime 1.17.0或更高版本。项目提供了多种推理代码示例,包括timm、ONNX和JAX版本,方便用户根据自己的需求选择合适的实现方式。
未来展望
开发者表示,该项目仍在持续更新和改进中。建议下游用户使用标记的发布版本,而不是直接依赖仓库的最新代码,以确保稳定性和兼容性。
总的来说,WD-EVA02-Large-Tagger-V3项目为图像标签分类任务提供了一个强大而灵活的解决方案。无论是研究人员还是实践者,都可以借助这个模型来提高图像标注的效率和准确性。