项目介绍:WD 1.4 SwinV2 Tagger V2
项目概述
WD 1.4 SwinV2 Tagger V2 是一个先进的机器学习模型,专注于支持图像的评级、角色识别以及通用标签的分类。项目使用了由 SmilingWolf/SW-CV-ModelZoo 提供的工具进行训练,该过程得到了来自 TRC program 计划中的 TPU 设备的支持。
数据集信息
该模型使用 Danbooru 图像数据进行训练,图像 ID 在 0000-0899 范围内进行了处理,而验证数据集使用的图像 ID 在 0950-0999 范围内。模型仅选用了拥有 10 个以上通用标签的图像进行训练,且每个标签至少出现在 600 张以上的图像中,筛选后的数据用于确保模型的准确性和普适性。
验证结果
在模型版本 v2.0 中,使用验证集进行测试得到了如下结果:
阈值 = 0.3771 时,F1 得分为 0.6854,说明模型在精确率和召回率之间达到了良好的平衡。
新版本更新
对于模型 v2.1 和数据集 v2:
- 重新导出模型以解决 ONNXRuntime 版本 1.17.1 的一个 bug。
- 最低 ONNXRuntime 版本要求提升至
1.17.0
及以上。 - 兼容
timm
库,可以使用简便代码行加载。 - 导出了
msgpack
格式,以便兼容 JAX-CV 代码库。 - ONNX 模型的批处理维度不再固定为 1,允许批量推理的大规模处理。
- 虽然训练权重没有变化,但由于不同框架的实现细节,可能会在结果预测上有轻微差异。
初始版本 v2.0 则为该项目的首个对外发布版本。
运行时依赖
使用 ONNX 模型时,需要 onnxruntime
版本为 1.17.0 或更高。
结语
项目内容可能会随时更新和更改,建议下游用户使用已标记的发布版本而非直接依赖代码库的最新提交,以保证项目稳定性和使用的便捷性。
这就是 WD 1.4 SwinV2 Tagger V2 这一项目的详细介绍,它在图像分类和标签生成领域展现了极大的潜力和发展空间。