项目介绍
vit-base-uppercase-english-characters 是一个用于图像分类的模型,基于 google/vit-base-patch16-224-in21k 进行微调。它专门训练用于识别大写英文字符,使用的数据集是 pittawat/uppercase-english-characters 数据集。
模型表现
在模型的评估集上,它取得了令人瞩目的结果:
- 损失(Loss):0.3160
- 准确率(Accuracy):0.9573
这些表现指标显示了模型在处理图像识别任务时的高效和准确。
模型说明
由于该模型是在预训练模型的基础上进行微调的,因此它继承了大量的特征提取能力。这使得它特别适合处理需要识别和分类图像中大写英文字母的任务。不过目前关于模型的更详细的功能和局限性的信息尚需补充。
预期用途与限制
开发者期望该模型能够被广泛用于需要识别和处理手写或印刷体大写英文字符的应用中。然而,关于它的具体应用场景和可能的限制,还需要提供更多信息。
训练和评估数据
项目使用的数据集是 pittawat/uppercase-english-characters,不过目前关于该数据集详细的信息也需要进一步补充。
训练过程
训练的超参数
在训练期间使用了以下超参数:
- 学习率:0.0002
- 训练批量大小:32
- 评估批量大小:16
- 随机种子:42
- 优化器:Adam,参数 betas=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型:线性
- 训练轮数:4
- 混合精度训练:Native AMP
训练结果
训练过程中的主要结果概括如下表所示:
训练损失 | 轮数 | 步骤 | 验证损失 | 准确率 |
---|---|---|---|---|
0.5944 | 1.35 | 100 | 0.5538 | 0.9487 |
0.2241 | 2.7 | 200 | 0.3160 | 0.9573 |
从表中可以看出,随着训练的进行,模型在各个阶段都展示了损失的逐渐减少和准确率的提高。
使用的框架版本
- Transformers 4.26.1
- Pytorch 1.13.0
- Datasets 2.1.0
- Tokenizers 0.13.2
这些工具和框架保证了训练过程的顺利进行,并为模型的高效性能提供了重要支持。