项目概述
这是一个基于微软Swin Transformer模型进行图像分类的深度学习项目。该项目对microsoft/swin-tiny-patch4-window7-224模型进行了微调,主要用于解决特定场景下的图像分类任务。在评估集上,该模型达到了58.16%的分类准确率。
技术特点
- 基础模型采用了微软开发的Swin Transformer架构
- 使用了patch大小为4、窗口大小为7的tiny版本配置
- 输入图像分辨率为224x224
- 采用了常用的Adam优化器进行训练
- 使用线性学习率调度策略,包含预热阶段
训练详情
该模型的训练过程非常完整,具体包括:
- 总共训练了100个epoch
- 使用了128的总批次大小
- 设置了5e-05的学习率
- 采用了42的随机种子以保证实验可复现
- 训练中使用了4步梯度累积
- 学习率预热比例为0.1
训练效果分析
模型在训练过程中表现出以下特点:
- 训练损失从初始的1.22逐步下降到最终的0.70左右
- 验证准确率在58%左右波动
- 验证损失在训练后期有上升趋势,可能出现了过拟合现象
- 模型在前期训练中表现相对稳定,后期性能提升较为缓慢
应用环境
该项目基于以下框架版本开发:
- Transformers 4.37.2
- PyTorch 2.0.1
- Datasets 2.17.0
- Tokenizers 0.15.2
局限性与展望
虽然模型取得了一定的效果,但仍存在提升空间:
- 分类准确率仍有提升空间
- 可以尝试更多的数据增强方法
- 模型存在过拟合趋势,需要改进正则化策略
- 可以考虑使用更大规模的预训练数据