Fashion-MNIST简介
Fashion-MNIST是由Zalando开源的一个图像数据集,包含70,000张28x28像素的灰度图片,共10个类别。其中训练集60,000张,测试集10,000张。Fashion-MNIST的目的是为了替代经典的MNIST手写数字数据集,成为机器学习算法的新基准测试集。
Fashion-MNIST具有以下特点:
- 与MNIST格式完全相同,可以直接替换MNIST使用
- 包含10个时尚产品类别,比手写数字更有挑战性
- 保持了MNIST的简洁性,适合快速实验和测试算法
数据集下载
可以通过以下方式获取Fashion-MNIST数据集:
-
直接下载:
-
克隆GitHub仓库:
git clone git@github.com:zalandoresearch/fashion-mnist.git
-
使用各种机器学习库提供的API直接加载(见下文)
使用方法
Fashion-MNIST可以像使用MNIST一样直接使用,主流深度学习框架都已内置支持:
TensorFlow/Keras
from tensorflow.keras.datasets import fashion_mnist
(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
PyTorch
from torchvision.datasets import FashionMNIST
trainset = FashionMNIST(root='./data', train=True, download=True)
testset = FashionMNIST(root='./data', train=False, download=True)
其他支持的库
- scikit-learn
- Keras
- TensorFlow
- Apache MXNet
- Kaggle
- Torch
- JuliaML
- Chainer
基准测试
Fashion-MNIST官方提供了一个基于scikit-learn的自动化基准测试系统,涵盖了129种传统机器学习分类器。
此外,社区也贡献了大量基于各种深度学习模型的基准测试结果,目前最佳测试精度为96.7%(使用WRN-28-10模型)。
可视化
Fashion-MNIST数据集的可视化效果:
t-SNE降维可视化对比:
相关资源
- Fashion-MNIST: Year in Review - 项目一周年总结
- Fashion-MNIST on Google Scholar - 相关学术研究论文
- Kaggle Fashion-MNIST - Kaggle上的数据集和竞赛
总结
Fashion-MNIST作为MNIST的替代品,为机器学习研究者和从业者提供了一个更具挑战性的基准数据集。本文介绍了Fashion-MNIST的基本信息、获取方式、使用方法和相关资源,希望能帮助读者快速上手使用这个数据集。欢迎探索Fashion-MNIST,挑战你的机器学习算法!