TensorFlow 数据集
TensorFlow 数据集提供了许多公共数据集作为tf.data.Datasets
。
文档
要安装和使用 TFDS,我们强烈建议从我们的 入门指南开始。可以在 Colab 笔记本中互动尝试。
我们的文档包含:
# !pip install tensorflow-datasets
import tensorflow_datasets as tfds
import tensorflow as tf
# 构建一个 tf.data.Dataset
ds = tfds.load('mnist', split='train', as_supervised=True, shuffle_files=True)
# 构建输入管道
ds = ds.shuffle(1000).batch(128).prefetch(10).take(5)
for image, label in ds:
pass
TFDS 核心价值
TFDS 是基于以下原则构建的:
- 简单性:标准用例应开箱即用
- 性能:TFDS 遵循 最佳实践,并能够实现最先进的速度
- 确定性/可重复性:所有用户都能以相同的顺序获得相同的例子
- 可定制性:高级用户可以进行细粒度控制
如果这些用例未被满足,请向我们发送 反馈。
想要某个数据集?
按照我们 指南添加数据集非常简单。
通过打开一个 数据集请求 GitHub issue 来请求数据集。
并通过给问题添加点赞的方式为当前的 请求集合投票。
引用
在论文中使用 tensorflow-datasets
时,请包含以下引用,并补充任何特定于使用数据集的引用。
@misc{TFDS,
title = {{TensorFlow Datasets}, A collection of ready-to-use datasets},
howpublished = {\url{https://www.tensorflow.org/datasets}},
}
免责声明
这是一个下载和准备公共数据集的实用库。我们不 托管或分发这些数据集,不对其质量或公正性进行担保,也不声称您有使用这些数据集的许可证。是否有权使用数据集是您的责任,您需考虑数据集的许可证。
如果您是数据集的所有者,希望更新任何部分(描述、引用等),或者不希望您的数据集包含在此 库中,请通过 GitHub issue 与我们联系。感谢您对 ML 社区的贡献!
如果您有兴趣了解更多关于负责任的 AI 实践,包括 公平性,请参阅 Google AI 的负责任的 AI 实践。
tensorflow/datasets
采用 Apache 2.0 许可证。详见
LICENSE
文件。