datasets:一行代码搞定数据集加载与预处理
datasets是由Hugging Face开源的一个轻量级数据集处理库,为机器学习研究者和开发者提供了便捷高效的数据集加载和预处理功能。它的两大主要特性是:
-
一行代码加载海量公开数据集:可以通过简单的
load_dataset()
函数一键加载并预处理Hugging Face Datasets Hub上的数千个公开数据集,包括图像、音频、文本等多种类型。 -
高效的数据预处理:提供简单快速的API,可以对公开数据集或本地数据集进行预处理,支持CSV、JSON、图片、音频等多种格式。
主要特性
- 支持处理超大规模数据集,无内存限制
- 智能缓存,避免重复处理
- 轻量级快速的API,支持多进程
- 与NumPy、Pandas、PyTorch、TensorFlow等无缝集成
- 原生支持音频和图像数据
- 支持流式加载,节省磁盘空间
快速上手
安装datasets:
pip install datasets
加载并处理数据集示例:
from datasets import load_dataset
# 加载数据集
squad_dataset = load_dataset('squad')
# 处理数据集
dataset_with_length = squad_dataset.map(lambda x: {"length": len(x["context"])} )
# 对文本进行tokenize
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-cased')
tokenized_dataset = squad_dataset.map(lambda x: tokenizer(x['context']), batched=True)
学习资源
社区资源
datasets 为机器学习研究和开发提供了强大而便捷的数据处理工具,极大地简化了数据准备工作。无论您是刚接触机器学习还是经验丰富的研究者,都可以利用 datasets 快速上手各种数据集,提高工作效率。希望这份学习资料汇总能帮助您更好地使用这个优秀的开源工具!