Squirrel是什么?
Squirrel是一个Python库,使机器学习团队能够以协作、灵活和高效的方式共享、加载和转换数据。
-
**速度:**避免数据停滞,即昂贵的GPU不会因等待数据而闲置。
-
**成本:**首先,避免GPU停滞;其次,允许对数据进行分片和聚类,并以捆绑方式存储和加载,降低数据存储桶云存储的成本。
-
**灵活性:**使用灵活的标准数据方案,可适应任何设置,包括多模态数据。
-
**协作:**以自助模式更轻松地在团队和项目之间共享数据和代码。
从任何地方向您的机器学习模型流式传输数据就像这样简单:
it = (
Catalog.from_plugins()["imagenet"]
.get_driver()
.get_iter("train")
.map(lambda r: (augment(r["image"]), r["label"]))
.batched(100)
)
查看我们完整的入门教程笔记本。如果您有任何问题或想要贡献,请加入我们的Slack社区。
安装
您可以通过以下方式安装squirrel-core
:
pip install squirrel-core
要安装所有功能和特性:
pip install "squirrel-core[all]"
或选择您需要的依赖项:
pip install "squirrel-core[gcs,torch]"
请参阅文档的安装部分,了解支持的依赖项的完整列表。
文档
在ReadTheDocs阅读我们的文档
Squirrel数据集
Squirrel-datasets-core是一个配套的Python包,它做三件事:
- 通过公共数据集的自定义驱动程序扩展Squirrel平台的数据转换、访问和发现功能。
- 它还允许您访问来自Huggingface、Activeloop Hub和Torchvision的大量开源数据集,并且您将在此基础上获得Squirrel的所有功能!
- 它提供开源和社区贡献的教程和示例笔记本,用于使用Squirrel。
贡献
Squirrel是开源的,欢迎社区贡献!
查看贡献指南,了解如何参与。
Squirrel背后的人
我们是Merantix Momentum,一个由约30名机器学习工程师组成的团队,为工业和研究开发机器学习解决方案。每个项目都有其自身的挑战、数据类型和学习内容,但我们始终面临的一个问题是可扩展的数据加载、转换和共享。我们一直在寻找一种解决方案,能够以快速和成本效益的方式加载数据,同时保持灵活性以处理任何可能的数据集并与任何API集成。这就是我们构建Squirrel的原因 - 我们希望您会发现它和我们一样有用!顺便说一下,我们正在招聘!
引用
如果您在研究中使用Squirrel,请使用以下方式引用:
@article{2022squirrelcore,
title={Squirrel: A Python library that enables ML teams to share, load, and transform data in a collaborative, flexible, and efficient way.},
author={Squirrel Developer Team},
journal={GitHub. Note: https://github.com/merantix-momentum/squirrel-core},
doi={10.5281/zenodo.6418280},
year={2022}
}