这是由 XGBoost、Apache TVM 与 Turi Create 的作者 Danny Bickson、Carlos Guestrin 和 Amir Alush 创立的无监督且免费的图像和视频数据集分析工具。
文档 · 特点 · 报告 Bug · 博客 · 快速开始 · Visual Layer 云
快速开始
pip
从 PyPI 安装 fastdup:
pip install fastdup
更多安装选项见 这里。
初始化并运行 fastdup:
import fastdup
fd = fastdup.create(input_dir="IMAGE_FOLDER/")
fd.run()
在交互式网页界面中探索结果:
fd.explore()
或者,在静态画廊中可视化结果:
fd.vis.duplicates_gallery() # 重复图像画廊
fd.vis.outliers_gallery() # 异常值画廊
fd.vis.component_gallery() # 连接组件画廊
fd.vis.stats_gallery() # 图像统计画廊(如模糊度、亮度等)
fd.vis.similarity_gallery() # 相似图像画廊
特点与优势
fastdup 处理带标签/不带标签的图像或视频格式的数据集,提供了一系列功能:
fastdup 与其他类似工具的不同点:
- 质量:高质量分析,识别重复/近似重复图像、异常值、误标图像、损坏图像和低质量图像。
- 规模:高度可扩展,能在单个CPU机器上处理4亿张图像,扩展至数十亿张图像。
- 速度:优化的C++引擎,即使在低资源的CPU机器上也能高效运行。
- 隐私:在本地或云端基础设施运行。您的数据保持原貌。
- 易用性:支持主要操作系统如MacOS、Linux和Windows,处理带标签或不带标签的图像或视频格式的数据集。
从示例中学习
通过交互式示例学习 fastdup 的基础知识。在 GitHub 或 nbviewer 上查看笔记本。更好的是,在 Google Colab 或 Kaggle 上免费运行它们。
⚡ 快速入门: 了解如何安装fastdup,加载数据集并分析可能存在的问题,如重复/近似重复、损坏图像、异常值、暗/亮/模糊图像,以及查看视觉上相似的图像集群。如果你是新手,从这里开始!
📌 数据集: Oxford-IIIT Pet. | ||
🧹 查找和删除重复项: 了解如何分析图像数据集中的重复和近似重复项。
📌 数据集: Oxford-IIIT Pet. | ||
🖼 查找和删除错误标签: 了解如何分析图像数据集中的潜在错误标签,并导出错误标记图像列表以便进一步检查。
📌 数据集: Food-101. | ||
🎁 图像相似度搜索: 在大规模图像数据集中进行图像搜索。
📌 数据集: Shopee 产品匹配. | ||
🤗 Hugging Face 数据集: 加载并分析来自Hugging Face Datasets的数据集。如果你已经在 Hugging Face hub 上托管了数据集,这非常适合。 | ||
🧠 TIMM 嵌入: 使用TIMM (PyTorch 图像模型)计算数据集嵌入并运行fastdup以曝光数据集问题。支持CPU和GPU。 | ||
🦖 ONNX Embeddings: 自带 ONNX 模型。在这个例子中,我们使用DINOv2模型来提取图像的特征向量。可以在 CPU 上运行。 | ||
加入社区
通过以下渠道获得 fastdup 团队或社区成员的帮助:
社区贡献的 fastdup 博客文章:
使用自定义基础映像通过 Docker 容器部署 AWS Lambda 函数 🖋️ atahan bulus • 🗓 2023 年 9 月 16 日 | |
使用 fastdup 和 Renumics Spotlight 清理图像分类数据集 🖋️ Daniel Klitzke • 🗓 2023 年 9 月 4 日 | |
Roboflow: 如何在不降低准确度的情况下减少数据集大小 🖋️ Arty Ariuntuya • 🗓 2023 年 8 月 9 日 | |
数据清洁的重要性不可低估 — 或者正如我喜欢称呼的那样,“清洁即靠近模型清洁” 🖋️ Alexander Lan • 🗓 2023 年 3 月 9 日 | |
清理你的数字生活:我在几分钟内找到 1929 张完全相同的图片、黑暗、明亮和模糊的照片,免费。 🖋️ Dickson Neoh • 🗓 2023 年 2 月 23 日 | |
fastdup: 一款强大的工具,可以在 CPU 上大规模管理、清理和策划视觉数据 - 免费。 🖋️ Dickson Neoh • 🗓 2023 年 1 月 3 日 | |
掌握数据完整性以清理你的计算机视觉数据集。 🖋️ Paul lusztin • 🗓 2022 年 12 月 19 日 |
用户反馈:
Visual Layer Cloud
Visual Layer 提供大规模管理、清理和策划视觉数据的商业服务。
免费注册。
https://github.com/visual-layer/fastdup/assets/6821286/57f13d77-0ac4-4c74-8031-07fae87c5b00
不确定?无需注册即可与 Visual Layer Cloud 公共数据集 互动。
免责声明
使用跟踪
我们新增了使用 Sentry 收集的实验性崩溃报告。
我们不会收集用户特定的信息如文件夹名称、用户名、图片名称、图片内容等。 我们收集与 fastdup 内部操作和性能统计相关的数据,如图像总数、每张图像的平均运行时间、总剩余内存、总剩余磁盘空间、核心数量等。
这有助于我们识别和解决稳定性问题,从而提高 fastdup 的整体可靠性。 数据收集的代码在此 here。在 MAC 上我们使用 Google crashpad 报告崩溃。
用户可以通过以下方法选择退出实验性崩溃报告系统:
- 定义名为
SENTRY_OPT_OUT
的环境变量 - 或
run()
时使用turi_param='run_sentry=0'
许可证
fastdup 授权协议为 创作共用署名-非商业性使用-禁止演绎 4.0 国际 公共许可证。
如需进一步信息或有关许可证的询问,请联系 info@visual-layer.com 或参见 LICENSE 文件。