Project Icon

fastdup

无监督的高效图像和视频数据集分析工具

fastdup是一款无监督的图像与视频数据集分析工具,能够检测重复、异常和低质量图像。其优化的C++引擎在低资源CPU机器上也能高效运行,处理数百万到数十亿张图像。支持主要操作系统,数据可以本地或云端处理,确保隐私。提供交互式UI和静态图库,便于用户探索分析结果。


PyPi PyPi PyPi Contributors License OS

这是由 XGBoostApache TVMTuri Create 的作者 Danny BicksonCarlos GuestrinAmir Alush 创立的无监督且免费的图像和视频数据集分析工具。


文档 · 特点 · 报告 Bug · 博客 · 快速开始 · Visual Layer 云

快速开始

pipPyPI 安装 fastdup:

pip install fastdup

更多安装选项见 这里

初始化并运行 fastdup:

import fastdup

fd = fastdup.create(input_dir="IMAGE_FOLDER/")
fd.run()

在交互式网页界面中探索结果:

fd.explore()   

运行

或者,在静态画廊中可视化结果:

fd.vis.duplicates_gallery()    # 重复图像画廊
fd.vis.outliers_gallery()      # 异常值画廊
fd.vis.component_gallery()     # 连接组件画廊
fd.vis.stats_gallery()         # 图像统计画廊(如模糊度、亮度等)
fd.vis.similarity_gallery()    # 相似图像画廊

结果

特点与优势

fastdup 处理带标签/不带标签的图像或视频格式的数据集,提供了一系列功能:

fastdup 与其他类似工具的不同点:

  • 质量:高质量分析,识别重复/近似重复图像、异常值、误标图像、损坏图像和低质量图像。
  • 规模:高度可扩展,能在单个CPU机器上处理4亿张图像,扩展至数十亿张图像。
  • 速度:优化的C++引擎,即使在低资源的CPU机器上也能高效运行。
  • 隐私:在本地或云端基础设施运行。您的数据保持原貌。
  • 易用性:支持主要操作系统如MacOS、Linux和Windows,处理带标签或不带标签的图像或视频格式的数据集。

从示例中学习

通过交互式示例学习 fastdup 的基础知识。在 GitHub 或 nbviewer 上查看笔记本。更好的是,在 Google Colab 或 Kaggle 上免费运行它们。

⚡ 快速入门: 了解如何安装fastdup,加载数据集并分析可能存在的问题,如重复/近似重复、损坏图像、异常值、暗/亮/模糊图像,以及查看视觉上相似的图像集群。如果你是新手,从这里开始!

📌 数据集: Oxford-IIIT Pet.
🧹 查找和删除重复项: 了解如何分析图像数据集中的重复和近似重复项。

📌 数据集: Oxford-IIIT Pet.
🖼 查找和删除错误标签: 了解如何分析图像数据集中的潜在错误标签,并导出错误标记图像列表以便进一步检查。

📌 数据集: Food-101.
🎁 图像相似度搜索: 在大规模图像数据集中进行图像搜索。

📌 数据集: Shopee 产品匹配.
🤗 Hugging Face 数据集: 加载并分析来自Hugging Face Datasets的数据集。如果你已经在 Hugging Face hub 上托管了数据集,这非常适合。
🧠 TIMM 嵌入: 使用TIMM (PyTorch 图像模型)计算数据集嵌入并运行fastdup以曝光数据集问题。支持CPU和GPU。
🦖 ONNX Embeddings: 自带 ONNX 模型。在这个例子中,我们使用DINOv2模型来提取图像的特征向量。可以在 CPU 上运行。
查看更多[示例](EXAMPLES.md)。

加入社区

通过以下渠道获得 fastdup 团队或社区成员的帮助:

徽标 徽标 GitHub 问题

社区贡献的 fastdup 博客文章:

用户反馈:

反馈

反馈2

Visual Layer Cloud

Visual Layer 提供大规模管理、清理和策划视觉数据的商业服务。

免费注册

https://github.com/visual-layer/fastdup/assets/6821286/57f13d77-0ac4-4c74-8031-07fae87c5b00

不确定?无需注册即可与 Visual Layer Cloud 公共数据集 互动。

免责声明

使用跟踪

我们新增了使用 Sentry 收集的实验性崩溃报告。

我们不会收集用户特定的信息如文件夹名称、用户名、图片名称、图片内容等。 我们收集与 fastdup 内部操作和性能统计相关的数据,如图像总数、每张图像的平均运行时间、总剩余内存、总剩余磁盘空间、核心数量等。

这有助于我们识别和解决稳定性问题,从而提高 fastdup 的整体可靠性。 数据收集的代码在此 here。在 MAC 上我们使用 Google crashpad 报告崩溃。

用户可以通过以下方法选择退出实验性崩溃报告系统:

  • 定义名为 SENTRY_OPT_OUT 的环境变量
  • run() 时使用 turi_param='run_sentry=0'

许可证

fastdup 授权协议为 创作共用署名-非商业性使用-禁止演绎 4.0 国际 公共许可证。

如需进一步信息或有关许可证的询问,请联系 info@visual-layer.com 或参见 LICENSE 文件。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号