超棒的开源数据中心人工智能

用于非结构化数据的数据中心人工智能的开源工具

Awesome

**数据中心人工智能（DCAI）**是一种基于机器学习的解决方案的开发范式。这个术语由Andrew Ng提出,他给出了以下定义:

数据中心人工智能是系统地设计用于构建人工智能系统的数据的实践。

在Renumics,我们相信DCAI是构建能创造价值的真实世界人工智能系统的重要拼图。我们喜欢以下定义:

数据中心人工智能意味着通过利用训练过的机器学习模型的信息,系统地和迭代地改进训练数据集。

可以在日常应用中高效使用的工具是DCAI范式最重要的组成部分。这个精心策划的链接集合旨在帮助您发现适用于数据中心人工智能工作流程的有用的开源工具。

🔎 范围

我们在这个集合中包含了具有开源许可证且积极维护的有用工具。所有提到的工具都适用于在非结构化数据(如图像、音频、视频、时间序列、文本)上构建DCAI工作流程。

我们还将工作流程片段收集到数据中心人工智能手册中,展示如何用开源工具解决典型任务。

为了保持有用的焦点并避免重复工作,我们从这个列表中排除了一些主题,如用于表格数据的工具、专用标注工具、MLOps工具以及研究论文。请查看延伸阅读部分,找到这些主题的优秀列表。

你认为有什么遗漏的吗?请通过联系我们或添加拉取请求来帮助完善这个列表。

标志	名称	描述	受欢迎程度	许可证
	数据版本控制(DVC)	数据版本控制或DVC是一个命令行工具和VS Code扩展,帮助您开发可重现的机器学习项目。
	deeplake	用于深度学习的数据湖。构建、管理、查询、版本化和可视化数据集。
	Pachyderm	Pachyderm – 通过数据版本控制和血缘关系实现数据转换自动化。
	Delta Lake	一个开源存储框架,可用于构建数据湖屋架构。
	lakeFS	lakeFS是一个开源工具,可将对象存储转换为类似Git的存储库。

标志	名称	描述	受欢迎程度	许可证
	towhee	Towhee是一个专门用于简化和加速神经数据处理流程的框架。
	Tensorflow Hub	TensorFlow Hub是用于TensorFlow机器学习的可重用资产存储库。
	Huggingface transformers	用于Pytorch、TensorFlow和JAX的最先进的机器学习。
	Lightly	Lightly是一个用于自监督学习的计算机视觉框架。

标志	名称	描述	流行度	许可证
	Renumics Spotlight	非结构化数据的管理工具，将您的技术栈连接到以数据为中心的AI生态系统。
	FiftyOne	用于构建高质量数据集和计算机视觉模型的开源工具。
	refinery	数据科学家用于扩展、评估和维护自然语言数据的开源选择。
	Argilla	Argilla帮助领域专家和数据团队在更短的时间内构建更好的NLP数据集。
	Xtreme1	Xtreme1是世界上第一个用于多传感器训练数据的开源平台。
	YData Profiling	YData Profiling是一个Python包，用于对表格和时间序列数据进行探索性数据分析（EDA）。

标志	名称	描述
	Cleanlab	Cleanlab通过提供干净的标签进行稳健训练并标记数据中的错误，从而促进使用混乱的真实世界数据进行机器学习。
PyOD	PyOD	一个全面且可扩展的Python库，用于异常检测（异常值检测）
	TODS	一个全栈自动化时间序列异常检测系统。
	Alibi Detect	用于异常值、对抗性和漂移检测的算法。

标志	名称	描述
	SHAP	一种基于博弈论的方法，用于解释任何机器学习模型的输出。
	Alibi	Alibi是一个开源Python库，旨在进行机器学习模型检查和解释。
LIME	LIME	解释任何机器学习分类器的预测。
	Captum	PyTorch的模型可解释性和理解工具。

标志	名称	描述	受欢迎程度	许可证
	modAL	Python的模块化主动学习框架。
	贝叶斯主动学习 (Baal)	使您能够在研究或标注工作中进行贝叶斯主动学习的库。

标志	名称	描述	受欢迎程度	许可证
	不确定性工具箱	用于预测不确定性量化、校准、指标和可视化的Python工具箱。
	MAPIE	用于估计预测区间的兼容scikit-learn的模块。

标志	名称	描述	受欢迎程度	许可证
	AIF360	AI Fairness 360工具包帮助在整个AI应用生命周期中检测和缓解机器学习模型中的偏见。
	Fairlearn	用于评估和改进机器学习模型公平性的Python包。

标志	名称	描述	受欢迎程度	许可证
	Arize-Phoenix	Arize-Phoenix是一个用于表格、CV、NLP和LLM模型的ML可观察性（监控+根因分析）的Python库。
	Deepchecks	Deepchecks是一个Python包，用于以最小的努力全面验证您的机器学习模型和数据。
	Evidently	一个开源框架，用于评估、测试和监控生产中的ML模型。
	langfuse	LLM应用程序的开源可观察性和分析。
	langkit	用于监控大型语言模型（LLMs）的开源工具包。

标志	名称	描述	受欢迎程度	许可证
	Albumentations	快速图像增强库和其他库的易用包装器。
	Gretel Synthetics	结构化和非结构化文本的合成数据生成器，具有差分隐私学习功能。
	SDV	用于表格、关系和时间序列数据的合成数据生成。
	YData Synthetic	YData Synthetic 是一个 Python 包，利用最先进的生成模型生成合成表格和时间序列数据。

标志	名称	描述	受欢迎程度	许可证
	CleverHans	一个用于构建攻击、建立防御和对两者进行基准测试的对抗性示例库。
	Adversarial Robustness Toolbox	机器学习安全的 Python 库 - 逃避、投毒、提取、推理 - 红队和蓝队。
	Foolbox	Foolbox 是一个 Python 库，可让您轻松对深度神经网络等机器学习模型进行对抗性攻击。
	Giskard	用于 ML 模型的测试框架，从表格到 LLM。
	LLM-Guard	LLM 交互的安全工具包。
	guardrails	为大型语言模型添加防护措施。

名称	数据类型	描述	笔记本
理解分布	图像	使用 Huggingface transformers 库计算图像嵌入，并基于相似度图和额外的元数据探索数据集。

名称	数据类型	描述
检测重复	不限	使用Annoy库在嵌入空间中检测最近邻,并检查重复/近似重复的数据点。
检测异常值	不限	使用Cleanlab库基于模型输出(嵌入、概率)计算异常分数,并检查异常候选项。
检测图像问题	图像	使用Cleanvision库提取典型的图像问题(亮度、模糊、宽高比、信噪比和重复),并通过手动检查识别关键部分。