超棒的开源数据中心人工智能
用于非结构化数据的数据中心人工智能的开源工具
**数据中心人工智能(DCAI)**是一种基于机器学习的解决方案的开发范式。这个术语由Andrew Ng提出,他给出了以下定义:
数据中心人工智能是系统地设计用于构建人工智能系统的数据的实践。
在Renumics,我们相信DCAI是构建能创造价值的真实世界人工智能系统的重要拼图。我们喜欢以下定义:
数据中心人工智能意味着通过利用训练过的机器学习模型的信息,系统地和迭代地改进训练数据集。
可以在日常应用中高效使用的工具是DCAI范式最重要的组成部分。这个精心策划的链接集合旨在帮助您发现适用于数据中心人工智能工作流程的有用的开源工具。
🔎 范围
我们在这个集合中包含了具有开源许可证且积极维护的有用工具。所有提到的工具都适用于在非结构化数据(如图像、音频、视频、时间序列、文本)上构建DCAI工作流程。
我们还将工作流程片段收集到数据中心人工智能手册中,展示如何用开源工具解决典型任务。
为了保持有用的焦点并避免重复工作,我们从这个列表中排除了一些主题,如用于表格数据的工具、专用标注工具、MLOps工具以及研究论文。请查看延伸阅读部分,找到这些主题的优秀列表。
:open_hands: 贡献
你认为有什么遗漏的吗?请通过联系我们或添加拉取请求来帮助完善这个列表。
🧰 工具
📒 类别
数据版本控制
标志 | 名称 | 描述 | 受欢迎程度 | 许可证 |
---|
| 数据版本控制(DVC) | 数据版本控制或DVC是一个命令行工具和VS Code扩展,帮助您开发可重现的机器学习项目。 | | |
| deeplake | 用于深度学习的数据湖。构建、管理、查询、版本化和可视化数据集。 | | |
| Pachyderm | Pachyderm – 通过数据版本控制和血缘关系实现数据转换自动化。 | | |
| Delta Lake | 一个开源存储框架,可用于构建数据湖屋架构。 | | |
| lakeFS | lakeFS是一个开源工具,可将对象存储转换为类似Git的存储库。 | | |
嵌入和预训练模型
可视化和交互
异常值和噪声检测
标志 | 名称 | 描述 | 流行度 | 许可证 |
---|
| Cleanlab | Cleanlab通过提供干净的标签进行稳健训练并标记数据中的错误,从而促进使用混乱的真实世界数据进行机器学习。 | | |
PyOD | PyOD | 一个全面且可扩展的Python库,用于异常检测(异常值检测) | | |
| TODS | 一个全栈自动化时间序列异常检测系统。 | | |
| Alibi Detect | 用于异常值、对抗性和漂移检测的算法。 | | |
可解释性
标志 | 名称 | 描述 | 流行度 | 许可证 |
---|
| SHAP | 一种基于博弈论的方法,用于解释任何机器学习模型的输出。 | | |
| Alibi | Alibi是一个开源Python库,旨在进行机器学习模型检查和解释。 | | |
LIME | LIME | 解释任何机器学习分类器的预测。 | | |
| Captum | PyTorch的模型可解释性和理解工具。 | | |
主动学习
不确定性量化
标志 | 名称 | 描述 | 受欢迎程度 | 许可证 |
---|
| 不确定性工具箱 | 用于预测不确定性量化、校准、指标和可视化的Python工具箱。 | | |
| MAPIE | 用于估计预测区间的兼容scikit-learn的模块。 | | |
偏见和公平性
标志 | 名称 | 描述 | 受欢迎程度 | 许可证 |
---|
| AIF360 | AI Fairness 360工具包帮助在整个AI应用生命周期中检测和缓解机器学习模型中的偏见。 | | |
| Fairlearn | 用于评估和改进机器学习模型公平性的Python包。 | | |
可观察性和监控
增强和合成数据
安全性和鲁棒性
🏀 以数据为中心的 AI 手册
探索性数据分析 (EDA)
名称 | 数据类型 | 描述 | 笔记本 |
---|
理解分布 | 图像 | 使用 Huggingface transformers 库计算图像嵌入,并基于相似度图和额外的元数据探索数据集。 | |
清理
名称 | 数据类型 | 描述 | 笔记本 |
---|
检测重复 | 不限 | 使用Annoy库在嵌入空间中检测最近邻,并检查重复/近似重复的数据点。 | |
检测异常值 | 不限 | 使用Cleanlab库基于模型输出(嵌入、概率)计算异常分数,并检查异常候选项。 | |
检测图像问题 | 图像 | 使用Cleanvision库提取典型的图像问题(亮度、模糊、宽高比、信噪比和重复),并通过手动检查识别关键部分。 | |
标注
名称 | 数据类型 | 描述 | 笔记本 |
---|
查找标签不一致 | 不限 | 使用Cleanlab库基于模型概率计算标签错误标志,并手动检查关键数据部分。 | |
建模
名称 | 数据类型 | 描述 | 笔记本 |
---|
检测数据泄露 | 不限 | 使用最近邻距离识别数据泄露候选项并手动检查 | |
验证
名称 | 数据类型 | 描述 | 笔记本 |
---|
检查决策边界 | 不限 | 基于确定性比率计算决策边界分数,并在散点图中检查结果。 | |
监控
名称 | 数据类型 | 描述 | 笔记本 |
---|
检测数据漂移 | 不限 | 计算嵌入空间中k近邻的余弦距离作为漂移距离,并检查关键部分。 | |
📖 延伸阅读
为了保持有用的重点并防止重复工作,我们从这个列表中排除了一些主题。在这里阅读更多相关内容:
- 用于表格数据的DCAI工具。Ydata团队维护了一个优秀列表。
- 标注工具。虽然标注是DCAI工作流程的一部分,但我们在这个主题上参考了ZenML团队的优秀列表。
- MLOps工具。我们排除了所有明显超出DCAI范围的主题,并参考了已建立的MLOps优秀列表来了解这些工具。
- 研究论文。我们专注于工业就绪的开源工具,查看这个列表以获得以研究为导向的DCAI视角。