Project Icon

awesome-python-data-science

Python数据科学资源集合,详解机器学习与深度学习工具

该项目收集了全面的Python数据科学资源,包括机器学习、深度学习、自动化机器学习、自然语言处理、计算机视觉、时间序列分析和强化学习等领域的开源库。从通用型机器学习算法到深度学习框架(如PyTorch和TensorFlow),再到特征工程和数据可视化,用户可以找到适用于各种数据分析和建模需求的工具。项目旨在帮助数据科学家和工程师高效选择工具,以提高开发和分析效率。

pyds


超赞的Python数据科学


可能是最好的Python数据科学软件精选列表

目录

机器学习

通用机器学习

  • scikit-learn - Python中的机器学习。sklearn
  • PyCaret - 一个开源的、低代码的Python机器学习库。受R启发的库
  • Shogun - 机器学习工具箱。
  • xLearn - 高性能、易用、可扩展的机器学习包。
  • cuML - RAPIDS机器学习库。sklearn GPU加速
  • modAL - Python3的模块化主动学习框架。sklearn
  • Sparkit-learn - PySpark + scikit-learn = Sparkit-learn。sklearn 基于Apache Spark
  • mlpack - 一个可扩展的C++机器学习库(Python绑定)。
  • dlib - 用于在C++中进行真实世界的机器学习和数据分析应用的工具包(Python绑定)。
  • MLxtend - Python数据分析和机器学习库的扩展和助手模块。sklearn
  • hyperlearn - 50%+更快,50%+更少的RAM使用,支持GPU的重新编写的Sklearn,Statsmodels。sklearn 基于/兼容PyTorch
  • 可重复实验平台(REP) - 为人类设计的机器学习工具箱。sklearn
  • scikit-multilearn - Python的多标签分类。sklearn
  • seqlearn - Python的序列分类工具包。sklearn
  • pystruct - Python的简单结构化学习框架。sklearn
  • sklearn-expertsys - scikit-learn的高度可解释分类器。sklearn
  • RuleFit - rulefit的实现。sklearn
  • metric-learn - Python中的度量学习算法。sklearn
  • pyGAM - Python中的广义可加模型。
  • causalml - 使用机器学习算法进行增效建模和因果推断。sklearn

梯度提升

  • XGBoost - 可扩展、便携的分布式梯度提升。sklearn GPU加速
  • LightGBM - 一个快速、分布式、高性能的梯度提升。sklearn GPU加速
  • CatBoost - 一个开源的决策树库上的梯度提升。sklearn GPU加速
  • ThunderGBM - 在GPU上的快速GBDT和随机森林。sklearn GPU加速
  • NGBoost - 概率预测的自然梯度提升。
  • TensorFlow决策森林 - 在Keras中训练、服务和解释决策森林模型的最先进算法集合。keras TensorFlow

集成方法

不平衡数据集

随机森林

核方法

  • pyFM - Python中的因子分解机。sklearn
  • fastFM - 一种因子分解机库。sklearn
  • tffm - 任意阶因子分解机的TensorFlow实现。sklearn sklearn
  • liquidSVM - 一种SVM的实现。
  • scikit-rvm - 使用scikit-learn API实现的相关向量机。sklearn
  • ThunderSVM - 一种在GPU和CPU上快速运行的SVM库。sklearn GPU加速

深度学习

PyTorch

  • PyTorch - 在Python中实现张量和动态神经网络,并具有强大的GPU加速能力。基于/兼容PyTorch
  • pytorch-lightning - PyTorch Lightning只是结构化的PyTorch。基于/兼容PyTorch
  • ignite - 帮助在PyTorch中训练神经网络的高级库。基于/兼容PyTorch
  • skorch - 一个兼容scikit-learn的神经网络库,封装了PyTorch。sklearn 基于/兼容PyTorch
  • Catalyst - 用于PyTorch深度学习和强化学习研究的高级工具。基于/兼容PyTorch
  • ChemicalX - 一个基于PyTorch的药物配对评分深度学习库。基于/兼容PyTorch

TensorFlow

  • TensorFlow - 使用数据流图进行计算的可扩展机器学习,由谷歌开发。sklearn
  • TensorLayer - 面向研究人员和工程师的深度学习和强化学习库。sklearn
  • TFLearn - 具有高级API的深度学习库,基于TensorFlow。sklearn
  • Sonnet - 基于TensorFlow的神经网络库。sklearn
  • tensorpack - 一个基于TensorFlow的神经网络训练接口。sklearn
  • Polyaxon - 一个帮助构建、管理和监控深度学习模型的平台。sklearn
  • tfdeploy - 部署TensorFlow图以快速评估并导出到没有TensorFlow的环境中运行的numpy。sklearn
  • tensorflow-upstream - TensorFlow的ROCm端口。sklearn Possible to run on AMD GPU
  • TensorFlow Fold - 在TensorFlow中进行动态计算图的深度学习。sklearn
  • TensorLight - 一个高级的TensorFlow框架。sklearn
  • Mesh TensorFlow - 模型并行化更容易的实现。sklearn
  • Ludwig - 允许无需编写代码即可训练和测试深度学习模型的工具箱。sklearn
  • Keras - 运行在TensorFlow之上的高级神经网络API。Keras compatible
  • keras-contrib - Keras社区贡献。Keras compatible
  • Hyperas - Keras + Hyperopt:一个简便超参数选择器的简单包装。Keras compatible
  • Elephas - 与Keras & Spark一起实现分布式深度学习。Keras compatible
  • qkeras - 一个量化深度学习库。Keras compatible

MXNet

  • MXNet - 轻量级、便携、灵活的分布式/移动深度学习,具有动态且具备变更感知的数据流调度器。MXNet based
  • Gluon - 一个清晰、简洁、简单但功能强大且高效的深度学习API(现在包含在MXNet中)。MXNet based
  • Xfer - 深度神经网络的迁移学习库。MXNet based
  • MXNet - MXNet的HIP端口。MXNet based Possible to run on AMD GPU

JAX

  • JAX - 对Python+NumPy程序进行可组合的变换:微分、向量化、JIT到GPU/TPU等等。
  • FLAX - 一个为JAX设计的灵活的神经网络库。
  • Optax - 一个为JAX设计的梯度处理和优化库。

Others

  • transformers - 最先进的机器学习,兼容Pytorch、TensorFlow和JAX。PyTorch based/compatible sklearn
  • Tangent - 纯Python中可调试的源代码转换。
  • autograd - 高效计算numpy代码的导数。
  • Caffe - 一个快速的开源深度学习框架。
  • nnabla - 索尼推出的神经网络库。

Automated Machine Learning

  • auto-sklearn - 一个AutoML工具包,可作为scikit-learn估计器的替代品。sklearn
  • Auto-PyTorch - 面向PyTorch的自动架构搜索和超参数优化工具。PyTorch based/compatible
  • AutoKeras - 深度学习的AutoML库。Keras compatible
  • AutoGluon - 面向图像、文本、表格、时间序列和多模态数据的AutoML。
  • TPOT - 使用遗传编程优化机器学习管道的AutoML工具。sklearn
  • MLBox - 一个功能强大的自动机器学习Python库。

自然语言处理

  • torchtext - 文本和NLP的数据加载器和抽象。基于/兼容PyTorch
  • gluon-nlp - 简化NLP。基于MXNet
  • KerasNLP - 用Keras实现模块化的自然语言处理工作流程。基于/兼容Keras
  • spaCy - 工业级自然语言处理。
  • NLTK - 支持自然语言处理研究和开发的模块、数据集和教程。
  • CLTK - 古典语言工具包。
  • gensim - 人类的主题建模工具。
  • pyMorfologik - 用于Morfologik的Python绑定。
  • skift - 为Python fastText提供Scikit-learn封装。sklearn
  • Phonemizer - 多语言的简单文本到音素转换器。
  • flair - 先进NLP的简单框架。

计算机听觉

  • torchaudio - PyTorch的音频库。基于/兼容PyTorch
  • librosa - 用于音频和音乐分析的Python库。
  • Yaafe - 音频特征提取。
  • aubio - 一个用于音频和音乐分析的库。
  • Essentia - 音频和音乐分析、描述和合成的库。
  • LibXtract - 一个简单、便携、轻量的音频特征提取函数库。
  • Marsyas - 音乐分析、检索和音频信号的合成。
  • muda - 一个用于增强标注音频数据的库。
  • madmom - 用于音频和音乐信号处理的Python库。

计算机视觉

  • torchvision - 专用于计算机视觉的数据集、变换和模型。基于/兼容PyTorch
  • PyTorch3D - PyTorch3D是FAIR用于3D数据深度学习的可重用组件库。基于/兼容PyTorch
  • gluon-cv - 提供计算机视觉领域最先进的深度学习模型的实现。基于MXNet
  • KerasCV - 用Keras实现工业级计算机视觉工作流程。基于MXNet
  • OpenCV - 开源计算机视觉库。
  • Decord - 一个高效的视频加载器,具有智能洗牌功能,非常易于使用。
  • MMEngine - OpenMMLab训练深度学习模型的基础库。基于/兼容PyTorch
  • scikit-image - 图像处理SciKit(SciPy的工具箱)。
  • imgaug - 机器学习实验的图像增强。
  • imgaug_extension - imgaug的额外增强功能。
  • Augmentor - 用于机器学习的Python图像增强库。
  • albumentations - 快速图像增强库和易于使用的其他库封装。
  • LAVIS - 一个面向语言-视觉智能的一站式库。

时间序列

  • sktime - 用于时间序列机器学习的统一框架。sklearn
  • darts - 一个用于轻松操作和预测时间序列的Python库。
  • statsforecast - 使用统计和计量经济模型进行快速预测。
  • mlforecast - 可扩展的基于机器学习的时间序列预测。
  • neuralforecast - 可扩展的基于机器学习的时间序列预测。
  • tslearn - 专用于时间序列数据的机器学习工具包。sklearn
  • tick - 侧重于时间依赖建模的统计学习模块。sklearn
  • greykite - 一个灵活、直观、快速的预测库。
  • Prophet - 自动预测程序。
  • PyFlux - 开源的Python时间序列库。
  • bayesloop - 用于时间变量参数模型的概率编程框架,便于客观模型选择。
  • luminol - 异常检测和关联库。
  • dateutil - 对标准datetime模块的强大扩展。
  • maya - 使解析字符串和更改时区变得非常容易。
  • Chaos Genius - 用于异常/异常检测和根本原因分析的机器学习驱动分析引擎。

强化学习

  • Gymnasium - 一个单代理强化学习环境的API标准,包含流行的参考环境和相关工具(前称为Gym)。
  • PettingZoo - 一个多代理强化学习环境的API标准,包含流行的参考环境和相关工具。
  • MAgent2 - 一个高性能的多代理环境引擎,支持非常大量的代理,并包含一套参考环境。
  • Stable Baselines3 - 基于OpenAI Baselines的强化学习算法改进实现集。
  • Shimmy - 一个流行的外部强化学习环境的API转换工具。
  • EnvPool - 基于C++的高性能并行环境执行引擎(矢量化环境),适用于通用RL环境。
  • RLlib - 可扩展的强化学习。
  • Tianshou - 基于PyTorch的优雅深度强化学习库。基于/兼容PyTorch
  • Acme - 一套强化学习组件和代理库。
  • Catalyst-RL - 用于RL研究的PyTorch框架。基于/兼容PyTorch
  • d3rlpy - 一个离线深度强化学习库。
  • DI-engine - OpenDILab决策人工智能引擎。基于/兼容PyTorch
  • TF-Agents - 用于TensorFlow的强化学习库。TensorFlow
  • TensorForce - 一个用于应用强化学习的TensorFlow库。TensorFlow
  • TRFL - TensorFlow强化学习。sklearn
  • Dopamine - 用于快速原型强化学习算法的研究框架。
  • keras-rl - 用于Keras的深度强化学习。兼容Keras
  • garage - 一个用于可重复强化学习研究的工具包。
  • Horizon - 一个用于应用强化学习的平台。
  • rlpyt - 在PyTorch中进行强化学习。基于/兼容PyTorch
  • cleanrl - 具有研究友好特性的高质量单文件深度强化学习算法实现(包括PPO, DQN, C51, DDPG, TD3, SAC, PPG)。
  • Machin - 一个为PyTorch设计的强化库。基于/兼容PyTorch
  • SKRL - 模块化的强化学习库(基于PyTorch和JAX),支持NVIDIA Isaac Gym、Isaac Orbit和Omniverse Isaac Gym。基于/兼容PyTorch
  • Imitation - 清晰的基于PyTorch的模仿学习和奖励学习算法实现。基于/兼容PyTorch

图机器学习

学习排序与推荐系统

  • LightFM - LightFM的Python实现,一个混合推荐算法。
  • Spotlight - 使用PyTorch的深度推荐模型。
  • Surprise - 一个用于构建和分析推荐系统的Python scikit库。
  • RecBole - 一个统一、全面且高效的推荐库。基于/兼容PyTorch
  • allRank - 基于PyTorch的学习排序神经模型训练框架。基于/兼容PyTorch
  • TensorFlow Recommenders - 一个使用TensorFlow构建推荐系统模型的库。TensorFlow 兼容Keras
  • TensorFlow Ranking - 使用TensorFlow进行学习排序。TensorFlow

概率图模型

  • pomegranate - 用于Python的概率和图模型。基于/兼容PyTorch
  • pgmpy - 一个用于处理概率图模型的Python库。
  • pyAgrum - 通用图形建模器。

概率方法

  • pyro - 基于PyTorch构建的灵活、可扩展的深度概率编程库。基于/兼容PyTorch
  • PyMC - Python中的贝叶斯随机建模。
  • ZhuSuan - 贝叶斯深度学习。sklearn
  • GPflow - TensorFlow中的高斯过程。sklearn
  • InferPy - 轻松实现深度概率建模。sklearn
  • PyStan - 使用No-U-Turn采样器的贝叶斯推理(Python接口)。
  • sklearn-bayes - 使用scikit-learn API进行贝叶斯机器学习的Python包。sklearn
  • skpro - 由艾伦·图灵研究所开发的用于概率建模的监督性领域无关预测框架。sklearn
  • PyVarInf - 使用变分推理进行贝叶斯深度学习方法的PyTorch实现。基于/兼容PyTorch
  • emcee - 用于仿射不变MCMC的Python组合采样工具包。
  • hsmmlearn - 一个具有显式时间长度的隐马尔可夫模型库。
  • pyhsmm - 使用贝叶斯进行HSMM和HMM的推理。
  • GPyTorch - 在PyTorch中实现高效、模块化的高斯过程。基于/兼容PyTorch
  • sklearn-crfsuite - 一个受scikit-learn启发的CRFsuite API。sklearn

模型解释

  • dalex - 为探索和解释模型而设计的语言。sklearnR 启发/移植
  • Shapley - 一个数据驱动的框架,用于量化机器学习集成中分类器的价值。
  • Alibi - 用于监控和解释机器学习模型的算法。
  • anchor - 为“高精度模型无关解释”论文编写的代码。
  • aequitas - 偏见和公平性审计工具包。
  • Contrastive Explanation - 对比解释(Foil Trees)。sklearn
  • yellowbrick - 用于促进机器学习模型选择的视觉分析和诊断工具。sklearn
  • scikit-plot - 一个直观的库,用于为scikit-learn对象添加绘图功能。sklearn
  • shap - 用于解释任何机器学习模型输出的统一方法。sklearn
  • ELI5 - 用于调试/检查机器学习分类器并解释其预测的库。
  • Lime - 用于解释任何机器学习分类器的预测。sklearn
  • FairML - 一个用于审计机器学习模型偏见的Python工具箱。sklearn
  • L2X - 用于复现论文《学习解释:基于信息论的模型解释》的实验代码。
  • PDPbox - 部分依赖图工具包。
  • PyCEbox - Python个体条件期望图工具箱。
  • Skater - 用于模型解释的Python库。
  • model-analysis - TensorFlow的模型分析工具。sklearn
  • themis-ml - 一个实现公平意识机器学习算法的库。sklearn
  • treeinterpreter - 解释scikit-learn的决策树和随机森林预测。sklearn
  • AI Explainability 360 - 数据和机器学习模型的可解释性和解释性。
  • Auralisation - 学习特征在CNN(用于音频)中的可听化。
  • CapsNet-Visualization - 可视化CapsNet层以更好地理解其工作原理。
  • lucid - 用于神经网络可解释性研究的基础设施和工具集合。
  • Netron - 深度学习和机器学习模型的可视化工具(没有Python代码,但可视化大多数Python深度学习框架的模型)。
  • FlashLight - 神经网络的可视化工具。
  • tensorboard-pytorch - PyTorch的Tensorboard(以及chainer、mxnet、numpy等)。

遗传编程

  • gplearn - 用Python实现的遗传编程。sklearn
  • PyGAD - 用Python实现的遗传算法。基于/兼容PyTorchkeras
  • DEAP - 用Python实现的分布式进化算法。
  • karoo_gp - 一个支持GPU的Python遗传编程平台。sklearn
  • monkeys - 一个强类型的Python遗传编程框架。
  • sklearn-genetic - 用于scikit-learn的遗传特征选择模块。sklearn

优化

  • Optuna - 超参数优化框架。
  • pymoo - Python中的多目标优化。
  • pycma - CMA-ES的Python实现。
  • Spearmint - 贝叶斯优化。
  • BoTorch - PyTorch中的贝叶斯优化。基于/兼容PyTorch
  • scikit-opt - 优化的启发式算法。
  • sklearn-genetic-opt - 使用进化算法进行超参数调整和特征选择。sklearn
  • SMAC3 - 基于序列模型的算法配置。
  • Optunity - 包含各种超参数调优优化器的库。
  • hyperopt - Python中分布式异步超参数优化。
  • hyperopt-sklearn - sklearn的超参数优化。sklearn
  • sklearn-deap - 在scikit-learn中使用进化算法代替网格搜索。sklearn
  • sigopt_sklearn - 针对scikit-learn方法的SigOpt封装器。sklearn
  • Bayesian Optimization - 使用高斯过程的全局优化的Python实现。
  • SafeOpt - 安全的贝叶斯优化。
  • scikit-optimize - 具有scipy.optimize接口的基于序列模型的优化。
  • Solid - 用Python编写的全面的无梯度优化框架。
  • PySwarms - 用于Python的粒子群优化研究工具包。
  • Platypus - 一个用于多目标优化的免费开源Python库。
  • GPflowOpt - 使用GPflow的贝叶斯优化。sklearn
  • POT - Python最优传输库。
  • Talos - Keras模型的超参数优化。
  • nlopt - 非线性优化库(全局和局部,有约束和无约束)。
  • OR-Tools - Google的开源优化软件套件;提供了统一的编程接口给半打求解器:SCIP、GLPK、GLOP、CP-SAT、CPLEX和Gurobi。

特征工程

通用

  • Featuretools - 自动化特征工程。
  • Feature Engine - 具有sklearn类似功能的特征工程包。sklearn
  • OpenFE - 具有专家级性能的自动化特征生成。
  • skl-groups - 一个操作基于集合/群体特征的scikit-learn插件。sklearn
  • Feature Forge - 创建和测试机器学习特征的一套工具。sklearn
  • few - sklearn的特征工程封装库。sklearn
  • scikit-mdr - 兼容sklearn的基于多因子维度减少(MDR)技术的特征构造Python实现。sklearn
  • tsfresh - 自动提取时间序列中的相关特征。sklearn
  • dirty_cat - 对脏的表格格式数据进行机器学习(特别是基于字符串的分类和回归变量)。sklearn
  • NitroFE - 滑动窗口特征。sklearn
  • sk-transformer - 一系列兼容pandas和scikit-learn的转换器,用于各种预处理和特征工程步骤。兼容pandas

特征选择

  • scikit-feature - Python中的特征选择库。
  • boruta_py - Boruta所有相关特征选择方法的实现。sklearn
  • BoostARoota - 一个快速的xgboost特征选择算法。sklearn
  • scikit-rebate - 兼容scikit-learn的ReBATE套件的Python实现,一组基于Relief的机器学习特征选择算法。sklearn
  • zoofs - 基于进化算法的特征选择库。

可视化

通用用途

  • Matplotlib - 用Python进行绘图。
  • seaborn - 使用matplotlib进行统计数据可视化。
  • prettyplotlib - 无痛创建漂亮的matplotlib图表。
  • python-ternary - 用matplotlib进行三元绘图的库。
  • missingno - Python的缺失数据可视化模块。
  • chartify - 使数据科学家能够轻松创建图表的Python库。
  • physt - 改进的直方图。

互动图表

  • animatplot - 基于matplotlib的Python动画绘图包。
  • plotly - 一个创建互动和出版质量图表的Python库。
  • Bokeh - 用Python进行互动web绘图。
  • Altair - Python的声明式统计可视化库。可以在代码中轻松进行许多数据转换以创建图表。
  • bqplot - 适用于IPython/Jupyter笔记本的绘图库。
  • pyecharts - 从Echarts移植的交互式可视图和数据可视化库。pyecharts echarts

地图

  • folium - 使在交互式开放街道地图上可视化数据变得容易。
  • geemap - 与Google Earth Engine(GEE)进行互动映射的Python包。

自动绘图

  • HoloViews - 不要绘制数据 - 注释数据,让它自己可视化。
  • AutoViz: 用一行代码自动可视化数据(适用于机器学习)。
  • SweetViz: 用一行代码可视化和比较数据集、目标值和关联。

自然语言处理(NLP)

  • pyLDAvis: 交互式主题模型的可视化。

部署

  • fastapi - 现代、高效(高性能)的web框架,用于构建Python API。
  • streamlit - 使部署机器学习模型变得容易。
  • streamsync - 前端无代码,后端Python。一个用于创建数据应用程序的开源框架。
  • gradio - 用Python在3分钟内为你的机器学习模型创建用户界面。
  • Vizro - 一个用于创建模块化数据可视化应用程序的工具包。
  • datapane - 一组API,将脚本和笔记本转换为交互式报告。
  • binder - 启用共享和执行Jupyter笔记本。

统计

  • pandas_summary - pandas数据框架描述函数的扩展。pandas compatible
  • Pandas Profiling - 从pandas DataFrame对象创建HTML概要报告。pandas compatible
  • statsmodels - Python中的统计建模和计量经济学。
  • stockstats - 提供一个基于pandas.DataFrameStockDataFrame包装器,支持内联股票统计/指标。
  • weightedcalcs - 一个基于pandas的工具,用于计算加权平均值、中位数、分布、标准差等。
  • scikit-posthocs - 成对多重比较事后检验。
  • Alphalens - 预测(alpha)股票因子的表现分析。

数据处理

数据框架

  • pandas - 强大的Python数据分析工具包。
  • polars - 一个快速多线程、混合外存的数据框架库。
  • Arctic - 高性能时间序列和交易数据存储库。
  • datatable - Python的数据表。R inspired/ported lib
  • pandas_profiling - 从pandas DataFrame对象创建HTML概要报告
  • cuDF - GPU数据框架库。pandas compatible GPU accelerated
  • blaze - 面向大数据的NumPy和pandas接口。pandas compatible
  • pandasql - 允许你使用SQL语法查询pandas DataFrame。pandas compatible
  • pandas-gbq - pandas谷歌大查询。pandas compatible
  • xpandas - 阿兰·图灵研究所开发的通用1d/2d数据容器,具有用于数据分析的转换功能。
  • pysparkling - 一个纯Python实现的Apache Spark的RDD和DStream接口。Apache Spark based
  • modin - 通过更改一行代码来加速你的pandas工作流。pandas compatible
  • swifter - 一个高效地以最快的方式将任何函数应用于pandas数据框或序列的包。
  • pandas-log - 一个允许对基本pandas操作提供反馈的包,并查找业务逻辑和性能问题。
  • vaex - 针对Python的外存数据框架,能够每秒可视化和探索十亿行大数据。
  • xarray - Xarray结合了NumPy和pandas的最佳特性,用于多维数据选择,通过命名维度来补充数字轴标签,使索引例程更直观、简洁、错误更少。

流水线

  • pdpipe - pandas数据框架的简单流水线。
  • SSPipe - 支持数据框和Numpy、Pytorch的Python管道(|)操作符。
  • pandas-ply - pandas的函数式数据操作。pandas compatible
  • Dplython - Python版的Dplyr。R inspired/ported lib
  • sklearn-pandas - pandas与sklearn的集成。sklearn pandas compatible
  • Dataset - 帮助你方便地处理你的数据的随机或顺序批次并定义数据处理。
  • pyjanitor - 用于数据清理的干净API。pandas compatible
  • meza - 一个处理表格数据的Python工具包。
  • Prodmodel - 数据科学流水线的构建系统。
  • dopanda - 针对在分析环境中使用pandas的提示和技巧。pandas compatible
  • Hamilton - 一个适用于数据框生成的小框架,通过惰性评估的Python函数流来应用有向无环图。

数据中心AI

  • cleanlab - 在处理混乱的现实世界数据和标签时用作数据质量和机器学习的标准数据中心AI包。
  • snorkel - 一种快速生成具有弱监督的训练数据的系统。
  • dataprep - 用几行代码在Python中收集、清理和可视化数据。

合成数据

  • ydata-synthetic - 一个利用最先进的生成模型生成合成表格和时间序列数据的软件包。pandas compatible

分布式计算

  • Horovod - 用于TensorFlow、Keras、PyTorch和Apache MXNet的分布式训练框架。sklearn
  • PySpark - 将Spark编程模型暴露给Python。Apache Spark based
  • Veles - 分布式机器学习平台。
  • Jubatus - 分布式在线机器学习的框架和库。
  • DMTK - 微软分布式机器学习工具包。
  • PaddlePaddle - 并行分布式深度学习。
  • dask-ml - 分布式和并行机器学习。sklearn
  • Distributed - Python中的分布式计算。

实验

  • mlflow - 开源的机器学习生命周期平台。
  • Neptune - 一个轻量级的ML实验追踪、结果可视化和管理工具。
  • dvc - 数据版本控制 | 数据和模型的Git | ML实验管理。
  • envd - 🏕️ 用于数据科学和AI/ML工程团队的机器学习开发环境。
  • Sacred - 一个帮助你配置、组织、记录和重现实验的工具。
  • Ax - 自适应实验平台。sklearn

数据验证

  • great_expectations - 随时了解你的数据的预期。
  • pandera - 一个轻量级、灵活且富有表达力的统计数据测试库。
  • deepchecks - 在模型开发、部署和生产期间进行ML模型和数据的验证和测试。sklearn
  • evidently - 从验证到生产评估和监控ML模型。
  • TensorFlow Data Validation - 探索和验证机器学习数据的库。

评估

  • recmetrics - 用于评估推荐系统的有用指标和图表库。
  • Metrics - 机器学习评估指标。
  • sklearn-evaluation - 使模型评估变得容易:图表、表格和Markdown报告。sklearn
  • AI Fairness 360 - 为数据集和ML模型提供公平性指标、解释以及减轻数据集和模型中的偏见的算法。

计算

  • numpy - Python 科学计算所需的基础包。
  • Dask - 任务调度的并行计算。 pandas compatible
  • bottleneck - 使用 C 语言编写的快速 NumPy 数组函数。
  • CuPy - 类似于 NumPy 的 API,被 CUDA 加速。
  • scikit-tensor - 用于多线性代数和张量分解的 Python 库。
  • numdifftools - 解决一变量或多变量的自动数值微分问题。
  • quaternion - 为 numpy 添加内置的四元数支持。
  • adaptive - 用于自适应和并行采样数学函数的工具。
  • NumExpr - 一个快速的 NumPy 数值表达式求值器,带有集成的计算虚拟机,通过避免中间结果的内存分配来加速计算。

网络爬虫

  • BeautifulSoup: 初学者最易用的静态网站爬取库
  • Scrapy: 快速且可扩展的爬虫库。可以编写规则和创建自定义爬虫而无需触及核心
  • Selenium: 使用 Selenium Python API 以直观的方式访问 Selenium WebDriver 的所有功能,像真实用户一样操作。
  • Pattern: 针对如 Google、Twitter 和 Wikipedia 等知名网站的高级爬取。同时具有 NLP、机器学习算法和可视化功能
  • twitterscraper: 高效的 Twitter 抓取库

空间分析

  • GeoPandas - 地理数据的 Python 工具。 pandas compatible
  • PySal - Python 空间分析库。

量子计算

  • qiskit - Qiskit 是一个用于电路、算法及应用模块的量子计算开放源码 SDK。
  • cirq - 用于创建、编辑和调用噪声中等规模量子(NISQ)电路的 Python 框架。
  • PennyLane - 量子机器学习、自动微分和混合量子-经典计算的优化。
  • QML - 一个用于量子机器学习的 Python 工具包。

转换

  • sklearn-porter - 将已训练的 scikit-learn 估计器转译为 C、Java、JavaScript 等。
  • ONNX - 开放神经网络交换。
  • MMdnn - 一组用于帮助用户在不同的深度学习框架之间互操作的工具。
  • treelite - 决策树森林的通用模型交换和序列化格式。

贡献

欢迎贡献!:sunglasses:
阅读 <a href=https://github.com/krzjoa/awesome-python-datascience/blob/master/CONTRIBUTING.md>贡献指南

许可证

本作品采用知识共享署名 4.0 国际许可证 - CC BY 4.0进行许可。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号