超赞的Python数据科学
可能是最好的Python数据科学软件精选列表
目录
- 目录
- 机器学习
- 深度学习
- 自动化机器学习
- 自然语言处理
- 计算机听觉
- 计算机视觉
- 时间序列
- 强化学习
- 图机器学习
- 排序学习和推荐系统
- 概率图模型
- 概率方法
- 模型解释
- 优化
- 遗传编程
- 特征工程
- 可视化
- 数据操作
- 部署
- 统计学
- 分布式计算
- 实验
- 数据验证
- 评估
- 计算
- 网页刮削
- 空间分析
- 量子计算
- 转换
- 贡献
- 许可
机器学习
通用机器学习
- scikit-learn - Python中的机器学习。
- PyCaret - 一个开源的、低代码的Python机器学习库。
- Shogun - 机器学习工具箱。
- xLearn - 高性能、易用、可扩展的机器学习包。
- cuML - RAPIDS机器学习库。
- modAL - Python3的模块化主动学习框架。
- Sparkit-learn - PySpark + scikit-learn = Sparkit-learn。
- mlpack - 一个可扩展的C++机器学习库(Python绑定)。
- dlib - 用于在C++中进行真实世界的机器学习和数据分析应用的工具包(Python绑定)。
- MLxtend - Python数据分析和机器学习库的扩展和助手模块。
- hyperlearn - 50%+更快,50%+更少的RAM使用,支持GPU的重新编写的Sklearn,Statsmodels。
- 可重复实验平台(REP) - 为人类设计的机器学习工具箱。
- scikit-multilearn - Python的多标签分类。
- seqlearn - Python的序列分类工具包。
- pystruct - Python的简单结构化学习框架。
- sklearn-expertsys - scikit-learn的高度可解释分类器。
- RuleFit - rulefit的实现。
- metric-learn - Python中的度量学习算法。
- pyGAM - Python中的广义可加模型。
- causalml - 使用机器学习算法进行增效建模和因果推断。
梯度提升
- XGBoost - 可扩展、便携的分布式梯度提升。
- LightGBM - 一个快速、分布式、高性能的梯度提升。
- CatBoost - 一个开源的决策树库上的梯度提升。
- ThunderGBM - 在GPU上的快速GBDT和随机森林。
- NGBoost - 概率预测的自然梯度提升。
- TensorFlow决策森林 - 在Keras中训练、服务和解释决策森林模型的最先进算法集合。
集成方法
- ML-Ensemble - 高性能集成学习。
- Stacking - 用Python编写的简单而实用的stacking库。
- stacked_generalization - 机器学习stacking泛化库。
- vecstack - 用于stacking(机器学习技术)的Python包。
不平衡数据集
- imbalanced-learn - 使用各种技术进行欠采样和过采样的模块。
- imbalanced-algorithms - 基于Python的不平衡数据学习算法实现。
随机森林
- rpforest - 一种随机投影树的森林。
- sklearn-random-bits-forest - 由(Wang等人,2016年)编写的Random Bits Forest程序的封装。
- rgf_python - 规则化贪婪森林(RGF) 的Python封装。
核方法
- pyFM - Python中的因子分解机。
- fastFM - 一种因子分解机库。
- tffm - 任意阶因子分解机的TensorFlow实现。
- liquidSVM - 一种SVM的实现。
- scikit-rvm - 使用scikit-learn API实现的相关向量机。
- ThunderSVM - 一种在GPU和CPU上快速运行的SVM库。
深度学习
PyTorch
- PyTorch - 在Python中实现张量和动态神经网络,并具有强大的GPU加速能力。
- pytorch-lightning - PyTorch Lightning只是结构化的PyTorch。
- ignite - 帮助在PyTorch中训练神经网络的高级库。
- skorch - 一个兼容scikit-learn的神经网络库,封装了PyTorch。
- Catalyst - 用于PyTorch深度学习和强化学习研究的高级工具。
- ChemicalX - 一个基于PyTorch的药物配对评分深度学习库。
TensorFlow
- TensorFlow - 使用数据流图进行计算的可扩展机器学习,由谷歌开发。
- TensorLayer - 面向研究人员和工程师的深度学习和强化学习库。
- TFLearn - 具有高级API的深度学习库,基于TensorFlow。
- Sonnet - 基于TensorFlow的神经网络库。
- tensorpack - 一个基于TensorFlow的神经网络训练接口。
- Polyaxon - 一个帮助构建、管理和监控深度学习模型的平台。
- tfdeploy - 部署TensorFlow图以快速评估并导出到没有TensorFlow的环境中运行的numpy。
- tensorflow-upstream - TensorFlow的ROCm端口。
- TensorFlow Fold - 在TensorFlow中进行动态计算图的深度学习。
- TensorLight - 一个高级的TensorFlow框架。
- Mesh TensorFlow - 模型并行化更容易的实现。
- Ludwig - 允许无需编写代码即可训练和测试深度学习模型的工具箱。
- Keras - 运行在TensorFlow之上的高级神经网络API。
- keras-contrib - Keras社区贡献。
- Hyperas - Keras + Hyperopt:一个简便超参数选择器的简单包装。
- Elephas - 与Keras & Spark一起实现分布式深度学习。
- qkeras - 一个量化深度学习库。
MXNet
- MXNet - 轻量级、便携、灵活的分布式/移动深度学习,具有动态且具备变更感知的数据流调度器。
- Gluon - 一个清晰、简洁、简单但功能强大且高效的深度学习API(现在包含在MXNet中)。
- Xfer - 深度神经网络的迁移学习库。
- MXNet - MXNet的HIP端口。
JAX
- JAX - 对Python+NumPy程序进行可组合的变换:微分、向量化、JIT到GPU/TPU等等。
- FLAX - 一个为JAX设计的灵活的神经网络库。
- Optax - 一个为JAX设计的梯度处理和优化库。
Others
- transformers - 最先进的机器学习,兼容Pytorch、TensorFlow和JAX。
- Tangent - 纯Python中可调试的源代码转换。
- autograd - 高效计算numpy代码的导数。
- Caffe - 一个快速的开源深度学习框架。
- nnabla - 索尼推出的神经网络库。
Automated Machine Learning
- auto-sklearn - 一个AutoML工具包,可作为scikit-learn估计器的替代品。
- Auto-PyTorch - 面向PyTorch的自动架构搜索和超参数优化工具。
- AutoKeras - 深度学习的AutoML库。
- AutoGluon - 面向图像、文本、表格、时间序列和多模态数据的AutoML。
- TPOT - 使用遗传编程优化机器学习管道的AutoML工具。
- MLBox - 一个功能强大的自动机器学习Python库。
自然语言处理
- torchtext - 文本和NLP的数据加载器和抽象。
- gluon-nlp - 简化NLP。
- KerasNLP - 用Keras实现模块化的自然语言处理工作流程。
- spaCy - 工业级自然语言处理。
- NLTK - 支持自然语言处理研究和开发的模块、数据集和教程。
- CLTK - 古典语言工具包。
- gensim - 人类的主题建模工具。
- pyMorfologik - 用于Morfologik的Python绑定。
- skift - 为Python fastText提供Scikit-learn封装。
- Phonemizer - 多语言的简单文本到音素转换器。
- flair - 先进NLP的简单框架。
计算机听觉
- torchaudio - PyTorch的音频库。
- librosa - 用于音频和音乐分析的Python库。
- Yaafe - 音频特征提取。
- aubio - 一个用于音频和音乐分析的库。
- Essentia - 音频和音乐分析、描述和合成的库。
- LibXtract - 一个简单、便携、轻量的音频特征提取函数库。
- Marsyas - 音乐分析、检索和音频信号的合成。
- muda - 一个用于增强标注音频数据的库。
- madmom - 用于音频和音乐信号处理的Python库。
计算机视觉
- torchvision - 专用于计算机视觉的数据集、变换和模型。
- PyTorch3D - PyTorch3D是FAIR用于3D数据深度学习的可重用组件库。
- gluon-cv - 提供计算机视觉领域最先进的深度学习模型的实现。
- KerasCV - 用Keras实现工业级计算机视觉工作流程。
- OpenCV - 开源计算机视觉库。
- Decord - 一个高效的视频加载器,具有智能洗牌功能,非常易于使用。
- MMEngine - OpenMMLab训练深度学习模型的基础库。
- scikit-image - 图像处理SciKit(SciPy的工具箱)。
- imgaug - 机器学习实验的图像增强。
- imgaug_extension - imgaug的额外增强功能。
- Augmentor - 用于机器学习的Python图像增强库。
- albumentations - 快速图像增强库和易于使用的其他库封装。
- LAVIS - 一个面向语言-视觉智能的一站式库。
时间序列
- sktime - 用于时间序列机器学习的统一框架。
- darts - 一个用于轻松操作和预测时间序列的Python库。
- statsforecast - 使用统计和计量经济模型进行快速预测。
- mlforecast - 可扩展的基于机器学习的时间序列预测。
- neuralforecast - 可扩展的基于机器学习的时间序列预测。
- tslearn - 专用于时间序列数据的机器学习工具包。
- tick - 侧重于时间依赖建模的统计学习模块。
- greykite - 一个灵活、直观、快速的预测库。
- Prophet - 自动预测程序。
- PyFlux - 开源的Python时间序列库。
- bayesloop - 用于时间变量参数模型的概率编程框架,便于客观模型选择。
- luminol - 异常检测和关联库。
- dateutil - 对标准datetime模块的强大扩展。
- maya - 使解析字符串和更改时区变得非常容易。
- Chaos Genius - 用于异常/异常检测和根本原因分析的机器学习驱动分析引擎。
强化学习
- Gymnasium - 一个单代理强化学习环境的API标准,包含流行的参考环境和相关工具(前称为Gym)。
- PettingZoo - 一个多代理强化学习环境的API标准,包含流行的参考环境和相关工具。
- MAgent2 - 一个高性能的多代理环境引擎,支持非常大量的代理,并包含一套参考环境。
- Stable Baselines3 - 基于OpenAI Baselines的强化学习算法改进实现集。
- Shimmy - 一个流行的外部强化学习环境的API转换工具。
- EnvPool - 基于C++的高性能并行环境执行引擎(矢量化环境),适用于通用RL环境。
- RLlib - 可扩展的强化学习。
- Tianshou - 基于PyTorch的优雅深度强化学习库。
- Acme - 一套强化学习组件和代理库。
- Catalyst-RL - 用于RL研究的PyTorch框架。
- d3rlpy - 一个离线深度强化学习库。
- DI-engine - OpenDILab决策人工智能引擎。
- TF-Agents - 用于TensorFlow的强化学习库。
- TensorForce - 一个用于应用强化学习的TensorFlow库。
- TRFL - TensorFlow强化学习。
- Dopamine - 用于快速原型强化学习算法的研究框架。
- keras-rl - 用于Keras的深度强化学习。
- garage - 一个用于可重复强化学习研究的工具包。
- Horizon - 一个用于应用强化学习的平台。
- rlpyt - 在PyTorch中进行强化学习。
- cleanrl - 具有研究友好特性的高质量单文件深度强化学习算法实现(包括PPO, DQN, C51, DDPG, TD3, SAC, PPG)。
- Machin - 一个为PyTorch设计的强化库。
- SKRL - 模块化的强化学习库(基于PyTorch和JAX),支持NVIDIA Isaac Gym、Isaac Orbit和Omniverse Isaac Gym。
- Imitation - 清晰的基于PyTorch的模仿学习和奖励学习算法实现。
图机器学习
- pytorch_geometric - PyTorch的几何深度学习扩展库。
- pytorch_geometric_temporal - PyTorch Geometric的时间扩展库。
- PyTorch Geometric Signed Directed - 一个适用于PyTorch Geometric的有符号/有向图神经网络扩展库。
- dgl - 基于现有深度学习框架的图深度学习Python包。
- Spektral - 图上的深度学习。
- StellarGraph - 图上的机器学习。
- Graph Nets - 在TensorFlow中构建图网。
- TensorFlow GNN - 一个在TensorFlow平台上构建图神经网络的库。
- Auto Graph Learning - 用于图机器学习的AutoML框架和工具包。
- PyTorch-BigGraph - 从大规模图结构数据中生成嵌入。
- Auto Graph Learning - 用于图机器学习的AutoML框架和工具包。
- Karate Club - 一个用于处理图结构数据的无监督机器学习库。
- Little Ball of Fur - 一个用于采样图结构数据的库。
- GreatX - 一个基于PyTorch和PyTorch Geometric(PyG)的图可靠性工具箱。
- Jraph - 一个基于Jax的图神经网络库。
学习排序与推荐系统
- LightFM - LightFM的Python实现,一个混合推荐算法。
- Spotlight - 使用PyTorch的深度推荐模型。
- Surprise - 一个用于构建和分析推荐系统的Python scikit库。
- RecBole - 一个统一、全面且高效的推荐库。
- allRank - 基于PyTorch的学习排序神经模型训练框架。
- TensorFlow Recommenders - 一个使用TensorFlow构建推荐系统模型的库。
- TensorFlow Ranking - 使用TensorFlow进行学习排序。
概率图模型
- pomegranate - 用于Python的概率和图模型。
- pgmpy - 一个用于处理概率图模型的Python库。
- pyAgrum - 通用图形建模器。
概率方法
- pyro - 基于PyTorch构建的灵活、可扩展的深度概率编程库。
- PyMC - Python中的贝叶斯随机建模。
- ZhuSuan - 贝叶斯深度学习。
- GPflow - TensorFlow中的高斯过程。
- InferPy - 轻松实现深度概率建模。
- PyStan - 使用No-U-Turn采样器的贝叶斯推理(Python接口)。
- sklearn-bayes - 使用scikit-learn API进行贝叶斯机器学习的Python包。
- skpro - 由艾伦·图灵研究所开发的用于概率建模的监督性领域无关预测框架。
- PyVarInf - 使用变分推理进行贝叶斯深度学习方法的PyTorch实现。
- emcee - 用于仿射不变MCMC的Python组合采样工具包。
- hsmmlearn - 一个具有显式时间长度的隐马尔可夫模型库。
- pyhsmm - 使用贝叶斯进行HSMM和HMM的推理。
- GPyTorch - 在PyTorch中实现高效、模块化的高斯过程。
- sklearn-crfsuite - 一个受scikit-learn启发的CRFsuite API。
模型解释
- dalex - 为探索和解释模型而设计的语言。
- Shapley - 一个数据驱动的框架,用于量化机器学习集成中分类器的价值。
- Alibi - 用于监控和解释机器学习模型的算法。
- anchor - 为“高精度模型无关解释”论文编写的代码。
- aequitas - 偏见和公平性审计工具包。
- Contrastive Explanation - 对比解释(Foil Trees)。
- yellowbrick - 用于促进机器学习模型选择的视觉分析和诊断工具。
- scikit-plot - 一个直观的库,用于为scikit-learn对象添加绘图功能。
- shap - 用于解释任何机器学习模型输出的统一方法。
- ELI5 - 用于调试/检查机器学习分类器并解释其预测的库。
- Lime - 用于解释任何机器学习分类器的预测。
- FairML - 一个用于审计机器学习模型偏见的Python工具箱。
- L2X - 用于复现论文《学习解释:基于信息论的模型解释》的实验代码。
- PDPbox - 部分依赖图工具包。
- PyCEbox - Python个体条件期望图工具箱。
- Skater - 用于模型解释的Python库。
- model-analysis - TensorFlow的模型分析工具。
- themis-ml - 一个实现公平意识机器学习算法的库。
- treeinterpreter - 解释scikit-learn的决策树和随机森林预测。
- AI Explainability 360 - 数据和机器学习模型的可解释性和解释性。
- Auralisation - 学习特征在CNN(用于音频)中的可听化。
- CapsNet-Visualization - 可视化CapsNet层以更好地理解其工作原理。
- lucid - 用于神经网络可解释性研究的基础设施和工具集合。
- Netron - 深度学习和机器学习模型的可视化工具(没有Python代码,但可视化大多数Python深度学习框架的模型)。
- FlashLight - 神经网络的可视化工具。
- tensorboard-pytorch - PyTorch的Tensorboard(以及chainer、mxnet、numpy等)。
遗传编程
- gplearn - 用Python实现的遗传编程。
- PyGAD - 用Python实现的遗传算法。
- DEAP - 用Python实现的分布式进化算法。
- karoo_gp - 一个支持GPU的Python遗传编程平台。
- monkeys - 一个强类型的Python遗传编程框架。
- sklearn-genetic - 用于scikit-learn的遗传特征选择模块。
优化
- Optuna - 超参数优化框架。
- pymoo - Python中的多目标优化。
- pycma - CMA-ES的Python实现。
- Spearmint - 贝叶斯优化。
- BoTorch - PyTorch中的贝叶斯优化。
- scikit-opt - 优化的启发式算法。
- sklearn-genetic-opt - 使用进化算法进行超参数调整和特征选择。
- SMAC3 - 基于序列模型的算法配置。
- Optunity - 包含各种超参数调优优化器的库。
- hyperopt - Python中分布式异步超参数优化。
- hyperopt-sklearn - sklearn的超参数优化。
- sklearn-deap - 在scikit-learn中使用进化算法代替网格搜索。
- sigopt_sklearn - 针对scikit-learn方法的SigOpt封装器。
- Bayesian Optimization - 使用高斯过程的全局优化的Python实现。
- SafeOpt - 安全的贝叶斯优化。
- scikit-optimize - 具有
scipy.optimize
接口的基于序列模型的优化。 - Solid - 用Python编写的全面的无梯度优化框架。
- PySwarms - 用于Python的粒子群优化研究工具包。
- Platypus - 一个用于多目标优化的免费开源Python库。
- GPflowOpt - 使用GPflow的贝叶斯优化。
- POT - Python最优传输库。
- Talos - Keras模型的超参数优化。
- nlopt - 非线性优化库(全局和局部,有约束和无约束)。
- OR-Tools - Google的开源优化软件套件;提供了统一的编程接口给半打求解器:SCIP、GLPK、GLOP、CP-SAT、CPLEX和Gurobi。
特征工程
通用
- Featuretools - 自动化特征工程。
- Feature Engine - 具有sklearn类似功能的特征工程包。
- OpenFE - 具有专家级性能的自动化特征生成。
- skl-groups - 一个操作基于集合/群体特征的scikit-learn插件。
- Feature Forge - 创建和测试机器学习特征的一套工具。
- few - sklearn的特征工程封装库。
- scikit-mdr - 兼容sklearn的基于多因子维度减少(MDR)技术的特征构造Python实现。
- tsfresh - 自动提取时间序列中的相关特征。
- dirty_cat - 对脏的表格格式数据进行机器学习(特别是基于字符串的分类和回归变量)。
- NitroFE - 滑动窗口特征。
- sk-transformer - 一系列兼容pandas和scikit-learn的转换器,用于各种预处理和特征工程步骤。
特征选择
- scikit-feature - Python中的特征选择库。
- boruta_py - Boruta所有相关特征选择方法的实现。
- BoostARoota - 一个快速的xgboost特征选择算法。
- scikit-rebate - 兼容scikit-learn的ReBATE套件的Python实现,一组基于Relief的机器学习特征选择算法。
- zoofs - 基于进化算法的特征选择库。
可视化
通用用途
- Matplotlib - 用Python进行绘图。
- seaborn - 使用matplotlib进行统计数据可视化。
- prettyplotlib - 无痛创建漂亮的matplotlib图表。
- python-ternary - 用matplotlib进行三元绘图的库。
- missingno - Python的缺失数据可视化模块。
- chartify - 使数据科学家能够轻松创建图表的Python库。
- physt - 改进的直方图。
互动图表
- animatplot - 基于matplotlib的Python动画绘图包。
- plotly - 一个创建互动和出版质量图表的Python库。
- Bokeh - 用Python进行互动web绘图。
- Altair - Python的声明式统计可视化库。可以在代码中轻松进行许多数据转换以创建图表。
- bqplot - 适用于IPython/Jupyter笔记本的绘图库。
- pyecharts - 从Echarts移植的交互式可视图和数据可视化库。
地图
自动绘图
自然语言处理(NLP)
- pyLDAvis: 交互式主题模型的可视化。
部署
- fastapi - 现代、高效(高性能)的web框架,用于构建Python API。
- streamlit - 使部署机器学习模型变得容易。
- streamsync - 前端无代码,后端Python。一个用于创建数据应用程序的开源框架。
- gradio - 用Python在3分钟内为你的机器学习模型创建用户界面。
- Vizro - 一个用于创建模块化数据可视化应用程序的工具包。
- datapane - 一组API,将脚本和笔记本转换为交互式报告。
- binder - 启用共享和执行Jupyter笔记本。
统计
- pandas_summary - pandas数据框架描述函数的扩展。
- Pandas Profiling - 从pandas DataFrame对象创建HTML概要报告。
- statsmodels - Python中的统计建模和计量经济学。
- stockstats - 提供一个基于
pandas.DataFrame
的StockDataFrame
包装器,支持内联股票统计/指标。 - weightedcalcs - 一个基于pandas的工具,用于计算加权平均值、中位数、分布、标准差等。
- scikit-posthocs - 成对多重比较事后检验。
- Alphalens - 预测(alpha)股票因子的表现分析。
数据处理
数据框架
- pandas - 强大的Python数据分析工具包。
- polars - 一个快速多线程、混合外存的数据框架库。
- Arctic - 高性能时间序列和交易数据存储库。
- datatable - Python的数据表。
- pandas_profiling - 从pandas DataFrame对象创建HTML概要报告
- cuDF - GPU数据框架库。
- blaze - 面向大数据的NumPy和pandas接口。
- pandasql - 允许你使用SQL语法查询pandas DataFrame。
- pandas-gbq - pandas谷歌大查询。
- xpandas - 阿兰·图灵研究所开发的通用1d/2d数据容器,具有用于数据分析的转换功能。
- pysparkling - 一个纯Python实现的Apache Spark的RDD和DStream接口。
- modin - 通过更改一行代码来加速你的pandas工作流。
- swifter - 一个高效地以最快的方式将任何函数应用于pandas数据框或序列的包。
- pandas-log - 一个允许对基本pandas操作提供反馈的包,并查找业务逻辑和性能问题。
- vaex - 针对Python的外存数据框架,能够每秒可视化和探索十亿行大数据。
- xarray - Xarray结合了NumPy和pandas的最佳特性,用于多维数据选择,通过命名维度来补充数字轴标签,使索引例程更直观、简洁、错误更少。
流水线
- pdpipe - pandas数据框架的简单流水线。
- SSPipe - 支持数据框和Numpy、Pytorch的Python管道(|)操作符。
- pandas-ply - pandas的函数式数据操作。
- Dplython - Python版的Dplyr。
- sklearn-pandas - pandas与sklearn的集成。
- Dataset - 帮助你方便地处理你的数据的随机或顺序批次并定义数据处理。
- pyjanitor - 用于数据清理的干净API。
- meza - 一个处理表格数据的Python工具包。
- Prodmodel - 数据科学流水线的构建系统。
- dopanda - 针对在分析环境中使用pandas的提示和技巧。
- Hamilton - 一个适用于数据框生成的小框架,通过惰性评估的Python函数流来应用有向无环图。
数据中心AI
- cleanlab - 在处理混乱的现实世界数据和标签时用作数据质量和机器学习的标准数据中心AI包。
- snorkel - 一种快速生成具有弱监督的训练数据的系统。
- dataprep - 用几行代码在Python中收集、清理和可视化数据。
合成数据
- ydata-synthetic - 一个利用最先进的生成模型生成合成表格和时间序列数据的软件包。
分布式计算
- Horovod - 用于TensorFlow、Keras、PyTorch和Apache MXNet的分布式训练框架。
- PySpark - 将Spark编程模型暴露给Python。
- Veles - 分布式机器学习平台。
- Jubatus - 分布式在线机器学习的框架和库。
- DMTK - 微软分布式机器学习工具包。
- PaddlePaddle - 并行分布式深度学习。
- dask-ml - 分布式和并行机器学习。
- Distributed - Python中的分布式计算。
实验
- mlflow - 开源的机器学习生命周期平台。
- Neptune - 一个轻量级的ML实验追踪、结果可视化和管理工具。
- dvc - 数据版本控制 | 数据和模型的Git | ML实验管理。
- envd - 🏕️ 用于数据科学和AI/ML工程团队的机器学习开发环境。
- Sacred - 一个帮助你配置、组织、记录和重现实验的工具。
- Ax - 自适应实验平台。
数据验证
- great_expectations - 随时了解你的数据的预期。
- pandera - 一个轻量级、灵活且富有表达力的统计数据测试库。
- deepchecks - 在模型开发、部署和生产期间进行ML模型和数据的验证和测试。
- evidently - 从验证到生产评估和监控ML模型。
- TensorFlow Data Validation - 探索和验证机器学习数据的库。
评估
- recmetrics - 用于评估推荐系统的有用指标和图表库。
- Metrics - 机器学习评估指标。
- sklearn-evaluation - 使模型评估变得容易:图表、表格和Markdown报告。
- AI Fairness 360 - 为数据集和ML模型提供公平性指标、解释以及减轻数据集和模型中的偏见的算法。
计算
- numpy - Python 科学计算所需的基础包。
- Dask - 任务调度的并行计算。
- bottleneck - 使用 C 语言编写的快速 NumPy 数组函数。
- CuPy - 类似于 NumPy 的 API,被 CUDA 加速。
- scikit-tensor - 用于多线性代数和张量分解的 Python 库。
- numdifftools - 解决一变量或多变量的自动数值微分问题。
- quaternion - 为 numpy 添加内置的四元数支持。
- adaptive - 用于自适应和并行采样数学函数的工具。
- NumExpr - 一个快速的 NumPy 数值表达式求值器,带有集成的计算虚拟机,通过避免中间结果的内存分配来加速计算。
网络爬虫
- BeautifulSoup: 初学者最易用的静态网站爬取库
- Scrapy: 快速且可扩展的爬虫库。可以编写规则和创建自定义爬虫而无需触及核心
- Selenium: 使用 Selenium Python API 以直观的方式访问 Selenium WebDriver 的所有功能,像真实用户一样操作。
- Pattern: 针对如 Google、Twitter 和 Wikipedia 等知名网站的高级爬取。同时具有 NLP、机器学习算法和可视化功能
- twitterscraper: 高效的 Twitter 抓取库
空间分析
量子计算
- qiskit - Qiskit 是一个用于电路、算法及应用模块的量子计算开放源码 SDK。
- cirq - 用于创建、编辑和调用噪声中等规模量子(NISQ)电路的 Python 框架。
- PennyLane - 量子机器学习、自动微分和混合量子-经典计算的优化。
- QML - 一个用于量子机器学习的 Python 工具包。
转换
- sklearn-porter - 将已训练的 scikit-learn 估计器转译为 C、Java、JavaScript 等。
- ONNX - 开放神经网络交换。
- MMdnn - 一组用于帮助用户在不同的深度学习框架之间互操作的工具。
- treelite - 决策树森林的通用模型交换和序列化格式。
贡献
欢迎贡献!:sunglasses:
阅读 <a href=https://github.com/krzjoa/awesome-python-datascience/blob/master/CONTRIBUTING.md>贡献指南。
许可证
本作品采用知识共享署名 4.0 国际许可证 - CC BY 4.0进行许可。