数据科学入门
这是一系列为数据科学家准备的Jupyter笔记本、HTML和JS代码集合。
关于各个脚本的评论可以在我的Medium博客以及我的网站上找到。
编程语言
- Python 3.X
- HTML5
- Javascript,重点是D3.JS
- CSS
其他有趣的教程可以在我的Observable个人主页上找到。
作者
文档
本项目按不同主题分为多个文件夹:
- 数据收集 - 从HTML、Twitter、PDF等提取数据
- 预处理 - 处理缺失数据、重复数据、标准化、分箱等
- 数据分析 - scikit-learn和PyCaret的完整工作流程,以及过拟合、自动机器学习等
- 文本分析 - 情感分析等
- 数据可视化 - Altair、Plotly、D3.js等示例
- 数据叙事 - 如何改进数据可视化