介绍
你好。我是Shanmukha Sainath,在KLA Corporation担任AI工程师。我在IIT Kharagpur的电子与电气通信工程系获得了学士学位。
联系我:
我为什么要做这个?
互联网世界很大,学习新事物的资源也是如此。有很多免费和付费的资源可以学习机器学习。手中有很多选择会让人困惑,很难选择最好的一个(经验之谈)。所以,我收集了最好的资源来开始机器学习并在这一领域继续发展职业生涯。
欢迎反馈和建议 :)
前提条件
- 数学
- 线性代数
- 矩阵代数
- 概率与统计
- 微积分
- 编程基础
- 数据结构和算法
- 编程语言
- Python
详情
MIT的18.06线性代数课程是学习线性代数基础的最佳课程
详情
Khan Academy的矩阵课程是学习矩阵代数基础的最佳课程
详情
Khan Academy的统计和概率课程是最好的课程。
详情
微分计算是学习微分计算基础的最佳课程。
详情
MIT的6.006算法简介课程是学习数据结构和算法基本知识的课程。
详情
Python教程是学习Python基础语法的最佳地方。
机器学习
- 课程
- Andrew Ng的机器学习专业(新课程🆕) : Coursera。
- 机器学习A-Z : Udemy。
- 书籍
- 模式识别与机器学习:Christopher Bishop
- 统计学习简介:Gareth M. James, Daniela Witten, Trevor Hastie 和 Robert Tibshirani
- 实战机器学习:使用Scikit-Learn和TensorFlow:Aurelien Geron
深度学习
- 课程
- Andrew Ng的深度学习专业 : Coursera
- Yann LeCun的深度学习与PyTorch : YouTube
- Jeremy Howard的fast.ai深度学习课程 : fast.ai
- 书籍
- 深度学习: Ian Goodfellow, Yoshua Bengio 和 Aaron Courville
- 用Python进行深度学习:François Chollet
- 实战机器学习:使用Scikit-Learn和TensorFlow: Aurelien Geron
- 深入学习:亚马逊科学家
框架/库
"没有教程/课程能好过文档:)"
但是我会分享一些学习其他库的资源来快速掌握它们。每当你在某个功能或实现上遇到困难时,最好参考文档
/ 教程
/ 代码
,这些都在官方网站上。
- 表格数据
- Pandas
- 图像数据
- 文本数据
- NLTK
- SpaCy
- Matplotlib
- Seaborn
- Plotly
- Scikit-Learn
- fast.ai
- PyTorch
- TensorFlow
- 竞赛
- Kaggle
- ML 竞赛
- 机器学习黑客松平台列表
- 研究
- 带代码的论文
- YouTube 频道
- 博客
- 研究论文
- 数据集
- 大学讲座
-
CS231n : 计算机视觉
-
CS224n : 自然语言处理
-
CS224W : 图形机器学习
-
CS285 : 强化学习
-
llm-course : 学习 LLMs 的综合资源
- 新闻通讯
- 关注的人/页面
- Medium
- 云 GPUs
- 加入这些社区
-
Yannic Kilcher (Discord)
-
CORD.ai (Slack)
-
MLSpace: 机器学习社区 (Abhishek Thakur) (Discord)
-
Weights & Biases: 训练和微调模型,从实验到生产管理模型
-
Hugging Face: 机器学习社区在此平台上协作处理模型、数据集和应用。
-
PyTorch Lightning: PyTorch Lightning 是为需要最大灵活性而不牺牲性能的专业 AI 研究人员和机器学习工程师提供的深度学习框架。
-
AutoMl 库: PyCaret, H2o AutoML, AutoKeras, FLAML
-
LangChain: LangChain 是一个框架,旨在简化使用大型语言模型创建应用程序的过程。
处理数组
数据预处理
详情
pandas是一个快速、强大、灵活且易于使用的开源数据分析和操作工具,构建在Python编程语言之上。要了解更多关于Pandas的使用和优势,请访问软件包概述页面
这将有助于熟悉Pandas的一些常见操作。详情
NLTK是一个用于构建Python程序以处理人类语言数据的领先平台。它提供了超过50个语料库和词汇资源,如WordNet,以及一套用于分类、标记、词干提取、解析和语义推理的文本处理功能,还包括用于工业级NLP库的封装
这将有助于熟悉NLTK的一些常见操作。详情
Seaborn 是一个基于 matplotlib 的 Python 数据可视化库。它提供了一个高层次接口,用于绘制美观且信息丰富的统计图表。
请参考官方教程以获取更多详情和实现。 参考图库,了解 Seaborn 中各种图表类型。详情
Plotly 的 Python 绘图库可制作交互式、出版质量的图表。示例包括如何制作折线图、散点图、面积图、条形图、误差条、箱线图、直方图、热图、子图、多轴图、极坐标图和气泡图。
机器学习
详情
Scikit-learn 是一个用于 Python 编程语言的免费软件机器学习库。它具有各种分类、回归和聚类算法。它设计为与 Python 数值和科学库 NumPy 和 SciPy 互操作。
请参考官方教程以获取更多详情和实现。使用 Scikit-Learn 入门机器学习 和 Scikit-learn 的 50 个提示 是由 Data School
提供的最佳免费课程,用于学习 Scikit-Learn。
深度学习
详情
fastai 是一个深度学习库,它为从业者提供了可以快速轻松地在标准深度学习领域中实现最新结果的高级组件,并为研究人员提供了可以混合和匹配以构建新方法的低级组件。查看 关于 fastai 页面 以获取更多信息。
请参考官方教程以获取更多详情和实现。详情
TensorFlow 是一个由 Google
开发的深度学习框架。它是一个免费且开源的软件库,用于机器学习和人工智能。它可以用于各种任务,但特别关注深度神经网络的训练和推理。
接下来做什么?
详情
Kaggle 是最大的数据科学社区,在这里可以分享你的工作、参与竞赛、从免费课程中学习等等。
为了从 Kaggle 中获得更多收益,参加任何你感兴趣领域的竞赛。竞赛主要分为 3 类:Tabular
、计算机视觉
、NLP
。如果没有任何活跃的竞赛,尝试参加你感兴趣的过去的竞赛。如果在任何时候遇到困难,可以参考公开的笔记本或在讨论区发布。Kaggle 上有大量数据集。你也可以下载数据集并启动自己的项目。
这个网站包含了各个平台上正在进行的机器学习竞赛列表。
这篇由 Vetrivel PS 撰写的博客列出了数据科学竞赛平台列表。
详情
带代码的论文
是一个免费且开放的资源,包含机器学习论文、代码、数据集、方法和评估表。
Papers with Code 的所有内容都划分为类别,便于获取特定的论文。进入你感兴趣的类别/领域(浏览最新技术
)。根据基准数据集、最多实现或库,选择任何论文。你还可以找到各种框架的代码实现。
阅读论文。用你喜欢的框架实现算法/模型。用虚拟数据进行训练以检查。进入研究的最佳方式。