数据工程训练营
- 在DataTalks.Club的Slack上注册
- 加入
#course-data-engineering
频道 - 加入课程Telegram通知频道
- 视频发布在DataTalks.Club的YouTube频道的课程播放列表中
- 常见技术问题
课程大纲
参加课程
2025年cohort
- 开始时间:2025年1月
- 注册链接:https://airtable.com/shr6oVXeQvSI5HuWD
自学模式
课程的所有材料都是免费提供的,你可以按自己的节奏学习
- 按照建议的课程大纲(见下文)每周学习
- 你不需要填写注册表。直接开始观看视频并加入Slack
- 如果遇到问题,请查看FAQ
- 如果在FAQ中找不到问题的解决方案,请在Slack中寻求帮助
课程大纲
我们鼓励公开学习
注意: NYC TLC改变了我们使用的数据格式为parquet。 在课程中我们仍然使用可在此处访问的CSV文件。
模块1:容器化和基础设施即代码
- 课程概述
- GCP简介
- Docker和docker-compose
- 使用Docker在本地运行Postgres
- 使用Terraform在GCP上设置基础设施
- 准备课程环境
- 作业
模块2:工作流编排
- 数据湖
- 工作流编排
- 使用Mage进行工作流编排
- 作业
研讨会1:数据摄取
- 从API读取数据
- 构建可扩展的管道
- 数据规范化
- 增量加载
- 作业
模块3:数据仓库
- 数据仓库
- BigQuery
- 分区和聚类
- BigQuery最佳实践
- BigQuery内部原理
- BigQuery机器学习
模块4:分析工程
- 分析工程基础
- dbt(data build tool)
- BigQuery和dbt
- Postgres和dbt
- dbt模型
- 测试和文档
- 部署到云端和本地
- 使用Google Data Studio和Metabase可视化数据
模块5:批处理
- 批处理
- Spark简介
- Spark数据框
- Spark SQL
- 内部原理:GroupBy和连接
模块6:流处理
- Kafka简介
- 模式(avro)
- Kafka Streams
- Kafka Connect和KSQL
研讨会2:使用SQL进行流处理
项目
将我们学到的所有知识付诸实践
- 第1周和第2周:进行你的项目
- 第3周:同行评审
概览
先决条件
为了充分利用这门课程,你应该对编码和命令行感到舒适,并了解SQL基础知识。有Python经验会有帮助,但如果你有其他编程语言的经验,也可以相对快速地掌握Python。
不需要数据工程的先前经验。
讲师
往届讲师:
在Slack上寻求帮助
获得支持的最佳方式是使用DataTalks.Club的Slack。加入#course-data-engineering
频道。
为了使Slack上的讨论更有组织:
- 寻求帮助时请遵循这些建议
- 阅读DataTalks.Club社区指南
支持者和合作伙伴
感谢课程赞助商使得这门课程成为可能
你想支持我们的课程和社区吗?请联系alexey@datatalks.club