Project Icon

Data-Engineering-Roadmap

数据工程师成长路线图及关键技能学习资源

该项目提供了一个系统化的数据工程学习路线图,涵盖编程语言、SQL、数据库、数据处理、集群计算、数据可视化等核心领域。路线图内容丰富,包括Linux系统、数据结构与算法、数据库基础、SQL、NoSQL、数据处理、集群计算、数据仓库、数据可视化等。同时涵盖了CI/CD、云计算、机器学习等相关技术,为构建完整的数据工程知识体系提供了全面指导。它推荐了各方面的学习资源和实用工具,旨在帮助学习者全面掌握数据工程技能,而非仅追随热点。路线图适合不同水平的学习者,为数据工程职业发展提供了清晰指导。

免责声明

本路线图的目的是让您了解整体情况。当您对下一步学习内容感到困惑时,路线图会为您提供指导,而不是鼓励您选择当下流行和热门的内容。您应该对为什么某些工具在某些情况下比其他工具更合适有一定的了解,并记住流行和热门并不总是意味着最适合该工作。

给个星星!:star:

如果您喜欢或正在使用这个项目来学习或开始您的解决方案,请给它一个星星。谢谢!

路线图

路线图

编程语言

学习 Linux

Linux 学习主要分为两个部分:系统管理和 Shell 脚本编程。您可以根据自己的偏好安排学习深度

数据结构和算法 / 系统设计

SQL

有许多免费的在线SQL入门资源可供使用。也有一些付费资源我推荐给初学者,它们非常有效,我认为值得花钱购买。

几点说明:

  • 我并没有使用过所有这些资源,但它们在网上或我自己/同事中都有很好的推荐。
  • 你绝对不需要使用每一个资源。找到几个适合你的,然后好好利用。
  • 如果你有问题随时可以联系我。当人们刚开始问非常技术性的问题时,我总是把这个贴出来 - 这并不是要刻薄 - 而是gentle地指导如何组织你的问题并收集必要的资源,以便最好地给技术人员提供所需信息来获得快速/有效的回答: http://www.mikeash.com/getting_answers.html

基于视频/课程/微课程:

  1. 斯坦福大学自学进度的"数据库"课程

    • 原来的Coursera课程已被转换成一系列自学进度的微课程,内容全面。
  2. Portnov计算机学校"SQL初学者教程" 这是一个微课程(总共约4小时),据说非常不错。 链接:

书籍/教程格式(部分互动):

  1. SQL问题与解决方案 - 互动书籍 "...学生可以提问并得到答案,即使这些答案在教科书中找不到。在某种程度上,互动教科书旨在替代教师/顾问,这在我们看来是在远程学习系统中使用此类教材的必要条件。"

  2. 艰难地学习SQL "本书将教你80%你可能需要有效使用的SQL知识,同时还会介绍数据建模的概念。如果你因为不懂SQL而在构建网络、桌面或移动应用时遇到困难,那么这本书就是为你准备的。它是为没有数据库、编程或SQL知识的人编写的,但至少了解一门编程语言会有帮助。"

  3. GalaXQL "GalaXQL是一个有趣的SQL教程,其中数据库是一个以3D方式呈现的星系。观察星系如何随着你的SQL命令创建、修改和销毁天体而变化。还有什么比这更有趣的呢?"

  4. PostgreSQL教程 "我们开发PostgreSQL教程是为了展示PostgreSQL独特的功能,这些功能使它成为世界上最先进的开源数据库管理系统。此外,我们还将向你展示如何利用这些功能使你的应用更快、更安全。"

  5. 深入浅出SQL 这是一个我多年前学习过的优秀初学者资源。如果你真的想从最基础开始学习,我强烈建议你购买一本。这是一本大书,但字体很大,有练习和图片等。大约需要1-2天就能看完,分散开来可能需要一周左右。 "你的数据是否让你感到沮丧?你的表格是否一团糟?好吧,我们有工具来教你如何驯服你的数据库。《深入浅出SQL》运用神经生物学、认知科学和学习理论的最新研究,创造了一种多感官的SQL学习体验,采用视觉丰富的格式,专为你的大脑工作方式而设计,而不是让你昏昏欲睡的文本密集型方法。 也许你已经写过一些简单的SQL查询来与数据库交互。但现在你想要更多,你想真正深入挖掘这些数据库并处理你的数据。《深入浅出SQL》将向你展示SQL的基础知识,以及如何真正利用它。我们将带你踏上一段语言之旅,从基本的INSERT语句和SELECT查询,到hardcore的数据库操作,如索引、连接和事务。我们都知道"数据就是力量" - 但我们会向你展示如何"掌控你的数据"。当你读完本书时,你可以期待有趣的学习经历,期待学到知识,也期待像专业人士一样查询、规范化和连接你的数据!"

练习资源:

  1. SchemaVerse "SchemaVerse是一个完全在PostgreSQL数据库中实现的基于太空的策略游戏。使用原始SQL命令与其他玩家竞争来指挥你的舰队。或者,如果你的PL/pgSQL功力够强,可以用它来编写AI,让你的舰队自己指挥。"

  2. SqlEx sql-tutorial.ru书籍的扩展,提供练习题。

  3. SQLZoo 一些教程和练习题

  4. PostgreSQL练习 "这个网站诞生于我注意到有大量材料帮助人们学习SQL,但没有太多资源让人们通过实践来轻松学习。PGExercises提供了一系列基于单一简单数据集的问题和解释。它旨在作为优秀书籍或Postgres出色文档的配套使用。 本网站的练习从简单的select和where子句,到连接和case语句,再到聚合、窗口函数和递归查询。大多数还不是专业人士的人都应该能找到一些可以测试自己的内容。"

测试

CI/CD和虚拟化

数据库基础

  • SQL
  • 规范化
  • ACID事务
  • CAP定理
  • OLTP vs OLAP
  • 水平扩展 vs 垂直扩展
  • 维度建模

关系型数据库

非关系型数据库

数据处理

消息队列

集群计算基础

对象存储

数据仓库

数据管道监控

数据可视化

机器学习和深度学习工具

MLOPS工具

云服务

总结

如果你认为这份路线图可以改进,请随时提交PR进行更新或提出问题。我也会继续完善它,所以你可能想给这个仓库加星标以便重新访问。 灵感来源:Python开发者路线图

贡献

该路线图使用Draw.io构建。项目文件可以在DataEngRoadmap.xml文件中找到。要修改它,请打开draw.io,点击打开现有图表并选择项目的xml文件。它将为你打开路线图。更新它,上传并更新readme中的图片,然后创建PR(以400%缩放导出为png,并使用Compressor.io进行压缩)。

  • 提交改进的拉取请求
  • 在问题中讨论想法
  • 传播这个项目
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号