准备数据工程师面试的2000多个问题。
问题完整列表
数据工程师面试问题
数据库和数据仓库 | |||||
---|---|---|---|---|---|
GitHub仓库 | 官方页面 | 问题 | 描述 | 有用链接 | |
Apache Cassandra | Cassandra是一个分布式、宽列存储的NoSQL数据库管理系统。 | Awesome Cassandra | |||
Greenplum | Greenplum是一个基于MPP架构和Postgres开源数据库技术的大数据技术。 | Awesome Greenplum | |||
MongoDB | MongoDB是一个面向文档的数据库。 | Awesome MongoDB | |||
Apache Hbase | HBase是一个开源的非关系型分布式数据库。 | Awesome HBase | |||
Apache Hive | Apache Hive是一个建立在Apache Hadoop之上的数据仓库软件项目,用于提供数据查询和分析。 | Awesome Hive | |||
Amazon DynamoDB | Amazon DynamoDB是一个完全托管的专有NoSQL数据库服务。 | Awesome DynamoDB Awesome AWS | |||
Amazon Redshift | Amazon Redshift是一个数据仓库产品。 | Amazon Redshift Utilities Awesome AWS | |||
BigQuery GCP | BigQuery是一个全托管、无服务器的数据仓库。 | Awesome BigQuery | |||
Bigtable GCP | Bigtable是一个完全托管的宽列和键值NoSQL数据库服务。 | Awesome Bigtable | |||
数据格式 | |||||
Apache Avro | Avro是一个面向行的远程过程调用和数据序列化框架。 | Awesome Avro | |||
Apache Parquet | Apache Parquet是一种为高效数据存储和检索而设计的面向列的数据文件格式。 | TODO | |||
Delta | Delta Lake是一个存储框架,可以使用计算引擎构建Lakehouse架构 | Delta examples | |||
大数据框架 | |||||
Apache Airflow | Apache Airflow是一个用于数据工程管道的工作流管理平台。 | Awesome Airflow | |||
Apache Flume | Apache Flume是一个分布式、可靠且可用的软件,用于高效收集、聚合和移动大量日志数据。 | TODO | |||
Apache Hadoop | Apache Hadoop是一个软件工具集合,可以利用多台计算机的网络来解决涉及海量数据和计算的问题。 | Awesome Hadoop | |||
Apache Impala | Apache Impala是一个用于查询存储在运行Apache Hadoop的计算机集群中数据的并行处理SQL查询引擎。 | 待办 | |||
Apache Kafka | Apache Kafka是一个分布式事件存储和流处理平台。 | 优秀的Kafka资源 | |||
Apache NiFi | Apache NiFi是一个旨在自动化软件系统之间数据流的软件项目。 | 优秀的NiFi资源 | |||
Apache Spark | Apache Spark是用于大规模数据处理的统一分析引擎。 | 优秀的Spark资源 | |||
Apache Flink | Apache Flink是统一的流处理和批处理框架。 | 优秀的Flink资源 | |||
Kubernetes | Kubernetes是一个用于在多个主机上管理容器化应用程序的系统。 | 优秀的Kubernetes资源 | |||
云服务提供商 | |||||
亚马逊网络服务 | 亚马逊网络服务是一个提供可扩展和经济高效的云计算解决方案的在线平台。 | 优秀的AWS资源 | |||
微软Azure | 微软Azure是微软的公共云计算平台。 | 优秀的Azure资源 | |||
谷歌云平台 | 谷歌云平台是一套云计算服务。 | 优秀的GCP资源 | |||
理论 | |||||
数据仓库架构 | 数据仓库架构是一种定义企业内部最终客户计算的数据通信处理和展示的整体架构的方法。 | 优秀的数据库资源 | |||
数据结构 | 数据结构是一种用于组织、处理、检索和存储数据的专门格式。 | 待办 | |||
SQL | SQL是一种在编程中使用的领域特定语言,设计用于管理关系数据库管理系统(RDBMS)中保存的数据。 | 优秀的SQL资源 | |||
数据可视化工具/商业智能 | |||||
Tableau | Tableau是商业智能中使用的强大数据可视化工具。 | 待办 | |||
Looker | Looker是一个用于商业智能、数据应用和嵌入式分析的企业平台,帮助您实时探索和共享见解。 | 待办 | |||
Apache Superset | Superset是一个现代化的数据探索和数据可视化平台 | 待办 |