#数据工程
llm-twin-course - 构建生产级AI副本从设计到部署的全面实战课程
LLM Twin生产就绪AI副本LLMOps数据工程部署Github开源项目
LLM Twin Course是一个免费课程,旨在指导学员如何设计、训练并部署生产级LLM副本。参与者将了解基于LLMOps最佳实践来构建适用于实际应用的LLM系统,涵盖从数据采集、特征处理到训练和推理的完整开发流程,并熟悉实验跟踪、模型注册和版本控制等核心MLOps技术。该课程适合有基础Python、机器学习及云服务经验的MLE、DE、DS或SWE专业人士。
applied-ml - 精选数据科学与机器学习应用案例研究和博客
机器学习数据工程特征存储推荐系统数据质量Github开源项目
通过精选的论文、文章和博客,学习企业如何实施数据科学与机器学习项目。了解不同公司对问题的定义、所采用的机器学习技术、背后的科学原理,以及所取得的商业成果,以便更好地评估投资回报。同时还包括最新的机器学习研究进展和实用指南。
data-engineer-handbook - 数据工程学习资源与行业洞察的综合指南
数据工程资源社区公司博客Github开源项目
该项目汇集了数据工程领域的丰富资源,包括推荐书籍、社区平台、公司简介、技术博客、白皮书、视频频道、播客和新闻通讯等。内容涵盖数据工程的方方面面,从入门基础到高阶主题,为数据工程从业者和学习者提供了全面的学习材料和行业洞察。无论是初学者还是资深专业人士,都能在此找到提升技能和把握行业动态的有价值信息。
data-engineering-interview-questions - 2000多道数据工程面试题集 助力大数据职业发展
数据工程数据库大数据框架云服务ApacheGithub开源项目
该项目收集整理了2000多个数据工程师面试问题,涵盖数据库、数据仓库、大数据框架、云服务等多个领域。除详细问题清单外,还提供各技术的官方链接和学习资源,为数据工程师备战面试和技能提升提供全面支持。
resources-to-become-a-great-engineering-leader - 工程领导力提升资源集锦 助力2024年职业发展
工程领导系统设计软件工程产品思维数据工程Github开源项目
此资源集锦针对工程领导者精心打造,内容涉及软件工程、系统设计、数据工程、领导力和管理等核心领域。汇集100余种精选学习材料,包括权威书籍、行业通讯、专业博客和专家推荐。项目为工程师提供系统化学习路径,助力其在2024年提升领导能力,实现职业飞跃。
data-engineering-roadmap - 数据工程师职业发展路线图
DataBurst数据工程路线图开源协作Github开源项目
data-engineering-roadmap是一个开源项目,为数据工程师提供全面的职业发展路线图。该项目涵盖从初级到高级的所有层次,提供行业指导和最佳实践。作为一个动态文档,项目欢迎社区贡献,持续优化以服务整个数据工程领域。
data-engineering-zoomcamp - 全面掌握数据工程核心技术与实践
数据工程Zoomcamp课程内容在线学习DockerGithub开源项目
Data Engineering Zoomcamp是一个全面的数据工程在线课程,涵盖容器化、工作流编排、数据仓库、分析工程、批处理和流处理等关键领域。课程通过实践项目教授Docker、Terraform、Mage、BigQuery、dbt、Spark和Kafka等主流工具的应用。由行业专家授课,适合具备基础编程和SQL技能的学习者。课程提供自学和定期cohort两种学习模式,为期数周。
Dflux - 整合数据科学工具 实现快速分析洞察
AI工具Dflux数据科学平台数据工程机器学习数据分析
Dflux整合了数据连接、工程处理、模型开发和可视化分析等功能于一体的数据科学平台。它提供端到端的数据处理和智能分析解决方案,支持无代码机器学习,适合各类用户高效进行数据分析和洞察挖掘。平台还具备交互式仪表板和自动化决策功能,有助于企业实现客户留存和业务增长。
Heimdall - 综合无代码平台简化机器学习模型的构建和管理
AI工具Heimdall机器学习数据科学数据工程无代码平台
Heimdall是一个无代码机器学习平台,致力于普及机器学习技术。平台提供一站式解决方案,支持多种机器学习模型的构建、部署和监控。涵盖数据科学和工程任务,如分类、回归、预测和推荐系统。平台特有的The Forge功能可将非结构化数据转换为特征向量,无需编码即可完成。通过集成多种数据源和直观的界面,Heimdall使各类用户都能轻松应用机器学习技术,促进业务创新和发展。
awesome-data-engineering - 数据工程全面技术资源指南
数据工程数据库数据处理大数据数据存储Github开源项目
本资源列表全面覆盖数据工程领域,包括数据库、数据摄取、文件系统和序列化格式等核心技术。汇集Kafka、Hadoop、Spark等主流开源项目和创新解决方案,为数据工程实践提供系统性参考。内容涵盖从基础设施到前沿技术,是数据工程师深入学习和技术选型的重要指南。
data-centric-AI - 数据工程革新人工智能的新兴领域
Data-centric AI机器学习数据工程AI系统数据质量Github开源项目
Data-centric AI是一个新兴领域,注重通过改善数据质量和数量来提升AI系统性能。这个项目整理了Data-centric AI的全面资源,包含论文、代码和教程等。内容涵盖训练数据开发、推理数据开发和数据维护三大方面,为研究人员和开发者提供了深入了解和应用Data-centric AI概念与技术的宝贵参考。
spark - 实时监控和优化Apache Spark应用性能的开源解决方案
DataFlintApache Spark性能监控开源工具数据工程Github开源项目
DataFlint是专为Apache Spark开发的开源数据应用性能监控(D-APM)工具。它提供实时查询和集群状态监控、性能热图、应用运行摘要等功能,并能发出性能警报和优化建议。DataFlint可快速安装,基于Spark UI基础设施运行,旨在帮助大数据工程师高效解决性能问题和调试故障,为Spark应用带来类似传统APM解决方案的使用体验。
Data-Engineering-Roadmap - 数据工程师成长路线图及关键技能学习资源
数据工程编程语言数据库数据处理机器学习Github开源项目
该项目提供了一个系统化的数据工程学习路线图,涵盖编程语言、SQL、数据库、数据处理、集群计算、数据可视化等核心领域。路线图内容丰富,包括Linux系统、数据结构与算法、数据库基础、SQL、NoSQL、数据处理、集群计算、数据仓库、数据可视化等。同时涵盖了CI/CD、云计算、机器学习等相关技术,为构建完整的数据工程知识体系提供了全面指导。它推荐了各方面的学习资源和实用工具,旨在帮助学习者全面掌握数据工程技能,而非仅追随热点。路线图适合不同水平的学习者,为数据工程职业发展提供了清晰指导。
data-engineering-wiki - 数据工程开源学习平台与社区知识库
数据工程wikiGitHub开源项目学习资源Github
Data Engineering Wiki是数据工程社区维护的开源知识库,汇集概念解释、常见问题、决策指南、工具介绍、教程等全面实用资源。支持离线使用和知识管理工具集成,鼓励社区贡献,持续更新。这个系统化的平台致力于成为权威的数据工程学习场所,为初学者和专业人士提供全面的学习体验。
awesome-opensource-data-engineering - 全面的数据工程开源项目资源库
开源数据工程数据处理数据分析数据管理Github开源项目
该资源库汇集了数据工程领域的开源项目,覆盖数据分析、业务智能、数据湖和数据治理等方面。包含Apache Spark、Flink等分析工具,Debezium、Kafka等数据捕获和消息系统,以及各种数据格式、集成工具和工作流管理系统。为数据工程实践提供了全面的开源解决方案参考。
相关文章