Project Icon

dagster

全生命周期数据管道编排工具 支持云原生部署

Dagster是一款支持云原生部署的数据管道编排工具,覆盖全生命周期开发。该工具集成了数据血缘追踪和可观察性功能,采用声明式编程模型,并提供出色的可测试性。Dagster能够帮助开发和维护各类数据资产,包括数据表、数据集、机器学习模型和报告等。开发者可通过Python函数声明数据资产的构建方式,Dagster会自动管理函数执行时机并保持资产更新。这一工具适用于从本地开发到生产环境的全过程,并与现代数据技术栈广泛集成。

Dagster 是一个面向整个开发生命周期的云原生数据管道编排工具,集成了血缘分析和可观察性,采用声明式编程模型,并具有同类最佳的可测试性。

它专为开发和维护数据资产而设计,如表格、数据集、机器学习模型和报告。

使用 Dagster,您可以通过 Python 函数声明要构建的数据资产。然后,Dagster 帮助您在适当的时间运行这些函数,并保持资产的最新状态。

以下是一个用 Python 定义的三个资产的图示例:

from dagster import asset
from pandas import DataFrame, read_html, get_dummies
from sklearn.linear_model import LinearRegression

@asset
def country_populations() -> DataFrame:
    df = read_html("https://tinyurl.com/mry64ebh")[0]
    df.columns = ["country", "pop2022", "pop2023", "change", "continent", "region"]
    df["change"] = df["change"].str.rstrip("%").str.replace("−", "-").astype("float")
    return df

@asset
def continent_change_model(country_populations: DataFrame) -> LinearRegression:
    data = country_populations.dropna(subset=["change"])
    return LinearRegression().fit(get_dummies(data[["continent"]]), data["change"])

@asset
def continent_stats(country_populations: DataFrame, continent_change_model: LinearRegression) -> DataFrame:
    result = country_populations.groupby("continent").sum()
    result["pop_change_factor"] = continent_change_model.coef_
    return result

在 Dagster 的 Web 界面中加载的图:

在 Dagster 界面中渲染的资产图示例

Dagster 旨在用于数据开发生命周期的每个阶段 - 从本地开发、单元测试、集成测试、预发环境,一直到生产环境。

快速入门:

如果您是 Dagster 新手,我们建议阅读其核心概念或通过实践教程学习。

Dagster 可在 PyPI 上获得,并正式支持 Python 3.8 至 Python 3.12。

pip install dagster dagster-webserver

这将安装两个包:

  • dagster:核心编程模型。
  • dagster-webserver:托管 Dagster Web 界面的服务器,用于开发和操作 Dagster 作业和资产。

使用搭载 Apple 芯片的 Mac?请查看这里的安装详情

文档

您可以在这里找到完整的 Dagster 文档,包括"入门指南"


主要特性:

image

Dagster 作为生产力平台

使用声明式方法确定需要创建的关键资产,或者专注于运行基本任务。从一开始就采用 CI/CD 最佳实践:构建可重用组件,发现数据质量问题,并及早标记错误。

Dagster 作为强大的编排引擎

使用一个强大的多租户、多工具引擎将您的管道投入生产,该引擎在技术和组织上都能扩展。

Dagster 作为统一控制平面

随着复杂性增加,保持对数据的控制。将您的元数据集中在一个工具中,该工具内置可观察性、诊断、编目和血缘分析。发现任何问题并识别性能改进机会。


通过集成掌握现代数据栈

Dagster 为当今最流行的数据工具提供了不断增长的集成库。与您已在使用的工具集成,并部署到您的基础设施中。


image

社区

与数千名使用 Dagster 构建的其他数据从业者联系。分享知识、获取帮助,并为开源项目做出贡献。要查看精选材料和即将举行的活动,请查看我们的 Dagster 社区页面。

通过以下方式加入我们的社区:

贡献

有关贡献或为开发运行项目的详细信息,请查看我们的贡献指南

许可证

Dagster 采用 Apache 2.0 许可证

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号