Project Icon

locopy

用于Redshift和Snowflake的Python ETL数据处理库

locopy是一个Python库,用于简化Amazon Redshift和Snowflake的ETL处理。它支持数据加载、复制和卸载操作,提供S3桶和内部存储的数据传输功能。该库兼容多种数据库驱动,支持Python 3.9至3.11版本。locopy提供简洁的API接口,适用于数据工程师和分析师的日常ETL任务。

hopsworks - 基于Python的机器学习特征库和MLOps平台
GithubHopsworksMLOpsML平台云服务开源项目特征存储
Hopsworks 是一个安全且可治理的数据平台,适用于机器学习资产的开发、管理和共享功能。支持特征库和模型管理,以及特征和训练管道的开发及运行。可作为独立特征库,支持云环境和本地部署,并无缝集成 AWS、Azure 和 GCP 等第三方平台。提供丰富的文档和教程以优化使用体验。
meltano - 代码优先的数据集成引擎 解锁多种API和数据库
API集成GithubMeltano开源项目数据工作流数据集成
Meltano是一个代码优先的数据集成引擎,提供600多个API和数据库的访问。它帮助用户简化API集成的编写、维护和扩展过程,支持实现数据和机器学习驱动的产品创意。通过简化跨多个工具的数据工作流程,Meltano为构建理想的数据平台提供了强大支持。
pystore - 快速高效的Pandas时间序列数据存储库
GithubPandasParquetPyStore开源项目数据存储时间序列
PyStore是专为Pandas时间序列数据设计的快速存储库。它利用Pandas、Numpy、Dask和Parquet技术,实现高效的数据存储和查询。支持本地文件系统,每秒可处理数百万行数据。PyStore提供集合管理、快照和元数据查询功能,适合大规模时间序列数据的存储和分析。
sqlglot - SQL解析转译优化和执行引擎
GithubSQLGlotSQL优化器SQL引擎SQL解析器SQL转译器开源项目
SQLGlot是一个功能全面的SQL工具,支持解析、转译、优化和执行SQL。它可以在21种SQL方言间转换,包括DuckDB、Presto和Spark等。SQLGlot能够处理多种SQL输入,并生成符合目标方言语法和语义的SQL输出。该工具采用纯Python实现,具有出色的性能和完善的测试。SQLGlot还支持自定义解析、查询分析、表达式树遍历和编程式SQL构建等高级功能。
whylogs - 开源数据日志库 追踪分析数据变化与质量
GithubWhyLabswhylogs开源项目数据日志数据概要机器学习监控
whylogs是一款开源数据日志库,可生成数据集摘要(whylogs profiles)。它能追踪数据变化、设置约束条件、快速可视化关键统计信息。whylogs profiles具有高效、可定制、可合并的特点,支持多种数据类型。该库集成了AWS S3、Apache Airflow等工具,可用于数据漂移检测、质量验证和探索性分析等任务,为数据科学家和工程师提供有力支持。
litdata - 优化数据处理和流式传输工具 提升AI模型训练效率
GithubLitData云存储开源项目数据优化数据处理模型训练
LitData是一个开源的数据处理和优化工具,专注于提升AI模型训练效率。它提供并行数据处理、向量嵌入创建、分布式推理和大规模网站抓取功能。LitData优化数据集以加速模型训练,支持云端大规模数据流式传输,并实现远程数据的无本地加载使用。这些特性使LitData成为提高数据处理效率和AI模型训练速度的有力工具。
glom - 轻松处理嵌套数据的Python库
GithubPythonglom嵌套数据开源项目数据处理数据重构
glom是一个专门用于处理嵌套数据结构的Python库。它提供基于路径的访问和声明式数据转换,支持可读的错误信息。作为一个纯Python包,glom适用于Python 3.7+和PyPy3,并提供命令行界面。无论是数据访问还是重构,glom都能高效处理复杂的实际数据。
dagster - 全生命周期数据管道编排工具 支持云原生部署
DagsterGithubPython开源开源项目数据管道编排资产管理
Dagster是一款支持云原生部署的数据管道编排工具,覆盖全生命周期开发。该工具集成了数据血缘追踪和可观察性功能,采用声明式编程模型,并提供出色的可测试性。Dagster能够帮助开发和维护各类数据资产,包括数据表、数据集、机器学习模型和报告等。开发者可通过Python函数声明数据资产的构建方式,Dagster会自动管理函数执行时机并保持资产更新。这一工具适用于从本地开发到生产环境的全过程,并与现代数据技术栈广泛集成。
sql-metadata - 轻量级SQL查询解析工具库
GithubPython库SQL解析sql-metadata元数据提取开源项目数据库查询
sql-metadata是一个Python库,用于解析SQL查询结构。它可以提取列名、表名、别名,解析子查询,并支持查询归一化。该库兼容MySQL、PostgreSQL、Hive等多种SQL语法,能够获取查询中的列、表、限制和偏移等元数据。sql-metadata简化了SQL分析和处理,适用于需要深入理解SQL查询结构的应用场景。
pandas - Python数据分析与处理的开源利器
DataFrameGithubPythonpandas开源开源项目数据分析
pandas是Python生态系统中的核心数据分析库,提供高性能、易用的数据结构和工具。它支持处理结构化数据,包括数据清洗、转换、合并、分组分析等操作。pandas可读写多种格式的数据源,如CSV、Excel、SQL数据库等。作为开源项目,pandas由活跃社区维护,持续优化以满足数据科学家、分析师和开发者的需求。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号