#数据处理

fugue - 统一的分布式计算框架 支持多种执行引擎
Fugue分布式计算数据处理PySparkSQLGithub开源项目
Fugue是一个统一的分布式计算框架,支持在Spark、Dask和Ray等多种执行引擎上运行Python、Pandas和SQL代码。它可以轻松将现有Python和Pandas代码扩展到分布式环境,并通过FugueSQL在不同数据框架上构建端到端工作流。Fugue提供简洁的API和增强的SQL语法,实现了执行引擎的无缝切换,提高了大规模数据处理的效率和灵活性。
glom - 轻松处理嵌套数据的Python库
glomPython数据处理嵌套数据数据重构Github开源项目
glom是一个专门用于处理嵌套数据结构的Python库。它提供基于路径的访问和声明式数据转换,支持可读的错误信息。作为一个纯Python包,glom适用于Python 3.7+和PyPy3,并提供命令行界面。无论是数据访问还是重构,glom都能高效处理复杂的实际数据。
beam - 统一批处理和流处理的数据并行处理模型
Apache Beam数据处理流处理批处理分布式计算Github开源项目
Apache Beam是一个统一的数据处理模型,用于定义批处理和流处理的并行数据处理管道。它提供多语言SDK构建管道,并可在Apache Flink、Spark等分布式处理后端上执行。Beam支持Java、Python和Go等语言,为各类开发者提供灵活的开发环境。该项目采用统一模型处理批处理和流处理数据,支持多种编程语言,并可在多个分布式处理平台上运行。它为不同类型的开发者提供了灵活的工具,简化了大规模数据处理的复杂性。
SimpleStockAnalysisPython - Python股票分析入门教程 从数据获取到策略构建
Python股票分析数据处理技术分析GitHub项目Github开源项目
该项目提供Python股票分析入门教程,内容涵盖数据获取、分析、技术指标、绘图和简单交易策略构建。教程分为Jupyter和Python两个版本,包含26个主题,循序渐进地介绍Python编程和股票分析基础知识。适合初学者逐步掌握Python股票分析技能。
awesome-data-engineering - 数据工程全面技术资源指南
数据工程数据库数据处理大数据数据存储Github开源项目
本资源列表全面覆盖数据工程领域,包括数据库、数据摄取、文件系统和序列化格式等核心技术。汇集Kafka、Hadoop、Spark等主流开源项目和创新解决方案,为数据工程实践提供系统性参考。内容涵盖从基础设施到前沿技术,是数据工程师深入学习和技术选型的重要指南。
SportsLabKit - 专业体育分析工具包 实现比赛视频数据化
SportsLabKit体育分析目标跟踪数据处理计算机视觉Github开源项目
SportsLabKit是一个开源的体育分析工具包,可将比赛视频转换为可分析的数据。目前主要用于足球领域,计划扩展到其他运动。核心功能包括高性能追踪、灵活架构、2D场地校准和数据封装,便于进行运动员追踪和数据分析。该项目集成了SORT、DeepSORT、ByteTrack等多种追踪算法,支持YOLOv8等检测模型,为研究人员和开发者提供了灵活的开发环境。SportsLabKit正在持续开发中,旨在提供更多计算机视觉工具和统一的数据表示方法。
kaggle_pipeline_tps_aug_22 - 开源Python框架简化Kaggle表格数据竞赛流程
Kaggle机器学习数据处理特征工程模型训练Github开源项目
这是一个面向Kaggle表格数据竞赛的开源Python框架。它集成了数据处理、可视化、特征工程、模型训练等功能的API。虽然最初为Kaggle TPS August 2022设计,但经简单调整可适用于其他表格数据竞赛。该框架涵盖了从数据预处理到提交预测结果的完整机器学习流程,为Kaggle参赛者提供了实用的工具支持。
dataframe - JVM平台上的类型安全结构化数据处理库
Kotlin DataFrame数据处理JVM类型安全数据结构Github开源项目
Kotlin DataFrame是JVM平台上的结构化数据处理库,提供类型安全和层次化的数据模型。它支持函数式编程,与Kotlin数据类和集合集成,具有简洁的DSL。该库可处理复杂任务,支持多种数据格式,兼容Jupyter notebooks和REPL环境。Kotlin DataFrame为数据分析和处理提供了灵活高效的解决方案。
1brc - Java大数据处理性能挑战 10亿行测试
1BRCJava性能优化数据处理开源挑战Github开源项目
1BRC项目旨在测试Java处理大规模数据的能力。参与者需编写Java程序处理10亿行气象温度数据,计算各站点温度统计值。该挑战展示了Java在大数据处理方面的潜力,吸引开发者运用虚拟线程、SIMD指令等技术优化性能。截至2024年1月底,已收到逾百个实现,最快用时1.535秒完成处理。
tempo - Databricks上的时间序列数据处理工具库
Tempo时间序列DatabricksPySpark数据处理Github开源项目
Tempo是一个基于PySpark的开源时间序列数据处理工具库。它为Databricks上的数据团队提供了一套抽象和函数,简化了时间序列数据的操作和分析。Tempo扩展了PySpark的功能,通过易用的API支持复杂的时间序列分析任务。这个工具库适用于需要在大规模数据集上进行高效时间序列处理的场景。
pytimetk - 快速高效的Python时间序列分析库
pytimetk时间序列分析数据处理可视化Python库Github开源项目
pytimetk是一个高效的Python时间序列分析库,通过简洁语法和优化计算简化了时间序列操作和可视化。相比pandas,它提供3-3500倍的速度提升,并减少代码复杂度。主要功能包括快速时间聚合、便捷绘图、日历特征提取和异常检测等。pytimetk适用于商业预测和科学研究,为时间序列分析提供了全面的解决方案。
xts - R语言高性能时间序列数据处理扩展包
xtsR包时间序列数据处理金融数据Github开源项目
xts是R语言的时间序列扩展包,基于zoo类开发,提供高效的时间索引数据结构。它通过合理约束提升性能,保持简单灵活的使用体验。xts支持ISO-8601日期时间索引,具备强大的时间序列聚合和应用功能,广泛应用于金融分析等需要处理大量时间序列数据的领域。
wxee - 整合 Earth Engine 和 xarray 的时间序列数据处理库
wxeeEarth Enginexarray时间序列数据处理Github开源项目
wxee是一个Python库,旨在整合Google Earth Engine的数据处理能力和xarray的灵活性。它简化了网格化中尺度时间序列数据的处理流程,包括数据处理、聚合、下载和导入。该库支持将Earth Engine图像集合转换为xarray或GeoTIFF格式,并提供气候异常分析、时间聚合、插值、平滑和缺失值填充等功能。通过并行处理,wxee加快了数据下载速度,为地球观测数据的处理和分析提供了高效便捷的解决方案。
fastverse - R语言高性能统计计算和数据处理框架
fastverseR语言数据处理高性能计算包管理Github开源项目
fastverse是一个用于R语言的高性能统计计算和数据处理框架。它集成了多个优化的软件包,通过使用编译代码提高R的运行速度,支持复杂的统计和数据操作,同时减少了依赖项。fastverse提供了简便的安装、加载和管理工具,允许用户自定义扩展。核心包包括data.table、collapse、kit和magrittr,提供了基于C/C++的高效统计和数据处理功能。
feature-engineering-for-time-series-forecasting - 时间序列预测特征工程全面指南
时间序列预测特征工程数据处理机器学习PythonGithub开源项目
该项目提供时间序列预测特征工程的全面指南,涵盖数据表格化、时间序列分解、缺失值处理和异常值检测等核心内容。深入介绍滞后特征、窗口特征、趋势和季节性特征的创建方法,以及日期时间和分类特征的处理技巧。通过实践代码和详细说明,旨在提升预测模型性能。
scicloj.ml - Clojure机器学习生态系统 强大灵活的数据科学工具
Clojure机器学习数据处理模型训练pipelinesGithub开源项目
Scicloj.ml是一个为Clojure语言打造的全面机器学习生态系统。它整合了多个成熟的数据科学库,提供标准化的分类、回归和无监督学习模型接口。该库支持数据驱动的机器学习流水线构建,内置复杂的交叉验证功能,并具备灵活的开放架构,可轻松集成各类ML模型。Scicloj.ml还提供丰富的数据预处理工具,并允许通过回调机制实现实验跟踪,为Clojure开发者提供了强大而灵活的机器学习解决方案。
RecSysDatasets - 推荐系统公开数据集汇总及处理工具
推荐系统数据集RecBole数据处理模型评估Github开源项目
RecSysDatasets是一个汇总公开推荐系统数据集的开源项目。该项目收集了电商、广告、电影等多个领域的数据集,并提供将数据集转换为统一格式的工具。这有助于研究人员更便捷地获取和使用各类推荐系统数据集,为算法开发和评估提供支持。项目与RecBole推荐系统库集成,便于进行算法测试。
RecTools - 功能丰富的推荐系统开发Python库
RecTools推荐系统Python库机器学习数据处理Github开源项目
RecTools是一个专为推荐系统开发设计的Python库。它集成了数据处理、指标计算、多种推荐模型和模型选择框架。支持矩阵分解、最近邻和神经网络等算法,并可利用用户和物品特征。RecTools注重易用性和灵活性,有助于快速构建和部署推荐系统。
hongbomiao.com - 多领域技术融合的开源研发项目
个人研发实验室项目架构技术栈云原生数据处理Github开源项目
hongbomiao.com是一个涵盖Web、移动、桌面应用开发、API服务器、云原生技术和数据处理等多个领域的开源项目。该项目整合了React、Go、Python等多种编程语言和框架,并应用Kubernetes、各类数据库和数据仓库技术。通过展示这一全面的技术生态系统,项目为开发者提供了丰富的学习和创新资源。项目采用了现代化的软件架构和工具链,包括React、GraphQL、Docker、Kubernetes等。同时还整合了多种数据库系统、监控工具和性能优化方案,体现了全栈开发的综合性。这个开源项目不仅展示了技术融合的可能性,也为开发者提供了实践和学习的平台。
tablesaw - Java数据处理和可视化开源框架
Tablesaw数据处理数据可视化Java库数据分析Github开源项目
Tablesaw是一个Java开源数据框架和可视化库,支持数据加载、清理、转换、过滤和汇总。它提供多种格式数据的导入导出、表格操作和统计分析功能。Tablesaw集成了Plot.ly绘图库,可创建各类数据可视化图表。该框架设计简洁,有助于提升Java数据分析效率,适用于数据处理和探索。
awips2 - 开源气象数据分析与可视化软件包
AWIPS气象软件数据处理可视化UnidataGithub开源项目
AWIPS(Advanced Weather Interactive Processing System)是NSF Unidata开发的开源气象软件包,面向研究和教育机构的非商业版本。它通过LDM客户端从IDD统一获取数据,支持多种格式的解码和存储。AWIPS提供CAVE和python-awips两种可视化框架,用于数据解码、显示和分析。该软件为气象研究和教育提供强大工具支持,可免费下载使用,并支持通过云服务器访问EDEX数据。
linfa - Rust语言的综合机器学习工具库
Linfa机器学习Rust算法库数据处理Github开源项目
Linfa是一个用Rust语言开发的开源机器学习工具库,为常见ML任务提供全面解决方案。它实现了多种算法,包括聚类、降维、回归和分类等,并具备数据预处理功能。Linfa支持多种BLAS/LAPACK后端,可满足不同性能需求。这个项目旨在为Rust生态系统构建一个活跃的机器学习社区。
core - 灵活高效的PHP报告生成框架
KoolReportPHP报表框架数据处理数据可视化开源软件Github开源项目
KoolReport是开源PHP报告框架,支持多种数据源和丰富的数据处理功能。它提供直观的报告生成工具和可视化组件,可通过扩展包增强功能。该框架简化了报告生成流程,适合需要高效处理数据和创建可视化报告的开发者。KoolReport注重灵活性和可扩展性,为用户提供全面的数据处理和可视化控制能力。
amphi-etl - Python低代码ETL工具 支持多类型数据处理
Amphi ETL数据处理Python低代码AI管道Github开源项目
Amphi-etl是一款现代ETL工具,专注于AI时代的数据处理需求。它通过低代码界面加速数据和AI管道开发,生成可移植的Python代码。支持多样化数据处理,包括结构化和非结构化数据的导入、转换和导出。提供私有化部署,保障数据安全与隐私。
Data-Engineering-Roadmap - 数据工程师成长路线图及关键技能学习资源
数据工程编程语言数据库数据处理机器学习Github开源项目
该项目提供了一个系统化的数据工程学习路线图,涵盖编程语言、SQL、数据库、数据处理、集群计算、数据可视化等核心领域。路线图内容丰富,包括Linux系统、数据结构与算法、数据库基础、SQL、NoSQL、数据处理、集群计算、数据仓库、数据可视化等。同时涵盖了CI/CD、云计算、机器学习等相关技术,为构建完整的数据工程知识体系提供了全面指导。它推荐了各方面的学习资源和实用工具,旨在帮助学习者全面掌握数据工程技能,而非仅追随热点。路线图适合不同水平的学习者,为数据工程职业发展提供了清晰指导。
awesome-open-geoscience - 地球科学开源资源与工具汇总
地球科学开源软件数据处理地震学地质建模Github开源项目
这是一个精选的地球科学开源资源集合,内容涵盖软件工具和数据库。列表包含地震学、地下雷达、测井、模拟建模和储层工程等多个地球科学分支的工具。该项目旨在为地球科学研究人员、开发者和数据分析师提供实用资源,以提高工作效率。项目保持开放更新,反映地球科学开源生态系统的最新进展。
PapaParse - 快速灵活的JavaScript CSV解析工具 适用于浏览器和Node.js
CSV解析JavaScriptPapa Parse数据处理文件解析Github开源项目
PapaParse是一个开源的JavaScript CSV解析工具,支持浏览器和Node.js环境。它具有高性能、无依赖性和丰富的功能,包括直接解析CSV文件、快速模式、流式处理大文件、反向解析和自动检测分隔符等。PapaParse还提供工作线程支持,可确保web页面的响应性。这个工具易于使用,能够正确处理换行符和引号,是处理CSV数据的理想选择。
q - 命令行文本数据SQL查询工具
数据处理SQL查询命令行工具文本分析qGithub开源项目
q是一款命令行工具,将SQL功能引入Linux环境,实现文本数据的高效处理。支持对表格文本执行SQL查询,提供自动缓存加速和多文件sqlite3数据库直接查询。具备自动列名和类型检测功能,兼容多种字符编码,显著提升数据处理效率。
modin - 轻松实现pandas并行化加速
Modinpandas并行计算数据处理大数据Github开源项目
Modin是pandas的高性能替代方案,通过并行化计算显著提升数据处理速度。只需更改一行导入代码,即可利用全部CPU核心加速pandas工作流,特别适合大型数据集。Modin支持处理超出内存的数据,兼容90%以上pandas API,并支持Ray、Dask和MPI等多种计算引擎。它简化了分布式计算,让用户轻松获得性能提升。
cudf - 基于GPU的高性能DataFrame库 实现快速数据处理与分析
cuDFGPU数据处理RAPIDSpandasGithub开源项目
cuDF是一个基于GPU的DataFrame库,提供数据加载、连接、聚合和过滤等功能。该库利用libcudf和Apache Arrow列式格式,为开发者提供GPU加速的pandas兼容API。cuDF既可以直接使用,也可以作为pandas的无代码修改加速器,完全支持pandas API,在可能的情况下使用GPU运算,必要时回退到pandas。这使得cuDF在处理大规模数据时表现出色,适合各类数据科学和机器学习项目。
nuclio - 实时事件和数据处理的高性能无服务器框架
Nuclioserverless框架实时事件处理数据处理KubernetesGithub开源项目
Nuclio是一个高性能无服务器框架,专为数据、I/O和计算密集型工作负载设计。它与Jupyter和Kubeflow等数据科学工具深度集成,支持多种数据源和流处理,可在CPU和GPU上运行。Nuclio处理速度快,单个实例每秒可处理数十万请求。支持Docker容器和Kubernetes部署,提供图形界面和命令行工具,易于使用和管理。
feathr - 企业级统一数据和AI工程开源平台
Feathr特征工程平台数据处理AI模型开源项目Github
Feathr是LinkedIn开源的数据和AI工程平台,经过多年生产环境验证。该平台支持数据转换的定义、注册和共享,尤其适合AI建模场景。Feathr采用原生云集成和可扩展架构,提供丰富的转换API,能够处理大规模数据,并在离线批处理、流处理和在线环境中保持统一的数据转换接口。
qsv - 多功能高性能CSV数据处理工具集
qsvCSV数据处理命令行工具RustGithub开源项目
qsv是一款高效的CSV数据处理工具,提供多样化的命令用于数据操作。主要功能包括查询、切片、索引、分析、过滤和转换CSV文件。它支持应用转换、日期格式化、去重、差异比较等高级操作,还能进行Web服务获取和地理编码。qsv内置Luau脚本引擎,可构建复杂的数据处理流程。其优化设计使其在处理大规模CSV数据时表现出色,兼具高性能和灵活性。
pathway - 高性能Python数据处理框架 支持流处理和LLM应用
Pathway数据处理流处理实时分析LLM管道Github开源项目
Pathway是一个高性能Python数据处理框架,支持流处理、实时分析和LLM应用。该框架提供简洁的Python API,可处理批量和流式数据,并集成多种机器学习库。Pathway采用Rust引擎,实现增量计算和并行处理。它具备丰富的数据连接器、状态转换功能和一致性保证,适用于多种复杂的数据处理场景。
jackson - Java多功能数据处理工具集
JacksonJSONJava数据处理开源项目Github
Jackson是一套面向Java和JVM平台的多功能数据处理工具集。它以高效的JSON解析和生成功能为核心,提供流式API和数据绑定能力。Jackson支持多种数据格式,如Avro、CBOR和CSV等,并通过扩展模块兼容Guava、Joda等常用Java库的数据类型。凭借其卓越的性能、灵活性和丰富的功能,Jackson成为Java生态系统中处理JSON和其他数据格式的重要工具。
batchflow - 高效灵活的大规模数据处理和机器学习框架
BatchFlow数据处理机器学习神经网络数据流水线Github开源项目
BatchFlow是一个专为大规模数据处理和复杂机器学习流程设计的Python库。它提供灵活的批处理生成、确定性和随机管道、数据集合并等功能。支持多种深度学习模型,并具有丰富的层和辅助函数,方便自定义模型。其懒加载机制和高效批处理策略适用于处理超出内存容量的大型数据集,是数据科学和机器学习项目的理想工具。