#数据处理

SheetGod - AI智能转换,英语直接生成Excel公式与Google Appscript代码
AI办公办公工具AI工具SheetGodExcel公式自动化数据处理热门
通过将口头英语指令转换成Excel公式、宏和正则表达式,SheetGod强大的AI功能助你轻松处理复杂数据,还能生成Google Appscript代码自动化日常任务。深受广大Excel和Google Sheets用户信赖与推荐。
pytorch_geometric - 图形神经网络开发库
PyTorch Geometric图神经网络机器学习深度学习数据处理Github开源项目
PyTorch Geometric是一个基于PyTorch的图形神经网络库,旨在简化结构化数据的建模与训练流程。支持小批量和大规模图的处理,并提供全面的GPU加速、数据管道处理以及常用基准数据集。这使得它成为机器学习研究者和初学者理想的选择。
awesome-mlops - 多种自动化机器学习、数据处理、模型部署工具集合
MLOps自动化机器学习数据管理模型服务数据处理Github开源项目
发掘和运用顶尖MLOps工具:该项目汇集了多种自动化机器学习、数据处理、模型部署工具,供数据科学家和机器学习工程师选择使用,以简化机器学习流程,优化生产活动。
data-juicer - 大语言模型数据处理系统,提供多模态数据支持
Data-Juicer多模态数据处理大规模语言模型数据模型协同开发数据处理Github开源项目
Data-Juicer 是一款强大的一站式数据处理系统,专为大语言模型设计。它支持多模态数据处理,具有80多种操作符和20多个配置方案,提供高效且并行的数据处理能力。其友好的用户体验和全面的文档,使其成为生产环境中的优选方案。
unstructured - 简化非结构化数据处理的开源工具
unstructured预处理工具数据处理模块函数open-sourceGithub开源项目
该开源工具提供了处理图像和文本文档(PDF、HTML、Word文档等)的组件,能够优化大语言模型(LLM)的数据处理流程。通过模块化功能和连接器系统,简化数据导入和预处理,将非结构化数据高效转换为结构化数据。其无服务器API提供了高效、响应迅速的解决方案。快速入门指南涵盖了在容器中运行库以及多种安装方法。
datachain - 帮助机器学习和AI工程师进行数据分析的数据框架库
DataChainAI数据处理元数据PythonGithub开源项目
DataChain是一个为AI特定场景设计的数据框架库。它通过在非结构化文件上构建的元数据层,帮助机器学习和AI工程师进行数据分析。支持处理各种存储中的原始文件并实现数据集版本控制。用户可以使用Python接口进行数据转换和元数据丰富。项目特色包括功能链式数据处理方法和数据版本控制,并区分CPU和GPU负载, 适用于分布式计算。
neptune-client - 可伸缩的实验跟踪工具,简化团队基础模型训练
neptune.ai实验跟踪机器学习模型训练数据处理Github开源项目
Neptune 提供一款高效实验跟踪平台,适用于团队基础模型训练。用户可记录大量运行数据,实时对比实验结果。其灵活日志记录、自定义仪表板、多节点支持,加速训练监控和优化。支持25+框架集成,是MLOps理想工具。
voxelgpt - 自然语言驱动的计算机视觉数据查询插件
VoxelGPTAI查询FiftyOne数据处理机器学习Github开源项目
VoxelGPT 是基于 FiftyOne 的插件,结合大型语言模型和多模态模型,通过自然语言即可对数据进行过滤、排序、语义切片和查询。支持数据集、计算、工作区查询及机器学习问题,无需编写代码。提供实时演示和详细安装指南,助用户轻松从数据中获取价值。
SmallLanguageModel-project - 自主构建完整的语言模型,从数据采集到训练一步到位
SmallLanguageModel数据处理模型训练Python依赖安装Github开源项目
该项目提供全面的构建语言模型指南,包括数据收集、预处理及模型训练。项目涵盖从数据采集到训练多种模型(如BERT、GPT、Seq-2-Seq)的全部必要工具和步骤。适用于Python 3.8及以上版本,通过详细的教程和文档帮助开发者高效实现模型训练与应用。
ChatGLM-LoRA-RLHF-PyTorch - 使用LoRA和RLHF在消费者硬件上微调ChatGLM的详细指南
ChatGLM-LoRA-RLHF-PyTorch模型微调奖励模型数据处理环境配置Github开源项目
该项目详细介绍了如何在消费者硬件上使用LoRA和RLHF微调ChatGLM LLM,包括环境配置、数据处理、监督微调及奖励模型的训练等步骤,帮助开发者轻松实现模型优化。
dim - 开源数据安装管理器,简化项目数据处理
dim开源数据管理数据下载数据处理数据搜索Github开源项目
Data Installation Manager (DIM) 是一个开源工具,旨在像包管理器一样高效管理项目中的开源数据。用户可以通过DIM记录数据源URL和进行后处理操作,利用dim.json文件快速准备所需数据。DIM支持解压缩、编码转换等常见任务,并且能够通过CKAN搜索数据和使用GPT-3生成数据处理代码。更多详情和安装方法请参考官方文档。
examples - 高效分析非结构化数据的开源示例
Towhee数据处理机器学习嵌入向量图像搜索Github开源项目
Towhee Examples 是一个用于分析非结构化数据的开源案例库,包括反向图像搜索、反向视频搜索、音频分类、问答系统和分子搜索等多种应用场景。通过 Towhee 的机器学习模型管道,用户可以轻松生成各种嵌入向量。示例内容多样,涵盖图像动画、图像去重、文字图像搜索、视频分类、深度伪造检测和音频分类等。所有示例均可在本地环境中轻松运行,帮助开发者简化数据处理任务。
redun - 以高效表达和增量计算为核心的多功能工作流引擎
redunPython工作流引擎数据处理后端Github开源项目
redun是一个用Python实现的高效工作流框架,它通过惰性表达式定义工作流,在自动并行化、缓存和数据追溯方面表现出色。支持多种计算后端,包括线程、进程、AWS批处理和Spark作业,适用于生物信息学、化学信息学和Web数据提取等领域。其主要特性包括动态DAG创建、数据和代码变化的增量计算、缓存重用和数据追溯日志,保障了工作流的灵活性和可扩展性。
docta - 数据诊断与优化平台
Docta数据健康自动化服务开源工具数据处理Github开源项目
Docta是一款专注于数据健康管理的高级AI平台,旨在检测和修复数据问题。支持表格数据、文本数据、图像数据和预训练模型嵌入等多种类型。无需训练,Docta可自动执行数据诊断、整理和优化,通过标签错误和稀有模式检测来改进数据集质量,适用于所有用户的免费开源工具。
fondant - 旨在协同构建和共享数据集的开源数据框架
Fondant数据处理数据集构建共享操作数据框架Github开源项目
Fondant是一个开源数据框架,旨在协同构建和共享数据集。它允许用户无需移动源数据即可进行数据初始化、处理和加载,支持可插拔的工作流、自定义组件以及版本追踪与数据浏览。Fondant适用于跨云端环境(如Google Cloud的Vertex和AWS的Sagemaker),使数据处理简单、可扩展,是生产环境中处理和共享数据集的理想选择。
menpo - 图像与网格数据的导入、操作和可视化工具
MenpoPython机器学习计算机视觉数据处理Github开源项目
Menpo项目提供了一套Python库,简化图像和网格数据的导入、操作和可视化。作为机器学习和计算机视觉常用工具,Menpo支持标注数据的操作,使图像遮罩、裁切和对齐等任务变得简单。支持多个Python版本,建议使用conda安装,以解决复杂的依赖问题。Menpo还包含menpofit、menpo3d和menpodetect等附加库,以扩展功能。用户可以通过Jupyter Notebooks学习并在线浏览示例笔记本。
pytorch_scatter - 优化分散操作的 PyTorch 扩展库
PyTorch数据处理高性能计算CPUGPUGithub开源项目
该扩展库为PyTorch提供了高效的稀疏更新和分段操作,包含scatter、segment_coo和segment_csr,支持sum、mean、min和max等归约方式。操作可适用于不同数据类型,并支持CPU和GPU。复合功能包括scatter_std、scatter_logsumexp、scatter_softmax和scatter_log_softmax。安装过程简单,适用于各大操作系统和PyTorch/CUDA组合。
pyntcloud - Python 3D点云处理库
pyntcloud3D点云Python库数据处理conda-forgeGithub开源项目
Pyntcloud 是一个基于Python科学计算堆栈的3D点云处理库。通过简单代码可以执行复杂3D操作,如加载PLY文件、RGB转HSV、体素网格生成等。支持与Open3D和PyVista等3D处理库无缝集成。项目文档详尽,示例丰富,方便用户快速上手。安装简单,支持conda和pip,适合开发和研究使用。
bacalhau - 高效的分布式计算框架
Bacalhau分布式计算云计算数据处理安全计算Github开源项目
Bacalhau是一个分布式计算平台,可以在数据生成和存储的位置执行任务,从而实现高效、安全的计算。支持Docker容器、WebAssembly (wasm)镜像和任意二进制文件作为任务运行,无需大量重写代码,简化现有工作流程。其特点包括快速作业处理、低成本、安全和大规模数据处理,利用边缘计算的闲置资源减少传输成本,通过精细的权限模型保护数据安全。
spring-batch - 企业级批处理应用开发框架
Spring Batch批处理框架企业系统Java开发数据处理Github开源项目
Spring Batch是一个轻量级批处理框架,用于开发企业系统日常运营所需的批处理应用。它继承了Spring Framework的开发理念,支持大规模数据处理、事务管理和作业控制。该框架适用于数据ETL、迁移和批量报告等场景,为开发人员提供了便捷的企业级服务访问方式。
parquet-go - Go语言高性能Parquet文件处理库
parquet-goGo语言库列式存储数据处理高性能Github开源项目
parquet-go是一个用Go语言开发的Parquet文件处理库。该项目由Twilio Segment初创,提供高级API用于读写Parquet文件,同时兼顾低计算和内存占用。支持Parquet格式规范,包括列式存储、模式演化、行组排序、行组合并和布隆过滤器等特性。parquet-go适合需要高效处理大规模数据集的场景,为Go开发者提供了实用的Parquet文件操作工具。
llm-app-stack - 全面的大语言模型应用开发资源集合
LLM应用程序架构AI开源数据处理Github开源项目
LLM-App-Stack项目汇总了构建大语言模型应用所需的各类工具和服务。该资源集合涵盖数据管道、嵌入模型、向量数据库、编排工具和API插件等关键组件。项目同时整合了专有和开源的LLM API,以及应用托管平台和云服务选项,为开发者提供了全面的技术栈参考。这一资源库旨在帮助开发者更高效地构建和部署智能应用。
datafusion - 基于Apache Arrow的快速查询引擎 支持SQL和DataFrame API
Apache DataFusion查询引擎RustArrow数据处理Github开源项目
Apache DataFusion是基于Rust和Apache Arrow的查询引擎,提供SQL和DataFrame API。支持CSV、Parquet、JSON和Avro格式,性能优异且可广泛定制。适用于构建特定领域查询引擎、数据库平台和数据管道,便于开发者快速起步并按需定制。其开源特性和活跃社区为项目开发提供了有力支持。
awesome-pipeline - 数据流水线工具集合 简化复杂工作流程
工作流管道框架自动化数据处理Github开源项目
Awesome Pipeline收录了多种数据流水线工具,包括框架、库和平台。这些工具可帮助构建和优化各类数据处理流程,从简单的线性工作流到分布式计算均有涉及。该项目为不同规模的数据处理需求提供了丰富的开源解决方案。
polars - 多语言支持的高性能数据分析引擎
Polars数据处理多语言支持高性能DataFrameGithub开源项目
Polars是一个基于Rust开发的高性能数据处理引擎,提供Python、Node.js和R等多语言接口。它采用Apache Arrow列式内存模型,实现惰性/即时执行、多线程和SIMD等技术,高效处理大规模数据。Polars具有强大的表达式API和查询优化能力,支持流式处理超大数据集,在TPC-H基准测试中性能优异。此外,Polars还支持SQL查询和命令行操作,是一款轻量而强大的数据分析工具。
cookbook - 大型语言模型应用开发与优化实用指南
MistralAI模型示例代码数据处理机器学习Github开源项目
Mistral Cookbook 汇集了社区贡献的大型语言模型应用实例,涵盖基础聊天、嵌入、RAG、函数调用和微调等多个方面。项目包含Mistral AI官方示例和第三方工具集成,为开发者提供了全面的LLM应用开发资源。
pandarallel - 简化Pandas操作并行化的Python库
Pandarallel并行计算pandas数据处理Python库Github开源项目
Pandaral·lel是一个Python库,通过简单的代码修改实现Pandas操作的并行化处理。它利用多核CPU加速数据处理,并提供进度条显示。适用于Mac、Linux和Windows系统,可优化数据分析工作流程。目前该开源项目正在寻找新的维护者。
nushell - 新一代跨平台结构化数据处理shell
Nushell命令行工具跨平台数据处理插件系统Github开源项目
Nushell是一个开源的跨平台shell项目,主要特点是结构化数据处理。它能将文件和命令输出转化为结构化数据,通过管道操作处理不同格式的信息。该项目提供简洁的语法和多种内置命令,同时允许通过插件进行功能扩展。Nushell适用于Windows、macOS和Linux,致力于为用户带来现代化的shell使用体验。
tensordict - PyTorch张量集合操作的高效字典类工具
TensorDictPyTorch张量操作数据处理机器学习Github开源项目
TensorDict是一个继承张量属性的字典类,为PyTorch提供简洁的张量集合操作方法。它支持异步设备传输、节点间快速通信、张量形状操作和分布式计算,提高了代码的可读性、紧凑性和模块化。这个工具适用于模型训练、优化器实现等机器学习任务,能有效简化代码结构,提升开发效率。
okio - 高效简化Java I/O操作的开源数据处理库
OkioJava库数据处理开源软件Android开发Github开源项目
Okio是一个开源库,用于补充Java标准库中的java.io和java.nio功能。它简化了数据的访问、存储和处理过程,提供更易用的API,帮助开发者高效处理I/O操作。Okio源自Android HTTP客户端OkHttp项目,现已发展为独立且经过充分测试的解决方案,适用于多种数据处理场景。该项目由Square公司维护,采用Apache 2.0许可证发布。
pandas-ta - Python金融技术分析库 提供130多种指标和实用工具
Pandas TA技术分析Python指标库数据处理Github开源项目
Pandas TA是一个基于Python的金融技术分析库,集成了130多种技术指标和60多种TA-Lib蜡烛图模式。该库提供常用指标如移动平均线、MACD、布林带等,并支持多进程计算以提高效率。它还包含示例代码,展示如何创建自定义策略。Pandas TA充分利用了Pandas库的优势,为金融数据分析提供了丰富的工具和灵活的功能。
ta - Python实现43种金融技术分析指标
技术分析Python金融指标数据处理Github开源项目
TA是一个基于Pandas和Numpy的Python技术分析库,专门用于金融时间序列数据的特征工程。该库实现了43种技术指标,涵盖成交量、波动性、趋势和动量等方面,包括移动平均线、布林带、MACD等。TA为金融数据分析和量化交易策略开发提供了全面的工具支持。
datatrove - 用于大规模文本数据处理和去重的开源Python库
DataTrove数据处理大规模管道文本去重Github开源项目
DataTrove是一个开源Python库,专门用于处理、过滤和去重大规模文本数据。它提供预构建的常用处理模块和自定义功能支持。该库的处理流程可在本地或Slurm集群上运行,具有低内存消耗和多步骤设计,适合处理大型语言模型训练数据等大规模工作负载。DataTrove支持多种文件系统,为数据处理提供灵活解决方案。
litdata - 优化数据处理和流式传输工具 提升AI模型训练效率
LitData数据处理模型训练数据优化云存储Github开源项目
LitData是一个开源的数据处理和优化工具,专注于提升AI模型训练效率。它提供并行数据处理、向量嵌入创建、分布式推理和大规模网站抓取功能。LitData优化数据集以加速模型训练,支持云端大规模数据流式传输,并实现远程数据的无本地加载使用。这些特性使LitData成为提高数据处理效率和AI模型训练速度的有力工具。
bigflow - 简化GCP数据流水线开发的高效Python框架
BigFlow数据处理GCPPython框架部署Github开源项目
BigFlow是一个专为Google Cloud Platform (GCP)设计的数据处理框架。该框架提供Docker化部署、CLI工具、自动化构建与部署、统一项目结构,并支持GCP主要数据处理技术。BigFlow优化了数据工程流程,支持Dataflow和BigQuery,适用于不同规模的数据处理项目。框架还包含项目启动器,帮助快速搭建工程环境。
python-machine-learning-book-3rd-edition - Python与机器学习代码实例——从基础到高级应用
Python Machine Learningscikit-learnTensorFlow机器学习数据处理Github开源项目
《Python Machine Learning》第三版全面覆盖了数据预处理、分类、回归、深度学习和强化学习等机器学习领域的核心概念。书中提供了Scikit-Learn和TensorFlow的代码示例,帮助读者掌握模型评估、超参数优化和集成学习等技术。本书适合初学者和进阶用户,通过代码仓库可以获得丰富的实践经验。出版信息:Packt Publishing, 2019年12月12日,ISBN-13: 978-1789955750。