#数据处理

PyTorch Geometric图神经网络机器学习深度学习数据处理Github开源项目

PyTorch Geometric是一个基于PyTorch的图形神经网络库，旨在简化结构化数据的建模与训练流程。支持小批量和大规模图的处理，并提供全面的GPU加速、数据管道处理以及常用基准数据集。这使得它成为机器学习研究者和初学者理想的选择。

awesome-mlops - 多种自动化机器学习、数据处理、模型部署工具集合

MLOps自动化机器学习数据管理模型服务数据处理Github开源项目

发掘和运用顶尖MLOps工具：该项目汇集了多种自动化机器学习、数据处理、模型部署工具，供数据科学家和机器学习工程师选择使用，以简化机器学习流程，优化生产活动。

data-juicer - 大语言模型数据处理系统，提供多模态数据支持

Data-Juicer多模态数据处理大规模语言模型数据模型协同开发数据处理Github开源项目

Data-Juicer 是一款强大的一站式数据处理系统，专为大语言模型设计。它支持多模态数据处理，具有80多种操作符和20多个配置方案，提供高效且并行的数据处理能力。其友好的用户体验和全面的文档，使其成为生产环境中的优选方案。

unstructured - 简化非结构化数据处理的开源工具

unstructured预处理工具数据处理模块函数open-sourceGithub开源项目

该开源工具提供了处理图像和文本文档（PDF、HTML、Word文档等）的组件，能够优化大语言模型（LLM）的数据处理流程。通过模块化功能和连接器系统，简化数据导入和预处理，将非结构化数据高效转换为结构化数据。其无服务器API提供了高效、响应迅速的解决方案。快速入门指南涵盖了在容器中运行库以及多种安装方法。

datachain - 帮助机器学习和AI工程师进行数据分析的数据框架库

DataChainAI数据处理元数据PythonGithub开源项目

DataChain是一个为AI特定场景设计的数据框架库。它通过在非结构化文件上构建的元数据层，帮助机器学习和AI工程师进行数据分析。支持处理各种存储中的原始文件并实现数据集版本控制。用户可以使用Python接口进行数据转换和元数据丰富。项目特色包括功能链式数据处理方法和数据版本控制，并区分CPU和GPU负载, 适用于分布式计算。

neptune-client - 可伸缩的实验跟踪工具，简化团队基础模型训练

neptune.ai实验跟踪机器学习模型训练数据处理Github开源项目

Neptune 提供一款高效实验跟踪平台，适用于团队基础模型训练。用户可记录大量运行数据，实时对比实验结果。其灵活日志记录、自定义仪表板、多节点支持，加速训练监控和优化。支持25+框架集成，是MLOps理想工具。

voxelgpt - 自然语言驱动的计算机视觉数据查询插件

VoxelGPTAI查询FiftyOne数据处理机器学习Github开源项目

VoxelGPT 是基于 FiftyOne 的插件，结合大型语言模型和多模态模型，通过自然语言即可对数据进行过滤、排序、语义切片和查询。支持数据集、计算、工作区查询及机器学习问题，无需编写代码。提供实时演示和详细安装指南，助用户轻松从数据中获取价值。

SmallLanguageModel-project - 自主构建完整的语言模型，从数据采集到训练一步到位

SmallLanguageModel数据处理模型训练Python依赖安装Github开源项目

该项目提供全面的构建语言模型指南，包括数据收集、预处理及模型训练。项目涵盖从数据采集到训练多种模型（如BERT、GPT、Seq-2-Seq）的全部必要工具和步骤。适用于Python 3.8及以上版本，通过详细的教程和文档帮助开发者高效实现模型训练与应用。

ChatGLM-LoRA-RLHF-PyTorch - 使用LoRA和RLHF在消费者硬件上微调ChatGLM的详细指南

ChatGLM-LoRA-RLHF-PyTorch模型微调奖励模型数据处理环境配置Github开源项目

该项目详细介绍了如何在消费者硬件上使用LoRA和RLHF微调ChatGLM LLM，包括环境配置、数据处理、监督微调及奖励模型的训练等步骤，帮助开发者轻松实现模型优化。

dim - 开源数据安装管理器，简化项目数据处理

dim开源数据管理数据下载数据处理数据搜索Github开源项目

Data Installation Manager (DIM) 是一个开源工具，旨在像包管理器一样高效管理项目中的开源数据。用户可以通过DIM记录数据源URL和进行后处理操作，利用dim.json文件快速准备所需数据。DIM支持解压缩、编码转换等常见任务，并且能够通过CKAN搜索数据和使用GPT-3生成数据处理代码。更多详情和安装方法请参考官方文档。

examples - 高效分析非结构化数据的开源示例

Towhee数据处理机器学习嵌入向量图像搜索Github开源项目

Towhee Examples 是一个用于分析非结构化数据的开源案例库，包括反向图像搜索、反向视频搜索、音频分类、问答系统和分子搜索等多种应用场景。通过 Towhee 的机器学习模型管道，用户可以轻松生成各种嵌入向量。示例内容多样，涵盖图像动画、图像去重、文字图像搜索、视频分类、深度伪造检测和音频分类等。所有示例均可在本地环境中轻松运行，帮助开发者简化数据处理任务。

redun - 以高效表达和增量计算为核心的多功能工作流引擎

redunPython工作流引擎数据处理后端Github开源项目

redun是一个用Python实现的高效工作流框架，它通过惰性表达式定义工作流，在自动并行化、缓存和数据追溯方面表现出色。支持多种计算后端，包括线程、进程、AWS批处理和Spark作业，适用于生物信息学、化学信息学和Web数据提取等领域。其主要特性包括动态DAG创建、数据和代码变化的增量计算、缓存重用和数据追溯日志，保障了工作流的灵活性和可扩展性。

docta - 数据诊断与优化平台

Docta数据健康自动化服务开源工具数据处理Github开源项目

Docta是一款专注于数据健康管理的高级AI平台，旨在检测和修复数据问题。支持表格数据、文本数据、图像数据和预训练模型嵌入等多种类型。无需训练，Docta可自动执行数据诊断、整理和优化，通过标签错误和稀有模式检测来改进数据集质量，适用于所有用户的免费开源工具。

fondant - 旨在协同构建和共享数据集的开源数据框架

Fondant数据处理数据集构建共享操作数据框架Github开源项目

Fondant是一个开源数据框架，旨在协同构建和共享数据集。它允许用户无需移动源数据即可进行数据初始化、处理和加载，支持可插拔的工作流、自定义组件以及版本追踪与数据浏览。Fondant适用于跨云端环境（如Google Cloud的Vertex和AWS的Sagemaker），使数据处理简单、可扩展，是生产环境中处理和共享数据集的理想选择。

menpo - 图像与网格数据的导入、操作和可视化工具

MenpoPython机器学习计算机视觉数据处理Github开源项目

Menpo项目提供了一套Python库，简化图像和网格数据的导入、操作和可视化。作为机器学习和计算机视觉常用工具，Menpo支持标注数据的操作，使图像遮罩、裁切和对齐等任务变得简单。支持多个Python版本，建议使用conda安装，以解决复杂的依赖问题。Menpo还包含menpofit、menpo3d和menpodetect等附加库，以扩展功能。用户可以通过Jupyter Notebooks学习并在线浏览示例笔记本。

pytorch_scatter - 优化分散操作的 PyTorch 扩展库

PyTorch数据处理高性能计算CPUGPUGithub开源项目

该扩展库为PyTorch提供了高效的稀疏更新和分段操作，包含scatter、segment_coo和segment_csr，支持sum、mean、min和max等归约方式。操作可适用于不同数据类型，并支持CPU和GPU。复合功能包括scatter_std、scatter_logsumexp、scatter_softmax和scatter_log_softmax。安装过程简单，适用于各大操作系统和PyTorch/CUDA组合。

pyntcloud - Python 3D点云处理库

pyntcloud3D点云Python库数据处理conda-forgeGithub开源项目

Pyntcloud 是一个基于Python科学计算堆栈的3D点云处理库。通过简单代码可以执行复杂3D操作，如加载PLY文件、RGB转HSV、体素网格生成等。支持与Open3D和PyVista等3D处理库无缝集成。项目文档详尽，示例丰富，方便用户快速上手。安装简单，支持conda和pip，适合开发和研究使用。

bacalhau - 高效的分布式计算框架

Bacalhau分布式计算云计算数据处理安全计算Github开源项目

Bacalhau是一个分布式计算平台，可以在数据生成和存储的位置执行任务，从而实现高效、安全的计算。支持Docker容器、WebAssembly (wasm)镜像和任意二进制文件作为任务运行，无需大量重写代码，简化现有工作流程。其特点包括快速作业处理、低成本、安全和大规模数据处理，利用边缘计算的闲置资源减少传输成本，通过精细的权限模型保护数据安全。

spring-batch - 企业级批处理应用开发框架

Spring Batch批处理框架企业系统Java开发数据处理Github开源项目

Spring Batch是一个轻量级批处理框架，用于开发企业系统日常运营所需的批处理应用。它继承了Spring Framework的开发理念，支持大规模数据处理、事务管理和作业控制。该框架适用于数据ETL、迁移和批量报告等场景，为开发人员提供了便捷的企业级服务访问方式。

parquet-go - Go语言高性能Parquet文件处理库

parquet-goGo语言库列式存储数据处理高性能Github开源项目

parquet-go是一个用Go语言开发的Parquet文件处理库。该项目由Twilio Segment初创，提供高级API用于读写Parquet文件，同时兼顾低计算和内存占用。支持Parquet格式规范，包括列式存储、模式演化、行组排序、行组合并和布隆过滤器等特性。parquet-go适合需要高效处理大规模数据集的场景，为Go开发者提供了实用的Parquet文件操作工具。

llm-app-stack - 全面的大语言模型应用开发资源集合

LLM应用程序架构AI开源数据处理Github开源项目

LLM-App-Stack项目汇总了构建大语言模型应用所需的各类工具和服务。该资源集合涵盖数据管道、嵌入模型、向量数据库、编排工具和API插件等关键组件。项目同时整合了专有和开源的LLM API，以及应用托管平台和云服务选项，为开发者提供了全面的技术栈参考。这一资源库旨在帮助开发者更高效地构建和部署智能应用。

datafusion - 基于Apache Arrow的快速查询引擎支持SQL和DataFrame API

Apache DataFusion查询引擎RustArrow数据处理Github开源项目

Apache DataFusion是基于Rust和Apache Arrow的查询引擎，提供SQL和DataFrame API。支持CSV、Parquet、JSON和Avro格式，性能优异且可广泛定制。适用于构建特定领域查询引擎、数据库平台和数据管道，便于开发者快速起步并按需定制。其开源特性和活跃社区为项目开发提供了有力支持。

awesome-pipeline - 数据流水线工具集合简化复杂工作流程

工作流管道框架自动化数据处理Github开源项目

Awesome Pipeline收录了多种数据流水线工具,包括框架、库和平台。这些工具可帮助构建和优化各类数据处理流程,从简单的线性工作流到分布式计算均有涉及。该项目为不同规模的数据处理需求提供了丰富的开源解决方案。

polars - 多语言支持的高性能数据分析引擎

Polars数据处理多语言支持高性能DataFrameGithub开源项目

Polars是一个基于Rust开发的高性能数据处理引擎，提供Python、Node.js和R等多语言接口。它采用Apache Arrow列式内存模型，实现惰性/即时执行、多线程和SIMD等技术，高效处理大规模数据。Polars具有强大的表达式API和查询优化能力，支持流式处理超大数据集，在TPC-H基准测试中性能优异。此外，Polars还支持SQL查询和命令行操作，是一款轻量而强大的数据分析工具。

cookbook - 大型语言模型应用开发与优化实用指南

MistralAI模型示例代码数据处理机器学习Github开源项目

Mistral Cookbook 汇集了社区贡献的大型语言模型应用实例，涵盖基础聊天、嵌入、RAG、函数调用和微调等多个方面。项目包含Mistral AI官方示例和第三方工具集成，为开发者提供了全面的LLM应用开发资源。

pandarallel - 简化Pandas操作并行化的Python库

Pandarallel并行计算pandas数据处理Python库Github开源项目

Pandaral·lel是一个Python库，通过简单的代码修改实现Pandas操作的并行化处理。它利用多核CPU加速数据处理，并提供进度条显示。适用于Mac、Linux和Windows系统，可优化数据分析工作流程。目前该开源项目正在寻找新的维护者。

nushell - 新一代跨平台结构化数据处理shell

Nushell命令行工具跨平台数据处理插件系统Github开源项目

Nushell是一个开源的跨平台shell项目，主要特点是结构化数据处理。它能将文件和命令输出转化为结构化数据，通过管道操作处理不同格式的信息。该项目提供简洁的语法和多种内置命令，同时允许通过插件进行功能扩展。Nushell适用于Windows、macOS和Linux，致力于为用户带来现代化的shell使用体验。

tensordict - PyTorch张量集合操作的高效字典类工具

TensorDictPyTorch张量操作数据处理机器学习Github开源项目

TensorDict是一个继承张量属性的字典类，为PyTorch提供简洁的张量集合操作方法。它支持异步设备传输、节点间快速通信、张量形状操作和分布式计算，提高了代码的可读性、紧凑性和模块化。这个工具适用于模型训练、优化器实现等机器学习任务，能有效简化代码结构，提升开发效率。

okio - 高效简化Java I/O操作的开源数据处理库

OkioJava库数据处理开源软件Android开发Github开源项目

Okio是一个开源库，用于补充Java标准库中的java.io和java.nio功能。它简化了数据的访问、存储和处理过程，提供更易用的API，帮助开发者高效处理I/O操作。Okio源自Android HTTP客户端OkHttp项目，现已发展为独立且经过充分测试的解决方案，适用于多种数据处理场景。该项目由Square公司维护，采用Apache 2.0许可证发布。

pandas-ta - Python金融技术分析库提供130多种指标和实用工具

Pandas TA技术分析Python指标库数据处理Github开源项目

Pandas TA是一个基于Python的金融技术分析库，集成了130多种技术指标和60多种TA-Lib蜡烛图模式。该库提供常用指标如移动平均线、MACD、布林带等，并支持多进程计算以提高效率。它还包含示例代码，展示如何创建自定义策略。Pandas TA充分利用了Pandas库的优势，为金融数据分析提供了丰富的工具和灵活的功能。

ta - Python实现43种金融技术分析指标

技术分析Python金融指标数据处理Github开源项目

TA是一个基于Pandas和Numpy的Python技术分析库,专门用于金融时间序列数据的特征工程。该库实现了43种技术指标,涵盖成交量、波动性、趋势和动量等方面,包括移动平均线、布林带、MACD等。TA为金融数据分析和量化交易策略开发提供了全面的工具支持。

datatrove - 用于大规模文本数据处理和去重的开源Python库

DataTrove数据处理大规模管道文本去重Github开源项目

DataTrove是一个开源Python库，专门用于处理、过滤和去重大规模文本数据。它提供预构建的常用处理模块和自定义功能支持。该库的处理流程可在本地或Slurm集群上运行，具有低内存消耗和多步骤设计，适合处理大型语言模型训练数据等大规模工作负载。DataTrove支持多种文件系统，为数据处理提供灵活解决方案。

litdata - 优化数据处理和流式传输工具提升AI模型训练效率

LitData数据处理模型训练数据优化云存储Github开源项目

LitData是一个开源的数据处理和优化工具，专注于提升AI模型训练效率。它提供并行数据处理、向量嵌入创建、分布式推理和大规模网站抓取功能。LitData优化数据集以加速模型训练，支持云端大规模数据流式传输，并实现远程数据的无本地加载使用。这些特性使LitData成为提高数据处理效率和AI模型训练速度的有力工具。

bigflow - 简化GCP数据流水线开发的高效Python框架

BigFlow数据处理GCPPython框架部署Github开源项目

BigFlow是一个专为Google Cloud Platform (GCP)设计的数据处理框架。该框架提供Docker化部署、CLI工具、自动化构建与部署、统一项目结构，并支持GCP主要数据处理技术。BigFlow优化了数据工程流程，支持Dataflow和BigQuery，适用于不同规模的数据处理项目。框架还包含项目启动器，帮助快速搭建工程环境。

python-machine-learning-book-3rd-edition - Python与机器学习代码实例——从基础到高级应用

Python Machine Learningscikit-learnTensorFlow机器学习数据处理Github开源项目

《Python Machine Learning》第三版全面覆盖了数据预处理、分类、回归、深度学习和强化学习等机器学习领域的核心概念。书中提供了Scikit-Learn和TensorFlow的代码示例，帮助读者掌握模型评估、超参数优化和集成学习等技术。本书适合初学者和进阶用户，通过代码仓库可以获得丰富的实践经验。出版信息：Packt Publishing, 2019年12月12日，ISBN-13: 978-1789955750。

PyTorch Geometric: 强大的图神经网络库

2024年08月30日

MLOps工具和最佳实践全面指南

2024年08月30日

Data-Juicer: 为大模型提供更高质量、更丰富、更易"消化"的数据

2024年08月30日

Unstructured: 开源非结构化数据预处理工具

2024年08月30日

DataChain: 现代化的AI数据处理框架

2024年08月30日

Dim: 革新开放数据管理的智能工具

2024年08月31日

探索小型语言模型:从数据收集到模型训练的全流程指南

2024年08月31日

ChatGLM-LoRA-RLHF-PyTorch:通过LoRA和RLHF为ChatGLM模型微调的完整流程

2024年08月31日

Python机器学习(第三版)代码仓库详解

2024年08月30日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com