#数据处理

scicloj.ml:Clojure机器学习领域的新宠儿

2024年09月05日
Cover of scicloj.ml:Clojure机器学习领域的新宠儿

时间序列预测的特征工程技术

2024年09月05日
Cover of 时间序列预测的特征工程技术

wxee: 连接Earth Engine和xarray的强大Python工具

2024年09月05日
Cover of wxee: 连接Earth Engine和xarray的强大Python工具

PyTimeTK: 简化和加速时间序列分析的Python库

2024年09月05日
Cover of PyTimeTK: 简化和加速时间序列分析的Python库

Squirrel-Core: 革新机器学习数据管理的开源利器

2024年09月05日
Cover of Squirrel-Core: 革新机器学习数据管理的开源利器

OmniEvent: 全面、统一和模块化的事件抽取工具包

2024年09月05日
Cover of OmniEvent: 全面、统一和模块化的事件抽取工具包

tidytext: 使用整洁数据原则进行文本挖掘的R语言工具包

2024年09月05日
Cover of tidytext: 使用整洁数据原则进行文本挖掘的R语言工具包

Kaggle Pipeline for TPS Aug 22: 一个强大的表格数据竞赛工具包

2024年09月05日
Cover of Kaggle Pipeline for TPS Aug 22: 一个强大的表格数据竞赛工具包

数据工程师必备工具箱:awesome-data-engineering项目全解析

2024年09月05日
Cover of 数据工程师必备工具箱:awesome-data-engineering项目全解析

Apache Beam: 统一批处理和流处理的开源大数据处理框架

2024年09月05日
Cover of Apache Beam: 统一批处理和流处理的开源大数据处理框架
相关项目
Project Cover

SheetGod

通过将口头英语指令转换成Excel公式、宏和正则表达式,SheetGod强大的AI功能助你轻松处理复杂数据,还能生成Google Appscript代码自动化日常任务。深受广大Excel和Google Sheets用户信赖与推荐。

Project Cover

pytorch_geometric

PyTorch Geometric是一个基于PyTorch的图形神经网络库,旨在简化结构化数据的建模与训练流程。支持小批量和大规模图的处理,并提供全面的GPU加速、数据管道处理以及常用基准数据集。这使得它成为机器学习研究者和初学者理想的选择。

Project Cover

awesome-mlops

发掘和运用顶尖MLOps工具:该项目汇集了多种自动化机器学习、数据处理、模型部署工具,供数据科学家和机器学习工程师选择使用,以简化机器学习流程,优化生产活动。

Project Cover

data-juicer

Data-Juicer 是一款强大的一站式数据处理系统,专为大语言模型设计。它支持多模态数据处理,具有80多种操作符和20多个配置方案,提供高效且并行的数据处理能力。其友好的用户体验和全面的文档,使其成为生产环境中的优选方案。

Project Cover

unstructured

该开源工具提供了处理图像和文本文档(PDF、HTML、Word文档等)的组件,能够优化大语言模型(LLM)的数据处理流程。通过模块化功能和连接器系统,简化数据导入和预处理,将非结构化数据高效转换为结构化数据。其无服务器API提供了高效、响应迅速的解决方案。快速入门指南涵盖了在容器中运行库以及多种安装方法。

Project Cover

datachain

DataChain是一个为AI特定场景设计的数据框架库。它通过在非结构化文件上构建的元数据层,帮助机器学习和AI工程师进行数据分析。支持处理各种存储中的原始文件并实现数据集版本控制。用户可以使用Python接口进行数据转换和元数据丰富。项目特色包括功能链式数据处理方法和数据版本控制,并区分CPU和GPU负载, 适用于分布式计算。

Project Cover

neptune-client

Neptune 提供一款高效实验跟踪平台,适用于团队基础模型训练。用户可记录大量运行数据,实时对比实验结果。其灵活日志记录、自定义仪表板、多节点支持,加速训练监控和优化。支持25+框架集成,是MLOps理想工具。

Project Cover

voxelgpt

VoxelGPT 是基于 FiftyOne 的插件,结合大型语言模型和多模态模型,通过自然语言即可对数据进行过滤、排序、语义切片和查询。支持数据集、计算、工作区查询及机器学习问题,无需编写代码。提供实时演示和详细安装指南,助用户轻松从数据中获取价值。

Project Cover

python-machine-learning-book-3rd-edition

《Python Machine Learning》第三版全面覆盖了数据预处理、分类、回归、深度学习和强化学习等机器学习领域的核心概念。书中提供了Scikit-Learn和TensorFlow的代码示例,帮助读者掌握模型评估、超参数优化和集成学习等技术。本书适合初学者和进阶用户,通过代码仓库可以获得丰富的实践经验。出版信息:Packt Publishing, 2019年12月12日,ISBN-13: 978-1789955750。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号