#数据处理

探索Awesome Pipeline:强大的工作流管理工具集合

2 个月前
Cover of 探索Awesome Pipeline:强大的工作流管理工具集合

LitData: 高效优化和转换大规模数据集的利器

3 个月前
Cover of LitData: 高效优化和转换大规模数据集的利器

Apache DataFusion:高性能、可扩展的Rust查询引擎

3 个月前
Cover of Apache DataFusion:高性能、可扩展的Rust查询引擎

LLM应用技术栈概览:从数据处理到应用部署的全流程解析

3 个月前
Cover of LLM应用技术栈概览:从数据处理到应用部署的全流程解析

pyntcloud:让三维点云处理变得有趣又简单

3 个月前
Cover of pyntcloud:让三维点云处理变得有趣又简单

Menpo:强大的计算机视觉和机器学习Python工具包

3 个月前
Cover of Menpo:强大的计算机视觉和机器学习Python工具包

PyTorch Scatter:高效稀疏更新操作的扩展库

3 个月前
Cover of PyTorch Scatter:高效稀疏更新操作的扩展库

Fondant:简化数据处理与共享的革命性框架

3 个月前
Cover of Fondant:简化数据处理与共享的革命性框架

ChatGLM-LoRA-RLHF-PyTorch:通过LoRA和RLHF为ChatGLM模型微调的完整流程

3 个月前
Cover of ChatGLM-LoRA-RLHF-PyTorch:通过LoRA和RLHF为ChatGLM模型微调的完整流程

探索小型语言模型:从数据收集到模型训练的全流程指南

3 个月前
Cover of 探索小型语言模型:从数据收集到模型训练的全流程指南
相关项目
Project Cover

SheetGod

通过将口头英语指令转换成Excel公式、宏和正则表达式,SheetGod强大的AI功能助你轻松处理复杂数据,还能生成Google Appscript代码自动化日常任务。深受广大Excel和Google Sheets用户信赖与推荐。

Project Cover

pytorch_geometric

PyTorch Geometric是一个基于PyTorch的图形神经网络库,旨在简化结构化数据的建模与训练流程。支持小批量和大规模图的处理,并提供全面的GPU加速、数据管道处理以及常用基准数据集。这使得它成为机器学习研究者和初学者理想的选择。

Project Cover

awesome-mlops

发掘和运用顶尖MLOps工具:该项目汇集了多种自动化机器学习、数据处理、模型部署工具,供数据科学家和机器学习工程师选择使用,以简化机器学习流程,优化生产活动。

Project Cover

data-juicer

Data-Juicer 是一款强大的一站式数据处理系统,专为大语言模型设计。它支持多模态数据处理,具有80多种操作符和20多个配置方案,提供高效且并行的数据处理能力。其友好的用户体验和全面的文档,使其成为生产环境中的优选方案。

Project Cover

unstructured

该开源工具提供了处理图像和文本文档(PDF、HTML、Word文档等)的组件,能够优化大语言模型(LLM)的数据处理流程。通过模块化功能和连接器系统,简化数据导入和预处理,将非结构化数据高效转换为结构化数据。其无服务器API提供了高效、响应迅速的解决方案。快速入门指南涵盖了在容器中运行库以及多种安装方法。

Project Cover

datachain

DataChain是一个为AI特定场景设计的数据框架库。它通过在非结构化文件上构建的元数据层,帮助机器学习和AI工程师进行数据分析。支持处理各种存储中的原始文件并实现数据集版本控制。用户可以使用Python接口进行数据转换和元数据丰富。项目特色包括功能链式数据处理方法和数据版本控制,并区分CPU和GPU负载, 适用于分布式计算。

Project Cover

neptune-client

Neptune 提供一款高效实验跟踪平台,适用于团队基础模型训练。用户可记录大量运行数据,实时对比实验结果。其灵活日志记录、自定义仪表板、多节点支持,加速训练监控和优化。支持25+框架集成,是MLOps理想工具。

Project Cover

voxelgpt

VoxelGPT 是基于 FiftyOne 的插件,结合大型语言模型和多模态模型,通过自然语言即可对数据进行过滤、排序、语义切片和查询。支持数据集、计算、工作区查询及机器学习问题,无需编写代码。提供实时演示和详细安装指南,助用户轻松从数据中获取价值。

Project Cover

python-machine-learning-book-3rd-edition

《Python Machine Learning》第三版全面覆盖了数据预处理、分类、回归、深度学习和强化学习等机器学习领域的核心概念。书中提供了Scikit-Learn和TensorFlow的代码示例,帮助读者掌握模型评估、超参数优化和集成学习等技术。本书适合初学者和进阶用户,通过代码仓库可以获得丰富的实践经验。出版信息:Packt Publishing, 2019年12月12日,ISBN-13: 978-1789955750。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号