#特征工程

Superlinked学习资料汇总 - 企业级AI应用的计算框架

2024年09月10日
Cover of Superlinked学习资料汇总 - 企业级AI应用的计算框架

QGate-Sln-MLRun: MLRun和Iguazio解决方案的质量门控工具

2024年09月05日
Cover of QGate-Sln-MLRun: MLRun和Iguazio解决方案的质量门控工具

AutoMLPipeline.jl: 简化机器学习流水线构建的Julia包

2024年09月05日
Cover of AutoMLPipeline.jl: 简化机器学习流水线构建的Julia包

时间序列预测的特征工程技术

2024年09月05日
Cover of 时间序列预测的特征工程技术

Temporian: 安全、简单、高效的时序数据处理库

2024年09月05日
Cover of Temporian: 安全、简单、高效的时序数据处理库

mlforecast: 可扩展的机器学习时间序列预测框架

2024年09月05日
Cover of mlforecast: 可扩展的机器学习时间序列预测框架

Kaggle Pipeline for TPS Aug 22: 一个强大的表格数据竞赛工具包

2024年09月05日
Cover of Kaggle Pipeline for TPS Aug 22: 一个强大的表格数据竞赛工具包

MAML: 一种强大的元学习算法

2024年09月05日
Cover of MAML: 一种强大的元学习算法

NVTabular: NVIDIA推出的高性能特征工程库

2024年09月05日
Cover of NVTabular: NVIDIA推出的高性能特征工程库

NVIDIA Merlin: 革命性的GPU加速推荐系统框架

2024年09月05日
Cover of NVIDIA Merlin: 革命性的GPU加速推荐系统框架
相关项目
Project Cover

superlinked

Superlinked 是一个计算框架,专注将复杂数据(如结构化和非结构化数据)转化为超模态向量嵌入,适用于RAG、搜索、推荐和分析系统。它结合了预训练模型的便利性和自定义模型的性能。该框架提供多种嵌入类型、定制编码器、组合编码器和动态参数等功能,并支持多种向量数据库,适用于实验和生产环境。

Project Cover

Merlin

Merlin是NVIDIA开发的开源库,为推荐系统提供GPU加速解决方案。它包含多个组件如NVTabular和HugeCTR,支持大规模数据处理、特征工程、模型训练和部署。Merlin能处理数百TB数据,通过GPU加速提升系统性能。它兼容TensorFlow、PyTorch等框架,便于构建和优化推荐模型。

Project Cover

NVTabular

NVTabular是NVIDIA Merlin框架的组件,用于处理TB级数据集和训练深度学习推荐系统。该库利用GPU加速计算,提供高级抽象以简化代码。它可处理超出内存限制的大规模数据集,使数据科学家专注于数据操作,快速准备实验数据,并加速生产模型的数据转换过程。

Project Cover

maml

maml是一个为材料科学机器学习设计的Python包,提供高级接口简化开发流程。它整合了scikit-learn和tensorflow等机器学习库,以及pymatgen和matminer等材料科学工具,实现特征提取和模型构建。maml支持多种局部环境特征,如双谱系数和Behler-Parrinello对称函数,并包含势能面建模、X射线吸收光谱预测等应用模块。

Project Cover

mlforecast

mlforecast是一个基于机器学习模型的时间序列预测框架,具有高效的特征工程实现和良好的可扩展性。该框架支持pandas、polars、spark等多种数据格式,兼容sklearn API,能够处理海量数据。除了支持概率预测和外生变量,mlforecast还提供分布式训练功能,适用于大规模生产环境的时间序列预测任务。框架采用熟悉的fit和predict接口,便于快速上手和集成到现有项目中。

Project Cover

kaggle_pipeline_tps_aug_22

这是一个面向Kaggle表格数据竞赛的开源Python框架。它集成了数据处理、可视化、特征工程、模型训练等功能的API。虽然最初为Kaggle TPS August 2022设计,但经简单调整可适用于其他表格数据竞赛。该框架涵盖了从数据预处理到提交预测结果的完整机器学习流程,为Kaggle参赛者提供了实用的工具支持。

Project Cover

temporian

Temporian是一个专注于时间序列分析和数据预处理的Python库。它支持多种时间数据类型,包括多变量时间序列、事件日志和跨源事件流。经过优化,Temporian在处理时间数据时的效率可达常规库的1000倍。此外,它还提供了防止数据泄露的功能,并能与现有机器学习生态系统无缝集成,为时间数据处理提供了高效可靠的解决方案。

Project Cover

feature-engineering-for-time-series-forecasting

该项目提供时间序列预测特征工程的全面指南,涵盖数据表格化、时间序列分解、缺失值处理和异常值检测等核心内容。深入介绍滞后特征、窗口特征、趋势和季节性特征的创建方法,以及日期时间和分类特征的处理技巧。通过实践代码和详细说明,旨在提升预测模型性能。

Project Cover

AutoMLPipeline.jl

AutoMLPipeline工具包用简洁表达式构建复杂机器学习管道。它基于Julia宏编程实现符号化处理,便于优化回归和分类模型结构。主要特点包括符号化API、常用库封装、可扩展架构、元集成学习和特征选择。该工具简化了从数据预处理到模型训练的流程,支持多种算法组件。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号