#特征工程

superlinked - 信息检索与特征工程的超模态向量嵌入计算框架
Superlinked信息检索机器学习特征工程向量嵌入Github开源项目
Superlinked 是一个计算框架,专注将复杂数据(如结构化和非结构化数据)转化为超模态向量嵌入,适用于RAG、搜索、推荐和分析系统。它结合了预训练模型的便利性和自定义模型的性能。该框架提供多种嵌入类型、定制编码器、组合编码器和动态参数等功能,并支持多种向量数据库,适用于实验和生产环境。
Merlin - GPU加速推荐系统解决方案 助力大规模数据处理与模型训练
NVIDIA Merlin推荐系统GPU加速深度学习特征工程Github开源项目
Merlin是NVIDIA开发的开源库,为推荐系统提供GPU加速解决方案。它包含多个组件如NVTabular和HugeCTR,支持大规模数据处理、特征工程、模型训练和部署。Merlin能处理数百TB数据,通过GPU加速提升系统性能。它兼容TensorFlow、PyTorch等框架,便于构建和优化推荐模型。
NVTabular - GPU加速的大规模表格数据特征工程库
NVTabularGPU加速特征工程数据预处理推荐系统Github开源项目
NVTabular是NVIDIA Merlin框架的组件,用于处理TB级数据集和训练深度学习推荐系统。该库利用GPU加速计算,提供高级抽象以简化代码。它可处理超出内存限制的大规模数据集,使数据科学家专注于数据操作,快速准备实验数据,并加速生产模型的数据转换过程。
maml - 材料科学机器学习的高级Python接口包
maml机器学习材料科学特征工程潜在能量面Github开源项目
maml是一个为材料科学机器学习设计的Python包,提供高级接口简化开发流程。它整合了scikit-learn和tensorflow等机器学习库,以及pymatgen和matminer等材料科学工具,实现特征提取和模型构建。maml支持多种局部环境特征,如双谱系数和Behler-Parrinello对称函数,并包含势能面建模、X射线吸收光谱预测等应用模块。
mlforecast - 高性能可扩展的机器学习时间序列预测框架
MLForecast时间序列预测机器学习特征工程分布式训练Github开源项目
mlforecast是一个基于机器学习模型的时间序列预测框架,具有高效的特征工程实现和良好的可扩展性。该框架支持pandas、polars、spark等多种数据格式,兼容sklearn API,能够处理海量数据。除了支持概率预测和外生变量,mlforecast还提供分布式训练功能,适用于大规模生产环境的时间序列预测任务。框架采用熟悉的fit和predict接口,便于快速上手和集成到现有项目中。
kaggle_pipeline_tps_aug_22 - 开源Python框架简化Kaggle表格数据竞赛流程
Kaggle机器学习数据处理特征工程模型训练Github开源项目
这是一个面向Kaggle表格数据竞赛的开源Python框架。它集成了数据处理、可视化、特征工程、模型训练等功能的API。虽然最初为Kaggle TPS August 2022设计,但经简单调整可适用于其他表格数据竞赛。该框架涵盖了从数据预处理到提交预测结果的完整机器学习流程,为Kaggle参赛者提供了实用的工具支持。
temporian - 高效可靠的时间数据预处理库
Temporian时间数据处理Python库特征工程数据预处理Github开源项目
Temporian是一个专注于时间序列分析和数据预处理的Python库。它支持多种时间数据类型,包括多变量时间序列、事件日志和跨源事件流。经过优化,Temporian在处理时间数据时的效率可达常规库的1000倍。此外,它还提供了防止数据泄露的功能,并能与现有机器学习生态系统无缝集成,为时间数据处理提供了高效可靠的解决方案。
feature-engineering-for-time-series-forecasting - 时间序列预测特征工程全面指南
时间序列预测特征工程数据处理机器学习PythonGithub开源项目
该项目提供时间序列预测特征工程的全面指南,涵盖数据表格化、时间序列分解、缺失值处理和异常值检测等核心内容。深入介绍滞后特征、窗口特征、趋势和季节性特征的创建方法,以及日期时间和分类特征的处理技巧。通过实践代码和详细说明,旨在提升预测模型性能。
AutoMLPipeline.jl - Julia机器学习管道构建和优化工具
AutoMLPipeline机器学习管道优化特征工程集成学习Github开源项目
AutoMLPipeline工具包用简洁表达式构建复杂机器学习管道。它基于Julia宏编程实现符号化处理,便于优化回归和分类模型结构。主要特点包括符号化API、常用库封装、可扩展架构、元集成学习和特征选择。该工具简化了从数据预处理到模型训练的流程,支持多种算法组件。
nyaggle - Kaggle和数据科学竞赛的Python工具库
nyaggle特征工程实验追踪验证机器学习Github开源项目
nyaggle是一个面向数据科学竞赛的Python工具库,专注于实验跟踪、特征工程和模型验证。它提供实验追踪、集成学习、特征存储等功能,支持高级API进行交叉验证实验。该库还包含目标编码、BERT文本向量化等特征工程工具,以及对抗验证和时间序列分割等验证方法,是Kaggle等竞赛中的实用助手。
qgate-sln-mlrun - MLRun解决方案的全面质量检测工具
MLRun质量测试特征工程数据摄取模型部署Github开源项目
qgate-sln-mlrun是一个针对MLRun和Iguazio解决方案的质量检测工具。它提供功能、集成、性能和安全性等方面的独立测试,支持项目管理、特征工程、数据处理、模型开发等多个场景。该工具兼容Redis、MySQL、Kafka等多种数据源和目标,可在企业环境全面部署前进行深度质量检查,为MLRun用户提供客观、全面的质量评估。