Logo

#数据挖掘

Logo of awesome-AI-books
awesome-AI-books
awesome-AI-books聚集了包括AI基础理论、数学、深度学习等多方面的书籍和PDF资源。详尽的章节覆盖了数据挖掘、机器学习实战与最新学术研究,为初学者到研究者的AI学习提供综合性帮助。
Logo of Prelto
Prelto
Prelto是一款专注于Reddit社交媒体分析的AI平台,提供智能问答、模式识别和自动标签分类等功能。通过数据挖掘技术,Prelto从海量帖子和评论中提取有价值信息,帮助用户深入理解Reddit受众,识别趋势并获取洞察。适用于市场研究、用户行为分析和内容策略制定,为决策提供强大的数据支持。
Logo of game-datasets
game-datasets
game-datasets项目汇集了大量游戏相关的数据集、API和AI工具资源。涵盖从经典游戏到现代电竞的多个领域,提供了丰富的数据挖掘和AI开发素材。项目持续更新,为游戏AI和数据科学研究提供全面参考。收录内容包括游戏API、AI竞赛平台、开源游戏引擎、相关书籍等,是游戏研究和开发的重要资源库。
Logo of anomaly-detection-resources
anomaly-detection-resources
本项目汇集了异常检测领域的全面学习资源,包括书籍、论文、课程、数据集和工具库。涵盖多变量数据、时间序列和图网络等多种异常检测类型,并提供关键算法、高维数据和集成方法等研究方向的资料。同时列出重要会议和期刊,为异常检测研究者和实践者提供了宝贵的资源库。
Logo of awesome-time-series-segmentation-papers
awesome-time-series-segmentation-papers
该项目汇集了时间序列分割领域的经典算法和最新研究成果,涵盖单变量、多变量和张量时间序列的分割方法。内容包括无监督语义分割、变点检测等技术,并提供相关代码实现和数据集链接。这一资源对时间序列处理和模式识别研究具有重要参考价值。
Logo of graph-based-deep-learning-literature
graph-based-deep-learning-literature
该项目收录了基于图的深度学习领域内,例如NeurIPS、ICML和ICLR等顶级会议的出版物、相关工作坊、综述文章、书籍以及软件资源链接。这些资源为学术研究人员和专业学者提供了方便的一站式服务,便于他们探索、查询及利用该领域内的最新科研成果和工具。
Logo of CC5205
CC5205
智利大学计算机科学系的开源数据挖掘课程,结合理论与实践。课程资源丰富,包括视频、幻灯片和补充材料,全面覆盖从数据分析到机器学习算法的各个方面。特别关注数据隐私和伦理,为学习者提供全方位的数据科学教育。通过实践项目和丰富的学习资源,帮助学生和专业人士深入掌握数据挖掘和机器学习技能。
Logo of kshape-python
kshape-python
kshape-python是一种用于单变量和多变量时间序列聚类的高效无监督算法。该方法在ACM SIGMOD 2015会议上获得最佳论文奖,已在多个科学领域和知名企业中广泛应用。kshape-python在准确性和效率方面表现出色,在包含100多个数据集的基准测试中名列前茅。该项目提供CPU和GPU版本实现,可处理大规模时间序列数据。项目提供详细的安装说明、使用示例和基准测试结果,支持单变量和多变量时间序列数据,可在CPU或GPU上运行。该方法在UCR和UAE两个established benchmarks上进行了评估,展示了其在不同数据集上的性能。
Logo of stumpy
stumpy
STUMPY是一个高效的Python库,用于计算时间序列矩阵剖面。支持多维数据分析、分布式计算和GPU加速,适用于模式发现、异常检测等多种数据挖掘任务。其简单易用的特性使研究人员和开发者能够快速分析复杂的时间序列数据。
Logo of k-means-constrained
k-means-constrained
k-means-constrained库为K均值聚类算法引入了簇大小约束功能。它巧妙地将簇分配问题转化为最小成本流问题,并借助Google OR-Tools的C++实现高效求解。作为scikit-learn KMeans的扩展,该库保持了兼容的API设计,适合需要精确控制簇规模的聚类应用场景。支持Python 3.8+环境,可通过pip便捷安装。
Logo of Discord-Datamining
Discord-Datamining
通过对比Discord Canary客户端的JavaScript文件,Discord-Datamining项目追踪并分析每次更新中的变化。这个独立项目为Discord爱好者提供了新功能和改进的深入洞察。项目以教育为目的,欢迎贡献者在commit中分享新发现,同时提供仓库订阅功能以便及时获取更新信息。
Logo of matminer
matminer
matminer是一个面向材料科学领域的开源数据挖掘库。该项目支持Python 3.9+,提供数据集和特征提取工具,便于研究人员进行材料数据分析。matminer包含详细文档、示例仓库和支持论坛,涵盖数据检索、特征化和数据集管理功能。此外,项目还提供了相关工具如automatminer和matbench,进一步扩展了其在材料科学研究中的应用范围。作为开源项目,matminer鼓励用户在研究中引用相关论文,并提供了方便的citation()方法来获取引用信息,体现了其学术价值和在材料科学社区中的影响力。
Logo of elki
elki
ELKI是一个Java开源数据挖掘框架,重点研究聚类分析和异常检测算法。该框架提供了众多可参数化的算法和数据索引结构,以提升性能和扩展性。ELKI采用模块化设计,方便研究人员和学生进行扩展,并鼓励贡献新方法。作为一个公平、实用的算法评估和基准测试平台,ELKI支持多种数据类型、距离度量和文件格式。
Logo of orange3
orange3
Orange作为一款开源的数据挖掘与可视化工具箱,致力于数据科学的民主化。它面向新手和专家,通过基于工作流的方式隐藏复杂机制,使用户无需编程或深入的数学知识即可探索数据。该工具支持可视化工作流创建、多种数据分析方法,并提供丰富的插件扩展功能。Orange适用于各类数据科学任务,从数据预处理、特征选择到模型评估,涵盖简单的数据可视化到复杂的机器学习模型构建。作为跨平台工具,Orange支持Windows、Mac和Linux系统,为用户提供灵活且强大的数据分析体验。
Logo of TSDB
TSDB
TSDB是一个时间序列数据集加载库,支持172个公开数据集的一键加载。该工具简化了研究人员和工程师的数据获取流程,使他们能专注于数据处理。TSDB具备数据下载、加载和缓存管理功能,并支持缓存目录迁移。作为PyPOTS工具箱的组成部分,TSDB为时间序列数据挖掘提供了基础支持。
Logo of awesome-AI-for-time-series-papers
awesome-AI-for-time-series-papers
这是一个全面收录人工智能在时间序列分析(AI4TS)领域最新研究成果的资源库。项目汇集了顶级AI会议和期刊发表的论文、教程和综述,涉及时间序列、时空数据、事件数据等多个方面。资源库实时更新NeurIPS、ICML、KDD等重要会议的相关论文,为AI4TS领域的研究人员和工程师提供了丰富且及时的学术参考。
Logo of catch22
catch22
catch22是一个包含22个时间序列特征的开源库,由C语言编写,支持Python、R、Matlab和Julia等多种编程语言。这些特征是从7000多个候选中精选而来,在93个实际时间序列分类问题中表现优异。catch22提供了跨平台的安装方法和使用接口,包括各语言的原生版本和C编译版本。该工具主要用于高效提取时间序列的动态特征,适用于多种研究和应用场景。
Logo of Awesome-Recsys
Awesome-Recsys
Awesome-Recsys项目汇集推荐系统领域顶级会议论文,包括SIGIR、RecSys、ICLR等重要会议的最新研究成果。该资源库定期更新,提供论文标题和链接,方便研究人员和从业者快速了解领域进展,获取感兴趣的研究内容。