#数据分析

AI Lens For Power BI - Power BI智能数据分析可视化插件
OpenAI数据分析可视化AI工具Power BIAI Lens
AI Lens For Power BI是一款Power BI可视化插件,集成了OpenAI和ChatGPT功能。用户可通过自然语言与数据交互,将复杂问题转化为数据洞察。该工具支持实时分析、品牌定制,并注重数据安全和隐私保护。AI Lens简化了Power BI的数据分析流程,提高了决策效率。
GiantCampaign - 专业高效的电子邮件营销解决方案
自动化数据分析AI工具整合电子邮件营销客户细分
GiantCampaign提供专业的电子邮件营销服务,包括自动化工具、客户细分和数据分析功能。该平台支持创建个性化邮件活动,集成多种营销工具,并提供实时分析报告。用户可以通过GiantCampaign优化邮件营销策略,提升销售业绩和客户关系。
tsfel - 多领域时间序列特征提取Python库
Github开源项目数据分析Python库时间序列特征提取TSFEL
TSFEL是一个开源的Python库,专门用于时间序列特征提取。该库提供超过65种特征,覆盖统计、时间、频谱和分形等多个领域。TSFEL支持在线和离线使用,具有用户友好的界面和完整的文档。它注重计算效率,并提供复杂度评估功能。TSFEL的设计易于扩展,支持添加自定义特征。这个库适用于研究人员和数据科学家,能够简化时间序列特征提取的过程。
george - Python高斯过程回归库
Github开源项目机器学习数据分析Python库George高斯过程回归
George是一个开源的Python库,专注于高斯过程回归。该库提供高效实现,支持多种操作系统,采用MIT许可证。George在GitHub上维护,具有完善的文档和测试流程,包括持续集成和代码覆盖率检查。这个工具适用于需要处理复杂回归问题的数据分析工作。
pynndescent - Python实现的高效近似最近邻搜索库
Github开源项目机器学习性能优化数据分析近邻搜索PyNNDescent
PyNNDescent是一个基于Python的近似最近邻搜索库。该库采用最近邻下降算法构建k近邻图,结合随机投影树初始化,支持多种距离度量方式。PyNNDescent提供简洁的API接口,可与scikit-learn良好集成,适用于高精度(80%-100%)的近似最近邻搜索需求。在性能基准测试中,PyNNDescent展现出优异表现,是一个兼具速度和灵活性的ANN解决方案。
spotlight - 快速可视化非结构化数据集的开源工具
Github开源项目机器学习数据可视化数据分析非结构化数据Renumics Spotlight
Spotlight是一个开源的数据可视化工具,专为快速理解和探索非结构化数据集而设计。它支持图像、音频、文本等多种数据类型,通过简单的代码即可创建交互式可视化。Spotlight能够利用数据增强功能识别关键数据集群,适用于机器学习和工程领域的复杂数据分析任务。这个工具可以帮助团队更有效地分析和沟通非结构化数据问题。
umato - 创新型双阶段优化降维技术
Github开源项目机器学习数据可视化数据分析UMATO维度降低
UMATO是一种新型降维技术,采用两阶段优化方法保留高维数据的全局和局部结构。与PCA、t-SNE等传统算法相比,UMATO在准确性、稳定性和可扩展性方面表现更佳。该技术特别擅长保持数据的全局结构,同时保持局部特征的竞争力。在处理大型数据集时,UMATO效率显著提高,平均比UMAP快14.3倍。UMATO通过pip安装简单便捷,适用于各种需要高质量数据可视化和分析的场景。
ComplexHeatmap - R语言复杂热图包 实现多维数据可视化与灵活注释
Github开源项目数据分析生物信息学ComplexHeatmap热图可视化R语言包
ComplexHeatmap是一个用于创建复杂热图的R软件包,提供灵活的多热图排列和多样化注释功能。该工具可视化不同数据集间的关联并揭示潜在模式,支持单热图、带注释热图、热图列表和行注释等功能。ComplexHeatmap适用于展示基因组数据、甲基化谱和单细胞RNA测序等复杂数据,并能创建增强型OncoPrint、UpSet图和3D热图。其高度定制性使其成为生物信息学和数据科学领域的强大可视化工具。
MachineLearningWithMe - 全面深入的机器学习算法实践教程
人工智能Github开源项目机器学习数据分析模型算法
MachineLearningWithMe是一个系统化的机器学习教程项目,内容涵盖从环境配置到高级算法的多个方面。项目详细讲解并实现了线性回归、逻辑回归、K近邻、朴素贝叶斯、决策树、支持向量机、聚类和降维等核心算法。特别强调动手实践,指导读者从零开始实现各类算法,并提供泰坦尼克号生还预测等实际案例。此外还包括模型评估、特征工程和集成学习等进阶内容,适合初学到中级水平的学习者深入探索机器学习领域。
osint_stuff_tool_collection - 综合OSINT工具集 提升网络调查能力
Github开源项目数据分析网络安全社交媒体OSINT地理定位
这是一个包含1000多个开源情报(OSINT)工具和服务的综合集合,涵盖社交媒体分析、地理定位、域名/IP调查、图像搜索等多个领域。项目由@cyb_detective维护,为OSINT爱好者和专业人士提供丰富资源,旨在提高信息收集效率。工具按类别组织,方便查找使用。
CC5205 - 综合数据挖掘与机器学习课程资源
Github开源项目神经网络机器学习数据分析数据挖掘聚类算法
智利大学计算机科学系的开源数据挖掘课程,结合理论与实践。课程资源丰富,包括视频、幻灯片和补充材料,全面覆盖从数据分析到机器学习算法的各个方面。特别关注数据隐私和伦理,为学习者提供全方位的数据科学教育。通过实践项目和丰富的学习资源,帮助学生和专业人士深入掌握数据挖掘和机器学习技能。
name-dataset - 跨国姓名数据库提供全面的名字和姓氏信息分析
Github开源项目数据分析Python库个人信息名字数据库Facebook数据
names-dataset是一个大型姓名数据库项目,涵盖105个国家的730K个名字和983K个姓氏。项目提供姓名的流行度、国家分布和性别信息,支持多语言和多地区查询。用户可借此了解特定姓名在不同国家的使用情况,有助于人名分析和跨文化研究。该项目为姓名研究提供了丰富的数据资源,包括姓名的流行度排名、地理分布和性别关联。通过简单的Python接口,研究人员和开发者可以轻松获取和分析这些信息,为人名学、人口统计学和社会学研究提供数据支持。数据基于Facebook用户信息。
pydlm - 基于Python的贝叶斯时间序列建模库
Github开源项目数据分析Python库PyDLM时间序列建模贝叶斯动态线性模型
pydlm是一个Python时间序列建模库,基于贝叶斯动态线性模型。它提供了快速的模型拟合和推断,包含趋势、季节性和动态回归等灵活组件。支持前向过滤、后向平滑和长期预测,并具有简洁的API。pydlm适用于构建复杂时间序列模型,进行数据分析和预测。
mljar-supervised - 开源自动机器学习框架 简化表格数据建模
Github开源项目模型训练机器学习数据分析AutoMLMLJAR
mljar-supervised是一个专门用于表格数据的开源自动机器学习框架。它可自动完成数据预处理、模型构建和超参数调优,生成详细的Markdown报告解释每个模型。该框架提供多种工作模式,包括数据解释、生产部署、竞赛优化等。支持多种算法并具备模型集成功能,能有效简化数据科学工作流程,帮助用户快速构建高质量机器学习模型。
pyp - Python命令行工具简化shell脚本编写
Github开源项目Python数据分析命令行工具文本处理pyp
pyp是一款Python命令行工具,能在shell环境中执行Python代码。它通过静态分析检测未定义变量并转换抽象语法树,实现自动导入模块、智能打印等功能。pyp可用简洁的Python代码替代常见shell工具,提高脚本编写效率。该工具还支持自定义配置和魔法变量,为用户提供灵活的shell处理体验。
pyCirclize - 基于matplotlib的Python圆形可视化库
Github开源项目Python数据分析可视化pyCirclize圆形图
pyCirclize是基于matplotlib的Python圆形可视化库,支持创建Circos图、弦图、雷达图和系统发育树等多种圆形图表。该库提供了丰富的API和示例代码,便于快速上手和自定义图表。此外,pyCirclize还实现了生物信息学领域的基因组和系统发育树可视化方法,适用于需要创建复杂圆形可视化的数据分析工作。
kaggle-solutions - Kaggle竞赛解决方案及创意全面收录
Github开源项目机器学习数据分析解决方案Kaggle数据科学竞赛
kaggle-solutions项目收录了众多Kaggle竞赛顶级选手的解决方案和创意。项目在每次竞赛结束后更新,提供历届竞赛解决方案和想法的搜索功能。用户可通过fork仓库访问学习,并用Markdown记录笔记。项目推荐关注竞赛描述、评估标准和数据等关键信息,欢迎贡献未收录的解决方案。
ibis - 统一 Python 数据框架 API 实现多后端数据分析
Github开源项目PythonSQL数据分析Ibis数据框架库
Ibis 是一个 Python 数据框架库,支持 20 多种后端。它提供统一 API,适用于本地和远程数据分析。Ibis 具有惰性计算、交互式探索功能,支持 Python 和 SQL 代码混合使用。通过修改单行代码即可切换不同后端,提高了数据分析的可移植性。
awesome-machine-learning - 机器学习框架与资源汇总 多语言开源项目集锦
Github开源项目深度学习自然语言处理机器学习数据分析计算机视觉
Awesome Machine Learning项目汇集了按编程语言分类的机器学习开源资源。涵盖计算机视觉、自然语言处理、深度学习等领域的框架、库和工具,涉及Python、Java、C++等多种语言。此外还收录相关书籍、课程和博客,为机器学习从业者提供全面参考。项目保持活跃更新,欢迎社区贡献优质资源。
hdbscan - 灵活高效的层次密度聚类算法
Github开源项目机器学习数据分析聚类算法HDBSCAN密度聚类
HDBSCAN是一种高性能的层次密度聚类算法,能够处理不同密度的聚类并对参数选择更加稳健。该算法主要参数直观易选,无需复杂调优,适合探索性数据分析。HDBSCAN具有快速可靠的特点,能返回有意义的聚类结果。此外,它还支持异常检测和分支检测,并提供可视化工具辅助理解聚类结果。该开源项目在GitHub上提供详细文档和示例,支持Python 2和3版本。
VectorDBBench - 开源向量数据库基准测试工具
Github开源项目数据分析向量数据库基准测试性能评估VectorDBBench
VectorDBBench是一个开源的向量数据库基准测试工具。它提供15个测试用例,评估容量、搜索性能和过滤搜索性能。支持多种数据库客户端,具有可视化界面,方便复现测试和评估新系统。工具还包含性能分析报告和排行榜功能,有助于比较不同向量数据库的性能。
statsmodels - Python统计建模和数据分析工具包
Github开源项目数据分析Python包时间序列分析statsmodels统计模型
statsmodels是一个全面的Python统计建模库,提供多种统计方法和工具。包括线性回归、广义线性模型、时间序列分析、生存分析等功能。该项目文档完善,社区活跃,持续更新。适用于数据科学家和研究人员进行各类统计分析和建模任务,可处理从基础到高级的数据分析需求。
pcp - 开源系统性能监控和管理框架
Github开源项目数据分析分布式架构系统性能监控Performance Co-Pilot跨平台工具包
Performance Co-Pilot (PCP) 是开源的系统性能监控和管理框架。它为性能数据提供统一抽象,支持实时和回顾性分析,适用于集中监控分布式系统。PCP功能丰富、跨平台兼容,提供多种数据处理和系统性能优化工具。项目拥有活跃社区支持和详细文档,适合各类系统性能分析需求。
py-motmetrics - 多目标跟踪性能评估Python库
Github开源项目数据分析Python库性能评估多目标跟踪MOT指标
py-motmetrics是一个评估多目标跟踪(MOT)性能的Python库。它实现了CLEAR-MOT和ID等评估指标,支持多种距离度量,可跟踪每帧事件,并提供灵活的求解器后端。该库兼容MOTChallenge基准,使用pandas进行数据分析,易于扩展。py-motmetrics为研究人员和开发者提供了全面评估和比较多目标跟踪算法性能的工具。
dataease - 开源数据可视化工具 助力业务洞察与优化
Github开源项目数据可视化数据分析开源工具仪表板DataEase
DataEase是一款开源数据可视化分析工具,支持多种数据源连接和拖拽式图表制作。该工具集成AI助手功能,实现自然语言数据交互。特点包括易用性高、场景适应广泛和安全数据共享。DataEase适用于各类数据库、仓库及API数据源,有助于快速数据分析和业务决策优化。
rrdtool-1.x - 开源时间序列数据管理与可视化工具
Github开源项目数据分析性能监控图表生成时间序列数据库RRDtool
RRDtool(Round Robin Database Tool)是一个开源的时间序列数据管理和可视化工具。它采用循环数据库技术,支持多种数据源的时间序列数据存储和维护,并提供强大的图表绘制功能。RRDtool广泛应用于系统监控、网络流量分析等领域,为用户提供高效、系统化的数据记录和分析解决方案。该工具易于使用,适合需要长期跟踪和分析时间序列数据的用户和开发者。
datascience - 数据科学学习路线图 从基础到高级的系统指南
Github开源项目数据库数据分析数据科学概率论统计学
这是一个系统的数据科学学习路线图项目,涵盖了从基础数学到高级统计分析的关键知识点。内容包括矩阵代数、哈希函数、关系代数等基础,以及数据库操作、ETL、NoSQL等实用技能,还有数据可视化和探索性分析等统计学内容。该项目为数据科学学习者提供了一个全面且结构化的学习框架。
pretzelai - 现代化Jupyter替代方案 融合AI驱动的代码生成与智能编辑
Github开源项目开源数据分析JupyterAI代码生成Pretzel
Pretzel是一款开源的Jupyter升级版,为数据科学家和开发者提供AI驱动的代码生成、智能编辑和实时补全功能。完全兼容Jupyter配置,支持多种AI模型,注重用户隐私。致力于优化数据分析工作流程,持续提升用户体验。
AutoTS - 自动化时间序列预测工具
Github开源项目数据分析时间序列预测Python包自动机器学习AutoTS
AutoTS是一个Python时间序列预测工具,专注于快速部署高精度预测模型。该工具在2023年M6预测竞赛中表现出色,支持多种预测模型和数据转换方法。AutoTS能够处理多变量输出和概率预测,通过自动机器学习寻找最佳模型组合。它适用于大规模数据集,提供横向和马赛克风格的集成方法,以及丰富的指标、交叉验证和数据处理功能。
causal-learn - 强大的Python因果发现工具包
Github开源项目机器学习数据分析Python包因果发现causal-learn
causal-learn是一个开源的Python因果发现库,实现了多种经典和前沿的因果发现算法。它提供了基于约束、基于评分、基于函数因果模型等方法,以及独立性测试、评分函数等实用工具。该库文档完善,示例丰富,适用于研究人员和数据科学家进行因果关系分析和算法开发。causal-learn是Tetrad项目的Python版本和扩展,由CMU-CLeaR小组积极开发和维护,并提供了丰富的基准数据集供社区使用。
warp10-platform - 专为物联网打造的时间序列数据分析平台
Github开源项目数据分析数据存储物联网Warp10时间序列平台
Warp10是一个专为物联网设计的开源平台,集成时间序列数据库和分析环境。它能高效收集、存储和分析传感器数据,提升历史数据存储能力,支持实时数据库扩展,并强化现有分析工具。Warp10简化了KPI和数据可视化过程,便于业务应用与系统数据交互。平台提供Standalone、Standalone+和Distributed三个版本,满足不同规模的部署需求。平台整合了先进的存储引擎、历史文件管理、分析引擎和动态仪表盘功能。它支持高吞吐量数据摄取,提供WarpScript编程语言和超过1300个专用函数,助力高效数据分析。Warp10可无缝集成现有数据湖基础设施,为时间序列数据提供定制化存储和分析解决方案。
PlotJuggler - 开源时间序列数据可视化与分析工具
Github开源项目数据可视化数据分析时间序列开源工具PlotJuggler
PlotJuggler是一个开源的时间序列数据可视化与分析工具。该工具支持文件数据加载和实时数据流,能够处理大规模时间序列和数据点。PlotJuggler提供拖放式界面、OpenGL渲染、数据转换功能和插件扩展机制。它兼容多种数据源和格式,如CSV、ULog、JSON等,并可与ROS系统集成。通过内置的Transform Editor和Custom Function Editor,用户能方便地进行数据分析和处理。
tsflex - 高效灵活的时间序列处理和特征提取Python工具包
Github开源项目数据分析Python库特征提取tsflex时间序列处理
tsflex是一个Python工具包,用于时间序列处理和特征提取。它支持多变量、多模态时间序列数据,并可与多种处理和特征提取库集成。tsflex采用基于视图的操作,实现低内存占用和快速执行。该工具包提供直观的API,对序列数据几乎没有假设,能处理异步数据。此外,tsflex还具备特征选择、执行时间记录和序列化等高级功能。
tsfeatures - 时间序列特征提取的Python工具库
Github开源项目Python数据分析时间序列特征提取tsfeatures
tsfeatures是一个Python库,用于计算时间序列数据的多种特征。作为R语言tsfeatures包的Python实现,它提供了自相关、异方差、熵、平稳性等统计指标的计算功能。该库支持自定义特征函数和处理不同频率的时间序列数据,并允许与R版本结果进行对比。tsfeatures适用于需要进行时间序列分析和建模的数据处理场景。
PyEMMA - 开源分子动力学模拟分析软件包
Github开源项目开源软件数据分析分子动力学模拟PyEMMA马尔可夫模型
PyEMMA是一个开源的Python/C软件包,用于分析大规模分子动力学模拟数据。它提供聚类、特征化、马尔可夫状态模型等算法,支持分子动力学数据的估计、验证和分析。该工具可通过Jupyter notebook或Python脚本使用,适合分子动力学研究人员进行数据分析和建模。PyEMMA具备高性能和易用性,在分子模拟领域广受欢迎。
anomalize - R语言时间序列异常检测工具
Github开源项目数据分析异常检测时间序列R语言Anomalize
anomalize是一个R语言包,用于时间序列异常检测。它提供时间序列分解、异常检测和重组等功能,可有效分离正常数据和异常数据。该工具支持直观的可视化,并可通过清理异常值提高预测准确性。虽然核心功能已被timetk包替代,但anomalize仍保留原有功能以支持现有代码。