#数据分析

tsfeatures - 高效提取时间序列特征的R工具包
tsfeatures时间序列R包特征提取数据分析Github开源项目
tsfeatures是一个R包,专门用于从时间序列数据中提取多种特征。它能分析趋势、季节性、线性度等,并处理不同频率和周期的时间序列。该包输出易于理解的特征指标,适用于时间序列分析、预测和分类等领域。tsfeatures可通过CRAN安装,支持多种时间序列特征提取方法,使用简单灵活。
Machine_Learning_and_Deep_Learning - 完整的机器学习和深度学习学习路径
机器学习深度学习Python编程数据分析统计学Github开源项目
该项目提供了从Python基础到机器学习算法的全面学习路径,包含多个模块如数据分析、统计和机器学习。通过教程、代码示例和案例研究,帮助学习者掌握数据科学和AI的核心知识。这是一个开源项目,欢迎社区贡献。
fusilli - 多模态数据融合Python库 支持机器学习任务
fusilli多模态数据融合机器学习PyTorch数据分析Github开源项目
fusilli是一个多模态数据融合Python库,支持表格-表格和表格-图像融合,适用于回归、二分类和多分类任务。基于PyTorch Lightning和PyTorch Geometric构建,提供平台比较不同融合方法。能有效结合血液检测和神经影像等数据类型,用于疾病预测等应用。为研究人员和开发者提供便捷工具,探索多模态数据融合技术。
mlr - R语言的综合机器学习工具包
机器学习R语言mlr算法数据分析Github开源项目
mlr是一个功能丰富的R语言机器学习框架,为分类、回归、聚类和生存分析等任务提供标准化接口。它支持模型重采样、超参数优化和特征选择,并具备可视化和并行计算能力。尽管已停止新功能开发,mlr仍是一个成熟稳定的工具包,适用于多种数据分析场景。
R - R语言算法库,统计计算与数据分析的开源实现
R语言统计计算数据分析开源软件TheAlgorithmsGithub开源项目
The Algorithms - R 项目是一个综合性的R语言算法库,专注于统计计算和数据分析。它提供了广泛的算法实现,包括统计分析、数据挖掘和机器学习等领域。项目以开源方式运作,欢迎开发者贡献新算法或优化现有代码,支持R语言社区的技术交流和创新。作为一个遵循MIT许可的开源项目,它为R语言使用者提供了宝贵的学习和实践资源。
orange3 - 直观易用的数据挖掘与可视化工具箱 无需编程知识
Orange Data Mining数据挖掘可视化工具箱工作流程数据分析Github开源项目
Orange作为一款开源的数据挖掘与可视化工具箱,致力于数据科学的民主化。它面向新手和专家,通过基于工作流的方式隐藏复杂机制,使用户无需编程或深入的数学知识即可探索数据。该工具支持可视化工作流创建、多种数据分析方法,并提供丰富的插件扩展功能。Orange适用于各类数据科学任务,从数据预处理、特征选择到模型评估,涵盖简单的数据可视化到复杂的机器学习模型构建。作为跨平台工具,Orange支持Windows、Mac和Linux系统,为用户提供灵活且强大的数据分析体验。
mlr3 - 现代化的R语言机器学习框架
mlr3机器学习R语言数据分析模型训练Github开源项目
mlr3是一个现代化的R语言机器学习框架,专注于高效和面向对象的设计。它提供构建机器学习模型的基本组件,支持分类、回归等任务,并具有良好的可扩展性。该框架利用R6类和data.table实现清晰的面向对象设计和快速数据处理。mlr3提供交叉验证等重采样方法和丰富的性能评估指标。作为mlr的继任者,mlr3克服了前身的局限性,为研究人员和数据科学家提供更灵活、更易维护的机器学习工具。
tablesaw - Java数据处理和可视化开源框架
Tablesaw数据处理数据可视化Java库数据分析Github开源项目
Tablesaw是一个Java开源数据框架和可视化库,支持数据加载、清理、转换、过滤和汇总。它提供多种格式数据的导入导出、表格操作和统计分析功能。Tablesaw集成了Plot.ly绘图库,可创建各类数据可视化图表。该框架设计简洁,有助于提升Java数据分析效率,适用于数据处理和探索。
sweetviz - 快速生成数据分析可视化报告的Python库
Sweetviz数据分析可视化Python库EDAGithub开源项目
Sweetviz是一个开源Python库,能够快速生成探索性数据分析(EDA)可视化报告。该库只需两行代码即可创建高密度的数据可视化,包括目标值分析、数据集比较和特征分析。Sweetviz支持混合类型关联和自动类型推断,可输出独立HTML应用,兼容Jupyter和Colab等环境。它还集成了Comet.ml功能,方便记录生成的报告。这个工具能帮助数据科学家和分析师迅速了解数据集特征及其相互关系。
prophet-ruby - Ruby的Prophet时间序列预测库
Prophet时间序列预测Ruby数据分析机器学习Github开源项目
Prophet.rb是Ruby版的时间序列预测库,源自Facebook的Prophet项目。它支持多重季节性、线性和非线性增长、节假日效应,可处理缺失数据。提供简单和高级API,功能包括异常检测、饱和预测、趋势变点分析和模型诊断。Prophet.rb简化了预测、可视化和模型优化流程,适用于各种数据分析和预测任务。
stats - 功能全面的 Go 统计库
Golang统计库数据分析开源项目数学计算Github
Stats 是一个无依赖的 Go 统计库,提供中位数、标准差、相关性分析等统计函数。经过全面测试,支持多种数据类型,并有详细 API 文档。适用于数据分析、机器学习等需要统计计算的 Go 项目,助力开发者高效实现各类统计功能。
LightGBM - 高效梯度提升框架 支持大规模数据并行学习
LightGBM梯度提升机器学习决策树数据分析Github开源项目
LightGBM是一个高效的梯度提升框架,采用树形学习算法。它具有训练速度快、内存消耗低、准确性高的特点,支持并行、分布式和GPU学习,可处理大规模数据。这个开源项目在机器学习竞赛中应用广泛,在公开数据集上的表现优于多个现有框架。LightGBM为用户提供了详细文档和丰富示例,适用于多种机器学习任务。
Rath - 开源自动化数据分析工具 提供智能化探索性数据分析
RATH数据分析数据可视化自动化探索开源工具Github开源项目
RATH是一个开源的自动化数据分析平台,内置增强分析引擎,可快速发现数据洞察。它提供一键式数据探索、多维可视化生成、交互式数据绘画和因果分析等功能。作为数据分析助手,RATH能根据分析需求给出建议。支持连接多种数据库,是Tableau等商业工具的开源替代选择。
pretty-print-confusion-matrix - Python混淆矩阵可视化库
混淆矩阵Python可视化机器学习数据分析Github开源项目
pretty-print-confusion-matrix是一个Python库,用于生成混淆矩阵可视化图表。基于seaborn和matplotlib开发,支持从NumPy矩阵、数组、DataFrame或向量数据创建矩阵。该工具提供自定义颜色方案和标签功能,帮助数据科学家和机器学习工程师直观评估分类模型性能。适用于各类机器学习项目,操作简单,自定义选项丰富。
mlcourse.ai - 综合性机器学习在线课程 理论实践并重
机器学习课程mlcourse.aiOpenDataScience数据分析算法Github开源项目
mlcourse.ai是OpenDataScience推出的开放式机器学习课程,涵盖数据分析到梯度提升等10个主题。课程通过理论讲解与实践作业相结合,帮助学习者掌握机器学习技能。提供多语言学习资源,包括文章、视频和编程作业,支持自定进度学习。另有付费作业包供选择,进一步提升学习效果。
openfoodfacts-ai - 开源食品数据库的人工智能实验平台
Open Food FactsAI机器学习数据分析食品数据库Github开源项目
openfoodfacts-ai是一个致力于食品数据人工智能研究的开源项目。该平台集成了多个实验性AI项目,包括营养表格识别、食品分类预测和标签检测等。其主要目标是优化Open Food Facts数据库,为研究人员和开发者提供高质量的食品数据和AI模型。项目重视社区贡献,定期组织线上会议,并提供完善的文档支持。
InsTag - LLM监督微调数据分析与优化工具
InsTagLLM监督微调数据分析标签系统Github开源项目
InsTag是大型语言模型监督微调数据分析工具,通过标记和分类用户查询,量化评估数据多样性与复杂性。该工具为研究人员提供模型训练优化依据,基于InsTag分析结果,仅需6K样本即可训练出TagLM模型。在MT-Bench评测中,TagLM表现优于多个开源LLM,凸显了InsTag在提升LLM训练效率方面的价值。
R-ecology-lesson - R语言实现生态数据分析与可视化入门
R语言数据分析数据可视化生态数据编程教学Github开源项目
R-ecology-lesson项目为无编程经验者提供R语言入门课程,专注生态数据分析。内容包括R基础、RStudio使用、数据处理、ggplot2可视化等。课程强调实践,助生态研究者快速掌握数据分析技能。项目提供完整学习资源和社区支持,是掌握生态数据分析的有效途径。
python-ecology-lesson - Python生态数据分析开源教程项目
Python数据分析生态数据开源教程GitHubGithub开源项目
python-ecology-lesson是一个开源教育项目,专注于使用Python分析生态数据。该项目提供从基础到进阶的实践指导,涵盖Python在生态数据处理中的应用。项目采用GitHub工作流,欢迎各类贡献,包括内容更新和错误修复。维护团队为贡献者提供支持,并鼓励新手参与标记为'good first issue'的任务。作为一个协作学习平台,该项目旨在推广Python在生态研究中的应用。
python-novice-inflammation - 基于炎症数据分析的实践教程
Python数据分析编程教程数据可视化软件开发Github开源项目
Python-novice-inflammation项目是一个面向非程序员的Python入门教程,通过分析模拟炎症数据实践编程技能。课程涵盖Python基础、数据处理、可视化、列表操作、循环、条件语句和函数创建等主题。教程强调语言无关的编程原则,如循环自动化和函数封装,旨在提升学员的数据分析能力和科学计算技能。项目采用12个模拟炎症数据文件作为教学素材,展示如何使用函数实现自动化分析。教程分为12个章节,每个章节聚焦特定编程概念,如数据类型、文件处理、数据可视化等。课程内容基于软件开发最佳实践,适合希望提升科学计算能力的研究人员和学生。
python-novice-gapminder - 非程序员的Python数据分析与可视化入门
Python数据分析绘图编程教程JupyterGithub开源项目
Python-novice-gapminder项目面向非程序员,专注于Python数据分析和可视化教学。通过Jupyter交互环境,学习者可掌握Python基础知识并应用于实际数据处理。内容涵盖基本语法、数据分析和可视化等方面,适合数据分析初学者。项目由Software Carpentry维护,提供学习资源和社区支持。
r-novice-inflammation - 基于炎症数据的R语言编程入门课程
R编程数据分析软件开发GitHubThe CarpentriesGithub开源项目
这是一个开源的R语言入门课程项目,由Software Carpentry开发维护。面向非程序员背景的研究人员,通过分析炎症数据,学习者将掌握模块化编程和数据分析技巧,重点学习使用循环和函数实现自动化和封装。课程侧重实用编程原则,而非R语言的全面讲解,旨在提升学员的数据科学能力。
mergestat - 将Git仓库数据转化为SQL可查询的分析工具
MergeStatSQL查询Git仓库数据分析GitHub APIGithub开源项目
MergeStat是一个开源的Git仓库数据分析工具,支持使用SQL查询版本控制系统中的历史和内容数据,以及GitHub API数据。该工具可进行本地Docker部署,提供用户友好的管理界面,方便添加仓库和同步数据。MergeStat能帮助开发团队深入分析源代码,获取有价值的洞察,从而更好地理解和管理代码库,提升项目效率。
innovationgraph - GitHub开源数据洞察全球软件开发趋势
GitHub Innovation Graph开源数据软件开发活动全球经济数据分析Github开源项目
GitHub Innovation Graph项目提供了一个结构化数据集,汇总了GitHub平台上的公开开发活动。该数据集按季度和经济体展示了Git推送、开发者、组织、仓库、编程语言、许可证和主题等多个维度的信息。这个开源项目旨在为研究人员、政策制定者等提供软件开发领域的数据洞察。数据涵盖2020年以来的全球活动,有助于分析软件开发趋势和创新动态。
gsoc-organizations - Google Summer of Code 参与组织信息分析平台
Google Summer of Code开源项目组织筛选技术栈数据分析Github
gsoc-organizations 项目提供了一个综合平台,用于浏览和分析 Google Summer of Code 参与组织的信息。平台支持按参与年限、类别等多个维度筛选组织,方便开发者了解潜在合作伙伴。项目基于 Gatsby 构建,提供 API 文档,并鼓励社区贡献,以优化数据过滤、界面设计和功能特性。平台采用开源方式开发,欢迎贡献者参与改进数据过滤算法、优化用户界面和添加新功能。项目致力于为 Google Summer of Code 参与者提供全面、准确的组织信息,助力开发者做出明智的选择。
papermark - 开源文档共享替代方案 支持自定义品牌和分析
Papermark文档共享开源自托管数据分析Github开源项目
Papermark是DocSend的开源替代方案,提供安全的文档共享功能。该平台支持自定义品牌和域名,内置分析工具以跟踪文档使用情况。作为自托管解决方案,Papermark确保用户对数据拥有完全控制权。基于Next.js、TypeScript和Prisma等现代技术,Papermark具备高性能和可扩展性,适合个人和企业用户的文档共享需求。
perspective - 交互式大规模数据分析与实时可视化工具
Perspective数据可视化数据分析交互式分析流数据处理Github开源项目
Perspective是一款专为大规模和实时数据集设计的交互式分析与可视化工具。该工具采用C++编写的高效流式查询引擎,支持Apache Arrow格式,并集成了基于ExprTK的列式表达语言。用户可通过Perspective创建自定义报告、仪表板和应用,支持浏览器独立部署或与Python和JupyterLab协同使用。此外,Perspective还提供了跨框架的用户界面组件和JupyterLab插件,为数据分析人员和开发者提供了全面的解决方案。
superset - 现代化企业级数据可视化和探索平台
Superset数据可视化商业智能开源软件数据分析Github开源项目
Superset是一个现代化的企业级数据探索和可视化平台。它提供无代码图表构建界面、SQL编辑器、轻量级语义层和广泛的数据库支持。平台具备丰富的可视化类型、可配置缓存、可扩展安全角色和身份验证,以及用于定制的API。其云原生架构支持大规模部署,可作为替代或增强专有商业智能工具的选择。
spark - 统一分析引擎 支持多语言API及丰富工具集
Apache Spark大数据处理分布式计算数据分析机器学习Github开源项目
Apache Spark是一个大规模数据处理的统一分析引擎,提供Scala、Java、Python和R的高级API。它支持多种高级工具,如Spark SQL、pandas API on Spark、MLlib、GraphX和Structured Streaming,分别用于SQL查询、pandas操作、机器学习、图处理和流处理。Spark的优化引擎支持通用计算图,适用于多种大数据分析场景。
r-novice-gapminder - R语言入门,可重复科学分析实践教程
R语言数据分析科学计算编程入门GapminderGithub开源项目
这是一个面向非程序员的R语言入门项目,聚焦于可重复科学分析。项目使用Gapminder数据集,教授R语言基础知识、模块化编程和数据分析最佳实践。课程强调科学计算中的任务自动化和封装,旨在为学习者奠定扎实的R语言基础。虽不涉及统计分析,但内容丰富,适合一天或半天的研讨会教学。
LotteryPrediction - 将机器学习应用于彩票数据分析和预测模型
时间序列预测深度学习彩票预测数据分析机器学习Github开源项目
LotteryPrediction是一个开源项目,结合机器学习和数据分析技术,旨在为彩票预测提供数据驱动的解决方案。该项目通过分析历史开奖数据,识别潜在模式,并应用统计方法预测未来结果。LotteryPrediction提供多种服务级别,从基础开源版本到定制化企业解决方案。项目还包含数据可视化工具,帮助用户更好地理解彩票数据趋势。需要注意的是,该项目不保证预测准确性,仅作为辅助决策工具使用。
naas - Jupyter笔记本驱动的开源数据处理平台
NaasJupyter数据分析自动化AIGithub开源项目
Naas是基于Jupyter笔记本的开源数据处理平台,为数据分析师、科学家和工程师提供强大的数据引擎。通过模板、驱动和功能三个低代码层,Naas实现数据工作自动化、报告生成、数据连接和生产环境转换。该平台集成自动化、分析和AI功能,支持快速创建数据任务和报告,连接各类数据源和机器学习算法。Naas将Jupyter笔记本转化为生产就绪环境,提供任务调度、资源共享和通知等功能,作为Google Colab的社区驱动替代方案,为用户提供更灵活的数据处理能力。
kibana - Elastic Stack的数据可视化与分析工具
KibanaElastic Stack数据分析可视化ElasticsearchGithub开源项目
Kibana作为Elastic Stack的组成部分,为Elasticsearch提供基于浏览器的分析和搜索仪表板。该工具支持实时数据可视化和高级分析,便于创建动态仪表板和多种图表。Kibana与Elasticsearch集成,用于数据探索、分析和呈现,适用于各种数据分析场景。它支持多种图表类型和地理空间分析,能帮助用户深入洞察复杂数据,是数据驱动决策的实用工具。
overwatch - Databricks平台的数据洞察与治理工具
OverwatchDatabricksSpark数据分析telemetryGithub开源项目
Overwatch是Databricks Labs开发的开源项目,专为Databricks统一分析平台设计。通过整合Spark和Databricks平台的遥测数据,Overwatch提供关键洞察,实现平台治理和智能分析。它帮助用户深入了解Databricks部署情况,提升运营效率和决策能力。作为一个用于探索和优化数据基础设施的工具,Overwatch为Databricks用户提供了宝贵的支持。
texera - 基于工作流的协作数据分析系统 支持大规模计算及AI/ML技术
Texera数据分析工作流协作可视化Github开源项目
Texera是基于云的协作数据分析系统,通过图形化工作流界面支持大规模计算和先进AI/ML技术。系统专注协作功能,为各背景用户提供类Google Docs的分析体验。Texera能处理海量数据,使非IT人员也可进行分析,并支持与长时运行作业交互。目前已应用于社交媒体分析、气候变化研究等多个领域。
awesome-R - 全面收录的R语言包和工具大全
R语言数据分析开发工具数据可视化统计编程Github开源项目
该项目汇集了R语言生态系统中的优质包和工具,涵盖集成开发环境、数据操作、图形显示和机器学习等多个领域。列表持续更新至2023年,并标注了热门和高下载量的资源。这份全面的指南旨在帮助R语言开发者和数据科学家提高数据分析和可视化效率。