#数据分析

jina-embeddings-v2-base-de - 德英双语文本嵌入模型，优化跨语言相似度计算和检索

Github开源项目数据分析模型模型评估HuggingfaceMTEB文本分类sentence-transformers

jina-embeddings-v2-base-de是一款针对德语和英语的双语文本嵌入模型。该模型在MTEB基准测试中表现出色，尤其在文本分类、检索和聚类任务中效果显著。模型不仅能处理德语文本，还支持德英跨语言相似度计算，适用于多语言文本检索和相似度匹配等场景。

moirai-1.0-R-base - 基于Transformer的通用时间序列预测模型

Github开源项目预训练模型数据分析模型机器学习模型时间序列预测HuggingfaceMoirai

Moirai-1.0-R-base是一个基于掩码编码器的通用时间序列预测Transformer模型，在LOTSA数据集上预训练。该模型包含9100万参数，使用补丁嵌入和变量ID编码方法，可处理多变量时间序列数据进行预测。模型支持自定义预测长度和上下文窗口设置，通过uni2ts库实现部署。作为Moirai系列的中型版本，该模型在性能和计算效率方面达到平衡。

lambda - 环境监控与统计日志功能

Github开源项目性能优化数据分析模型Huggingface环境监控系统诊断统计日志

Lambda项目实现了统计日志记录功能，用于监控和识别环境问题。该功能记录并分析环境数据，有助于及时发现和解决潜在问题，提升系统稳定性。这一机制为开发过程中的环境管理提供了有力支持。

plumber - R函数轻松转化为Web API的开源工具

Github开源项目数据分析APIR语言Web服务Plumber

Plumber是一个用于创建Web API的R包，通过roxygen2风格的注释将R代码转换为API端点。它支持多种HTTP方法和数据序列化，简化了API的构建过程。Plumber提供多种部署选项，如DigitalOcean集成和Posit Connect支持，便于API的发布。这个工具适用于数据分析、机器学习模型部署和交互式应用开发，为R用户提供了一种高效的方式来分享和部署他们的工作。

medpy - 医学图像处理的Python库和工具集

Github开源项目开源软件数据分析Python库MedPy医学图像处理

MedPy是一个开源的医学图像处理Python库，专注于高维图像处理。它提供丰富的功能和脚本集合，支持PyPI和Conda-Forge安装。MedPy具有完善的文档和教程，适用于Python 3及以上版本。该项目在GitHub上维护，为医学图像处理研究和应用提供了有力支持。MedPy支持医学图像的分割、配准、滤波等多种处理任务，广泛应用于放射学、神经影像学等医学领域。

ml_hacks - 机器学习实践与教程资源集锦

Github开源项目深度学习机器学习数据分析算法聚类

ml_hacks项目是一个机器学习资源库，收录了多种算法实现和教程。内容涵盖参数调优、集成学习、异常检测等实践示例，以及机器学习入门、数据分析等基础教程。项目还包括核方法、类别不平衡等专题研究，并提供深度学习和PyTorch相关材料，适合不同水平的学习者参考。

FragPipe - 综合性质谱蛋白质组学数据分析平台

Github开源项目数据分析FragPipe质谱蛋白质组学MSFragger

FragPipe是一个综合性质谱蛋白质组学数据分析平台。该平台集成MSFragger搜索引擎和Philosopher工具包等多个模块,支持传统和开放搜索、翻译后修饰分析、定量分析等功能。FragPipe提供图形界面和命令行操作,可在Windows、Linux或云端环境运行。平台支持DDA和DIA数据分析,包括标记和非标记定量方法,为蛋白质组学研究提供全面解决方案。

awesome-opensource-data-engineering - 全面的数据工程开源项目资源库

Github开源项目开源数据分析数据管理数据处理数据工程

该资源库汇集了数据工程领域的开源项目，覆盖数据分析、业务智能、数据湖和数据治理等方面。包含Apache Spark、Flink等分析工具，Debezium、Kafka等数据捕获和消息系统，以及各种数据格式、集成工具和工作流管理系统。为数据工程实践提供了全面的开源解决方案参考。

awesome-R - 全面收录的R语言包和工具大全

Github开源项目数据可视化数据分析开发工具R语言统计编程

该项目汇集了R语言生态系统中的优质包和工具，涵盖集成开发环境、数据操作、图形显示和机器学习等多个领域。列表持续更新至2023年，并标注了热门和高下载量的资源。这份全面的指南旨在帮助R语言开发者和数据科学家提高数据分析和可视化效率。

texera - 基于工作流的协作数据分析系统支持大规模计算及AI/ML技术

Github开源项目数据分析可视化协作工作流Texera

Texera是基于云的协作数据分析系统，通过图形化工作流界面支持大规模计算和先进AI/ML技术。系统专注协作功能，为各背景用户提供类Google Docs的分析体验。Texera能处理海量数据，使非IT人员也可进行分析，并支持与长时运行作业交互。目前已应用于社交媒体分析、气候变化研究等多个领域。

overwatch - Databricks平台的数据洞察与治理工具

Github开源项目数据分析DatabricksSparkOverwatchtelemetry

Overwatch是Databricks Labs开发的开源项目，专为Databricks统一分析平台设计。通过整合Spark和Databricks平台的遥测数据，Overwatch提供关键洞察，实现平台治理和智能分析。它帮助用户深入了解Databricks部署情况，提升运营效率和决策能力。作为一个用于探索和优化数据基础设施的工具，Overwatch为Databricks用户提供了宝贵的支持。

kibana - Elastic Stack的数据可视化与分析工具

Github开源项目数据分析可视化ElasticsearchElastic StackKibana

Kibana作为Elastic Stack的组成部分，为Elasticsearch提供基于浏览器的分析和搜索仪表板。该工具支持实时数据可视化和高级分析，便于创建动态仪表板和多种图表。Kibana与Elasticsearch集成，用于数据探索、分析和呈现，适用于各种数据分析场景。它支持多种图表类型和地理空间分析，能帮助用户深入洞察复杂数据，是数据驱动决策的实用工具。

naas - Jupyter笔记本驱动的开源数据处理平台

Github开源项目AI自动化数据分析JupyterNaas

Naas是基于Jupyter笔记本的开源数据处理平台，为数据分析师、科学家和工程师提供强大的数据引擎。通过模板、驱动和功能三个低代码层，Naas实现数据工作自动化、报告生成、数据连接和生产环境转换。该平台集成自动化、分析和AI功能，支持快速创建数据任务和报告，连接各类数据源和机器学习算法。Naas将Jupyter笔记本转化为生产就绪环境，提供任务调度、资源共享和通知等功能，作为Google Colab的社区驱动替代方案，为用户提供更灵活的数据处理能力。

LotteryPrediction - 将机器学习应用于彩票数据分析和预测模型

Github开源项目深度学习机器学习数据分析时间序列预测彩票预测

LotteryPrediction是一个开源项目，结合机器学习和数据分析技术，旨在为彩票预测提供数据驱动的解决方案。该项目通过分析历史开奖数据，识别潜在模式，并应用统计方法预测未来结果。LotteryPrediction提供多种服务级别，从基础开源版本到定制化企业解决方案。项目还包含数据可视化工具，帮助用户更好地理解彩票数据趋势。需要注意的是，该项目不保证预测准确性，仅作为辅助决策工具使用。

r-novice-gapminder - R语言入门,可重复科学分析实践教程

Github开源项目数据分析R语言科学计算编程入门Gapminder

这是一个面向非程序员的R语言入门项目，聚焦于可重复科学分析。项目使用Gapminder数据集，教授R语言基础知识、模块化编程和数据分析最佳实践。课程强调科学计算中的任务自动化和封装，旨在为学习者奠定扎实的R语言基础。虽不涉及统计分析，但内容丰富，适合一天或半天的研讨会教学。

spark - 统一分析引擎支持多语言API及丰富工具集

Github开源项目分布式计算机器学习数据分析Apache Spark大数据处理

Apache Spark是一个大规模数据处理的统一分析引擎，提供Scala、Java、Python和R的高级API。它支持多种高级工具，如Spark SQL、pandas API on Spark、MLlib、GraphX和Structured Streaming，分别用于SQL查询、pandas操作、机器学习、图处理和流处理。Spark的优化引擎支持通用计算图，适用于多种大数据分析场景。

superset - 现代化企业级数据可视化和探索平台

Github开源项目开源软件数据可视化数据分析商业智能Superset

Superset是一个现代化的企业级数据探索和可视化平台。它提供无代码图表构建界面、SQL编辑器、轻量级语义层和广泛的数据库支持。平台具备丰富的可视化类型、可配置缓存、可扩展安全角色和身份验证,以及用于定制的API。其云原生架构支持大规模部署,可作为替代或增强专有商业智能工具的选择。

perspective - 交互式大规模数据分析与实时可视化工具

Github开源项目数据可视化数据分析流数据处理Perspective交互式分析

Perspective是一款专为大规模和实时数据集设计的交互式分析与可视化工具。该工具采用C++编写的高效流式查询引擎，支持Apache Arrow格式，并集成了基于ExprTK的列式表达语言。用户可通过Perspective创建自定义报告、仪表板和应用，支持浏览器独立部署或与Python和JupyterLab协同使用。此外，Perspective还提供了跨框架的用户界面组件和JupyterLab插件，为数据分析人员和开发者提供了全面的解决方案。

papermark - 开源文档共享替代方案支持自定义品牌和分析

Github开源项目开源自托管数据分析Papermark文档共享

Papermark是DocSend的开源替代方案，提供安全的文档共享功能。该平台支持自定义品牌和域名，内置分析工具以跟踪文档使用情况。作为自托管解决方案，Papermark确保用户对数据拥有完全控制权。基于Next.js、TypeScript和Prisma等现代技术，Papermark具备高性能和可扩展性，适合个人和企业用户的文档共享需求。

gsoc-organizations - Google Summer of Code 参与组织信息分析平台

Github开源项目数据分析技术栈Google Summer of Code组织筛选

gsoc-organizations 项目提供了一个综合平台，用于浏览和分析 Google Summer of Code 参与组织的信息。平台支持按参与年限、类别等多个维度筛选组织，方便开发者了解潜在合作伙伴。项目基于 Gatsby 构建，提供 API 文档，并鼓励社区贡献，以优化数据过滤、界面设计和功能特性。平台采用开源方式开发，欢迎贡献者参与改进数据过滤算法、优化用户界面和添加新功能。项目致力于为 Google Summer of Code 参与者提供全面、准确的组织信息，助力开发者做出明智的选择。

innovationgraph - GitHub开源数据洞察全球软件开发趋势

Github开源项目数据分析开源数据GitHub Innovation Graph软件开发活动全球经济

GitHub Innovation Graph项目提供了一个结构化数据集,汇总了GitHub平台上的公开开发活动。该数据集按季度和经济体展示了Git推送、开发者、组织、仓库、编程语言、许可证和主题等多个维度的信息。这个开源项目旨在为研究人员、政策制定者等提供软件开发领域的数据洞察。数据涵盖2020年以来的全球活动,有助于分析软件开发趋势和创新动态。

mergestat - 将Git仓库数据转化为SQL可查询的分析工具

Github开源项目数据分析SQL查询Git仓库GitHub APIMergeStat

MergeStat是一个开源的Git仓库数据分析工具，支持使用SQL查询版本控制系统中的历史和内容数据，以及GitHub API数据。该工具可进行本地Docker部署，提供用户友好的管理界面，方便添加仓库和同步数据。MergeStat能帮助开发团队深入分析源代码，获取有价值的洞察，从而更好地理解和管理代码库，提升项目效率。

r-novice-inflammation - 基于炎症数据的R语言编程入门课程

Github开源项目GitHub数据分析软件开发The CarpentriesR编程

这是一个开源的R语言入门课程项目，由Software Carpentry开发维护。面向非程序员背景的研究人员，通过分析炎症数据，学习者将掌握模块化编程和数据分析技巧，重点学习使用循环和函数实现自动化和封装。课程侧重实用编程原则，而非R语言的全面讲解，旨在提升学员的数据科学能力。

python-novice-gapminder - 非程序员的Python数据分析与可视化入门

Github开源项目Python数据分析Jupyter编程教程绘图

Python-novice-gapminder项目面向非程序员，专注于Python数据分析和可视化教学。通过Jupyter交互环境，学习者可掌握Python基础知识并应用于实际数据处理。内容涵盖基本语法、数据分析和可视化等方面，适合数据分析初学者。项目由Software Carpentry维护，提供学习资源和社区支持。

python-novice-inflammation - 基于炎症数据分析的实践教程

Github开源项目Python数据可视化数据分析软件开发编程教程

Python-novice-inflammation项目是一个面向非程序员的Python入门教程，通过分析模拟炎症数据实践编程技能。课程涵盖Python基础、数据处理、可视化、列表操作、循环、条件语句和函数创建等主题。教程强调语言无关的编程原则，如循环自动化和函数封装，旨在提升学员的数据分析能力和科学计算技能。项目采用12个模拟炎症数据文件作为教学素材，展示如何使用函数实现自动化分析。教程分为12个章节，每个章节聚焦特定编程概念，如数据类型、文件处理、数据可视化等。课程内容基于软件开发最佳实践，适合希望提升科学计算能力的研究人员和学生。

python-ecology-lesson - Python生态数据分析开源教程项目

Github开源项目GitHubPython数据分析开源教程生态数据

python-ecology-lesson是一个开源教育项目，专注于使用Python分析生态数据。该项目提供从基础到进阶的实践指导，涵盖Python在生态数据处理中的应用。项目采用GitHub工作流，欢迎各类贡献，包括内容更新和错误修复。维护团队为贡献者提供支持，并鼓励新手参与标记为'good first issue'的任务。作为一个协作学习平台，该项目旨在推广Python在生态研究中的应用。

R-ecology-lesson - R语言实现生态数据分析与可视化入门

Github开源项目数据可视化数据分析R语言生态数据编程教学

R-ecology-lesson项目为无编程经验者提供R语言入门课程，专注生态数据分析。内容包括R基础、RStudio使用、数据处理、ggplot2可视化等。课程强调实践，助生态研究者快速掌握数据分析技能。项目提供完整学习资源和社区支持，是掌握生态数据分析的有效途径。

InsTag - LLM监督微调数据分析与优化工具

Github开源项目LLM数据分析监督微调标签系统InsTag

InsTag是大型语言模型监督微调数据分析工具,通过标记和分类用户查询,量化评估数据多样性与复杂性。该工具为研究人员提供模型训练优化依据,基于InsTag分析结果,仅需6K样本即可训练出TagLM模型。在MT-Bench评测中,TagLM表现优于多个开源LLM,凸显了InsTag在提升LLM训练效率方面的价值。

openfoodfacts-ai - 开源食品数据库的人工智能实验平台

Github开源项目AI机器学习数据分析食品数据库Open Food Facts

openfoodfacts-ai是一个致力于食品数据人工智能研究的开源项目。该平台集成了多个实验性AI项目，包括营养表格识别、食品分类预测和标签检测等。其主要目标是优化Open Food Facts数据库，为研究人员和开发者提供高质量的食品数据和AI模型。项目重视社区贡献，定期组织线上会议，并提供完善的文档支持。

mlcourse.ai - 综合性机器学习在线课程理论实践并重

Github开源项目数据分析算法机器学习课程mlcourse.aiOpenDataScience

mlcourse.ai是OpenDataScience推出的开放式机器学习课程,涵盖数据分析到梯度提升等10个主题。课程通过理论讲解与实践作业相结合,帮助学习者掌握机器学习技能。提供多语言学习资源,包括文章、视频和编程作业,支持自定进度学习。另有付费作业包供选择,进一步提升学习效果。

pretty-print-confusion-matrix - Python混淆矩阵可视化库

Github开源项目Python机器学习数据分析可视化混淆矩阵

pretty-print-confusion-matrix是一个Python库，用于生成混淆矩阵可视化图表。基于seaborn和matplotlib开发，支持从NumPy矩阵、数组、DataFrame或向量数据创建矩阵。该工具提供自定义颜色方案和标签功能，帮助数据科学家和机器学习工程师直观评估分类模型性能。适用于各类机器学习项目，操作简单，自定义选项丰富。

Rath - 开源自动化数据分析工具提供智能化探索性数据分析

Github开源项目数据可视化数据分析开源工具RATH自动化探索

RATH是一个开源的自动化数据分析平台,内置增强分析引擎,可快速发现数据洞察。它提供一键式数据探索、多维可视化生成、交互式数据绘画和因果分析等功能。作为数据分析助手,RATH能根据分析需求给出建议。支持连接多种数据库,是Tableau等商业工具的开源替代选择。

LightGBM - 高效梯度提升框架支持大规模数据并行学习

Github开源项目机器学习数据分析决策树梯度提升LightGBM

LightGBM是一个高效的梯度提升框架，采用树形学习算法。它具有训练速度快、内存消耗低、准确性高的特点，支持并行、分布式和GPU学习，可处理大规模数据。这个开源项目在机器学习竞赛中应用广泛，在公开数据集上的表现优于多个现有框架。LightGBM为用户提供了详细文档和丰富示例，适用于多种机器学习任务。

stats - 功能全面的 Go 统计库

Github开源项目数据分析Golang数学计算统计库

Stats 是一个无依赖的 Go 统计库，提供中位数、标准差、相关性分析等统计函数。经过全面测试，支持多种数据类型，并有详细 API 文档。适用于数据分析、机器学习等需要统计计算的 Go 项目，助力开发者高效实现各类统计功能。

prophet-ruby - Ruby的Prophet时间序列预测库

Github开源项目机器学习数据分析时间序列预测RubyProphet

Prophet.rb是Ruby版的时间序列预测库，源自Facebook的Prophet项目。它支持多重季节性、线性和非线性增长、节假日效应，可处理缺失数据。提供简单和高级API，功能包括异常检测、饱和预测、趋势变点分析和模型诊断。Prophet.rb简化了预测、可视化和模型优化流程，适用于各种数据分析和预测任务。

sweetviz - 快速生成数据分析可视化报告的Python库

Github开源项目数据分析可视化Python库EDASweetviz

Sweetviz是一个开源Python库，能够快速生成探索性数据分析(EDA)可视化报告。该库只需两行代码即可创建高密度的数据可视化，包括目标值分析、数据集比较和特征分析。Sweetviz支持混合类型关联和自动类型推断，可输出独立HTML应用，兼容Jupyter和Colab等环境。它还集成了Comet.ml功能，方便记录生成的报告。这个工具能帮助数据科学家和分析师迅速了解数据集特征及其相互关系。

相关文章

Article Cover

YData Profiling: 一站式数据探索与分析利器

Article Cover

PySyft: 隐私保护下的分布式机器学习框架

Article Cover

Sklearn与TensorFlow机器学习实用指南中文版项目介绍

Article Cover

CS-Ebook:一个高质量的计算机科学经典书籍推荐清单

Article Cover

探索数据科学的奇妙世界:awesome-datascience项目全面解析

Article Cover

AI学习路线图:从入门到实战的全面指南

Article Cover

Complete Machine Learning Package: 从零到精通的全面学习指南

Article Cover

VisualDL: 飞桨深度学习可视化工具

Article Cover

DataFrame: 现代C++中的强大数据分析工具

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号