Logo

#数据分析

Logo of hands-on-ml-zh
hands-on-ml-zh
本指南详细介绍了如何使用Sklearn和TensorFlow进行机器学习,包括在线阅读、Docker镜像、PYPI包和NPM包的多种下载方式,并提供了完整的编译和安装步骤。通过该指南,读者能够学习和掌握数据分析及机器学习的实用技能。
Logo of sketch
sketch
Sketch是一个专为pandas用户设计的AI代码助手,通过理解数据上下文提供相关建议。无需在IDE中添加插件即可快速使用,功能包括数据标注、数据工程和数据分析。支持自然语言界面操作,通过简单导入和扩展,实现数据问答、代码生成及高级数据生成功能。
Logo of awesome-datascience
awesome-datascience
此开源项目提供了一个综合的数据科学学习和应用平台,适合初学者和专业人士。包括算法、课程、教程及工具等内容,旨在帮助用户通过数据科学技术解决现实问题。
Logo of VisualDL
VisualDL
VisualDL,一款集成于PaddlePaddle的高效可视化分析工具,能够展现训练参数、模型结构与数据样本的动态图表。完美支持Python,通过实时数据追踪、多实验视图对比等功能,助力开发者清晰直观地优化和提升模型表现。
Logo of zillion
zillion
Zillion是一款通过简洁API整合并分析多个数据源的数据建模与分析工具。它支持智能SQL生成、自然语言查询和数据库基础设施的无缝集成。功能包括定义仓库、多维数据聚合、多级汇总、表格透视、公式定制及技术性转换,适用于复杂数据模型管理和报告生成。同时,Zillion还实验性支持自然语言查询和仓库配置。
Logo of advanced-machine-learning-engineer-roadmap-2024
advanced-machine-learning-engineer-roadmap-2024
掌握全栈机器学习工程师所需的各项技能,从数据收集与预处理到模型部署与维护,涵盖Python编程、数据分析、数据可视化、统计学、机器学习、自然语言处理、深度学习、计算机视觉、MLOps及Git与GitHub的使用。通过具体步骤和示例逐步提升专业能力。
Logo of BambooAI
BambooAI
BambooAI是一款轻量级库,利用大型语言模型(LLMs)提供自然语言交互性能,支持数据集查询、互联网搜索和外部API集成。用户可通过简单的英语输入生成并执行数据分析和可视化的Python代码,无需广泛的编程知识。该工具旨在简化数据分析流程,提高数据分析师的工作效率。
Logo of LAMBDA
LAMBDA
LAMBDA 是一个创新的开源无代码多代理数据分析系统,通过大模型解决复杂数据问题。主要功能包括通过自然语言指令进行数据分析、多代理模块(编程和检查代理)生成与调试代码、灵活的模型和算法集成、自动报告生成等。LAMBDA 提供易用的用户界面,允许直接干预操作过程,大幅提升数据科学实践和分析模式。
Logo of openobserve
openobserve
OpenObserve是专为日志、指标、追踪和实时用户监控设计的云原生可观测性平台。相比Elasticsearch,它操作更简单,启动仅需2分钟。存储成本降低140倍,支持PB级数据。功能全面,包含告警、仪表盘、高级摄取和查询。支持SQL和PromQL,提供多种存储选项,具备高可用性和集群能力。
Logo of marimo
marimo
marimo是一款创新的响应式Python笔记本,通过自动运行依赖单元格实现代码和输出的一致性。它提供交互式UI元素、可重现性和确定性执行顺序。笔记本以纯Python形式存储,可作为脚本执行或部署为应用。内置SQL支持、数据源面板和Git友好性等特性,为开发者提供强大而灵活的编程环境。
Logo of data-validation
data-validation
TensorFlow Data Validation (TFDV) 是一个高度可扩展的机器学习数据验证和探索库。它与TensorFlow和TFX生态系统无缝集成,提供数据统计计算、分布可视化、自动模式生成和异常检测等功能。TFDV能够帮助开发者有效识别数据问题,保障数据质量,从而提升机器学习模型的可靠性和性能。
Logo of prince
prince
Prince是一个Python开源库,专注于多变量探索性数据分析。它集成了主成分分析(PCA)、对应分析(CA)等多种数据汇总方法,采用scikit-learn API实现高效分析。支持PCA、CA、MCA、MFA、FAMD和GPA等多种分析技术,可处理分类和数值数据。Prince还提供数据可视化功能,有助于理解复杂的数据结构和关系。
Logo of metabase
metabase
Metabase是一款开源的数据分析平台,为企业提供直观的可视化界面和简单的操作方式。该平台支持多种数据库,允许非技术人员进行数据查询和分析。Metabase具备SQL编辑器、交互式仪表板、数据建模和定时报告等功能,并支持嵌入和自定义。其快速部署和适应性使其成为各类组织连接数据与业务洞察的有力工具。
Logo of PySyft
PySyft
PySyft革新数据科学,允许在不查看或复制数据的情况下使用非公开信息。通过连接Datasite,数据所有者控制数据保护,数据科学家直接运行Python代码进行统计分析和机器学习,支持Linux、macOS、Windows、Docker和Kubernetes,适用于多种开发环境。
Logo of DataFrame
DataFrame
DataFrame是一个高效的C++数据分析库,提供类似于Python的Pandas和R的DataFrame功能。它支持数据切片、连接、分组操作,并具备统计、金融及机器学习算法。该库特别适合处理大数据集,拥有优异的性能和多线程支持。通过多种内置算法和可添加的自定义算法,用户可以灵活分析和处理数据。DataFrame还与Polars等工具进行了性能对比,展现了其在大数据处理上的显著优势。
Logo of dataline
dataline
DataLine通过自然语言功能,让用户无需编写代码即可进行数据分析和可视化。该工具支持多种数据源连接,如Postgres、Snowflake、MySQL、Azure SQL Server、Microsoft SQL Server、Excel、SQLite、CSV等,并且十分注重隐私保护和安全性。DataLine的开放源码特性及多平台支持(Windows、Mac、Linux和Docker)使其成为技术人员和非技术人员的理想选择,特别适合企业使用。
Logo of IncognitoPilot
IncognitoPilot
Incognito Pilot将大型语言模型(LLM)和Python解释器结合,使代码可以本地运行,执行数据分析、文件转换和互联网访问等任务,无需将敏感数据上传到云端。用户可以选择使用本地模型(如Llama 2)或API(如GPT-4),通过UI中的审批机制确保数据隔离。项目提供多种安装和配置方式,适应不同需求,并附带丰富的预装依赖,确保安全便捷的集成和运行。
Logo of CSV-AI
CSV-AI
CSV-AI是一个由LangChain、OpenAI和Streamlit支持的应用程序,可以帮助解锁CSV文件中的隐藏信息。用户能便捷地浏览、总结和分析CSV文件。其主要功能包括数据交互、生成概要以及进行高级数据分析(如过滤、排序和数据可视化)。如有反馈或建议,请在GitHub仓库提交问题。
Logo of DL-Simplified
DL-Simplified
DL-Simplified 资源库为深度学习领域的贡献者提供从入门到高级的项目集。该库包括按模板组织的数据集、图片、模型文件和依赖。用户可浏览问题区、fork仓库、创建PR等方式参与。深度学习通过多层神经网络处理大量数据,实现不同级别的数据抽象。了解最新的开源活动和参与方法,及项目成就与贡献者。
Logo of awesome-chatgpt-code-interpreter-experiments
awesome-chatgpt-code-interpreter-experiments
项目展示了ChatGPT结合Code Interpreter在数据分析、图像转换和代码编辑等用途中的潜力,并提供了多种应用和技巧。启用Code Interpreter插件后,支持文件上传下载和Python代码运行,进行各种数据处理任务。虽然有无网络接入和外部包安装的限制,项目提供了绕过方法,展示了YOLOv8对象检测、JavaScript运行、MNIST数据集分类和视频面部检测等高级应用,大幅提升实际应用中的创造力和效率。
Logo of influxdb
influxdb
InfluxDB作为开源时序数据库,专注于高效处理指标、事件和实时分析。该系统支持大规模时间序列数据存储和快速查询,提供云服务和本地部署选项。InfluxDB拥有活跃社区、丰富学习资源和完善生态系统,广泛应用于实时监控、物联网数据处理等领域。
Logo of pandas
pandas
pandas是Python生态系统中的核心数据分析库,提供高性能、易用的数据结构和工具。它支持处理结构化数据,包括数据清洗、转换、合并、分组分析等操作。pandas可读写多种格式的数据源,如CSV、Excel、SQL数据库等。作为开源项目,pandas由活跃社区维护,持续优化以满足数据科学家、分析师和开发者的需求。
Logo of ipydatagrid
ipydatagrid
ipydatagrid是专为Jupyter Notebook和JupyterLab开发的数据网格工具。它具有全功能界面,支持高性能操作,并与ipywidgets无缝集成。该工具允许通过多种渲染器自定义数据展示,提供双向数据绑定的选择模型,并支持使用Vega表达式进行条件格式化。ipydatagrid显著提升了Jupyter环境中的数据交互和可视化效果。
Logo of dask
dask
Dask是一个开源的灵活并行计算库,专为大规模数据分析设计。它支持多种数据结构和算法,与NumPy、Pandas等Python数据科学工具无缝集成。Dask提供高效的并行计算能力,能处理超出单机内存的大型数据集,适用于数据科学、机器学习等领域。活跃的社区支持进一步增强了其在数据分析中的应用价值。
Logo of numpy-100
numpy-100
这个开源项目汇集了100道NumPy练习题,涵盖Python数据分析的核心内容。题目来源广泛,包括NumPy邮件列表、Stack Overflow和官方文档。它为各层次的Python开发者提供了实用的学习资源,同时也是教学者的得力助手。项目旨在深化NumPy学习,全面提升数据科学技能。练习题支持Binder在线测试和GitHub阅读。项目基于MIT许可证,并衍生出其他编程语言的版本。
Logo of Ajelix
Ajelix
Ajelix提供多功能AI Excel工具与商业智能解决方案,通过数据可视化技术,简化报告流程,增强工作效率。该平台整合超过17种AI工具,包括Excel公式生成器,满足不同的商业分析需求。无需信用卡即可注册并创建免费账户,体验AI优化的数据处理功能,赢得超过150,000名用户的信赖,成为企业数据分析的优选平台。
Logo of ydata-profiling
ydata-profiling
提供快速一致的探索性数据分析解决方案,支持生成HTML和JSON格式报告,包括时间序列和文本数据。ydata-profiling自动检测数据类型,提供单变量和多变量分析,生成包含缺失数据、重复行和变量交互的可视化报告。支持与多种数据库系统集成,适用于数据集对比和大数据处理。
Logo of pandas-ai
pandas-ai
PandasAI是一个强大的Python平台,专为非技术用户设计,通过自然语言轻松查询数据。它不仅帮助技术用户节省时间,还通过Jupyter notebooks或借助FastAPI和Flask轻松部署为REST API。想要了解更多PandasAI Cloud或企业版服务,欢迎联系我们获取详细信息。
Logo of Ai-Learn
Ai-Learn
Ai-Learn提供全面的人工智能学习材料,包括Python基础、机器学习、数据挖掘及深度学习。项目通过200多个案例、数据集与教程,协助学习者高效学习与避免常见错误,适合各层次人士。
Logo of Chat-With-Excel
Chat-With-Excel
Chat-With-Excel项目允许用户使用自然语言与表格数据交互,无需记忆公式或学习Pandas。用户可以通过Google Colab轻松运行数据分析任务,并与机器学习模型进行自然语言训练。即将上线Replit和Streamlit版本。更多更新请关注Anil Chandra Naidu Matcha的Twitter或YouTube频道。项目相关的其他示例和代码包括Chat with Website、Chat with PDF、Chat with Youtube及DiscordGPT。
Logo of obsei
obsei
Obsei是一个开源的低代码AI自动化工具,用于收集和分析非结构化数据。其Observer模块从Twitter、Reddit、Facebook等平台获取数据,Analyzer模块进行分类、情感分析和翻译等AI任务,再通过Informer模块发送数据至不同目的地进行处理和分析。Obsei适用于社交聆听、市场研究和客户问题自动生成等场景,安装简单,支持Python 3.7+和PIP。
Logo of machine-learning
machine-learning
这个开源项目旨在帮助自学者系统地学习机器学习。内容涵盖Python基础、数据分析、数据可视化、数学和统计,以及机器学习和深度学习的多个在线课程和教程。通过推荐的YouTube视频、Coursera课程和开源项目,提供从基础到高级的学习资源,帮助学习者提升编程与数据分析能力,并逐步进入机器学习和深度学习的领域。
Logo of Streamline-Analyst
Streamline-Analyst
Streamline Analyst 是一个基于大型语言模型的开源数据分析应用,旨在提高数据分析效率。它自动执行数据清洗、预处理和其他复杂任务,如识别目标对象、划分测试集以及选择最佳模型。用户只需进行简单的操作,即可快速得到高质量的视觉化结果和模型。此工具确保数据隐私和安全,同时未来将增加自然语言处理、神经网络和对象检测等更多高级功能。
Logo of copilot-metrics-viewer
copilot-metrics-viewer
该应用程序通过一系列图表直观展示GitHub Copilot的关键指标,包括接受率、建议数量和活跃用户等。它还提供语言分析、Copilot Chat数据和座位使用情况等功能,帮助GitHub组织或企业账户分析Copilot的影响和采用情况。应用支持实际数据和模拟数据展示,利用GitHub Copilot指标API获取信息。
Logo of pg_timeseries
pg_timeseries
pg_timeseries是PostgreSQL的时序数据管理扩展,提供自动分区、压缩和保留策略等功能。它简化了时序表的创建和维护,并包含分析辅助函数以简化复杂查询。该扩展依赖columnar、pg_cron和pg_partman,支持Docker快速部署。pg_timeseries为时序数据提供了全面的管理和分析解决方案。
Logo of vedo
vedo
vedo是一个Python库,用于科学分析和3D对象可视化。它支持多种3D文件格式,提供网格和点云处理工具,可进行体积数据渲染和2D/3D绘图。vedo集成多个库,支持命令行操作,适用于科研可视化。项目包含300多个示例,在多篇科研论文中应用。
Logo of OmniXAI
OmniXAI
OmniXAI是一个开源Python库,专注于可解释人工智能(XAI)。它支持多种数据类型和机器学习模型,提供丰富的解释方法,如特征归因和反事实解释。通过统一接口和可视化仪表板,OmniXAI简化了AI决策解释过程,适用于机器学习流程的各个阶段,为数据科学家和ML从业者提供深入洞察。
Logo of camelot
camelot
Camelot是一个开源的PDF表格提取Python库,提供高度可配置的设置以精确控制提取过程。它支持将提取的表格直接转换为pandas DataFrame,并可输出为CSV、JSON、Excel等多种格式。Camelot还提供了提取质量评估指标,有助于筛选高质量结果。这个工具适用于需要从PDF文档中提取结构化数据的数据分析师和开发者。
Logo of TaskWeaver
TaskWeaver
TaskWeaver是一个创新的代码优先代理框架,能够通过代码片段解释用户请求,并高效协调多种插件来执行数据分析任务。它的独特功能包括保留聊天和代码执行历史,适合处理高维表格等复杂数据结构。支持本地小型语言模型、多种LLM配置、容器模式和CLI模式,提供安全和用户友好的体验。
Logo of CS-Ebook
CS-Ebook
「CS-Ebook」提供广泛的计算机科学技术电子书籍,涵盖从计算机基础到专业领域如编程语言、软件工程、数据分析及人工智能。书单定期更新,含多个领域的经典书籍,适合不同阶段的学习需求。
Logo of machine_learning_complete
machine_learning_complete
machine_learning_complete是一个全面的机器学习资源库,包含35个详细的笔记本教程,覆盖了从Python编程到数据分析、机器学习和深度学习的全面技能。项目自2021年起不断更新,加入了最新的MLOps指南,适合各级别学者和开发人员。
Logo of DataProfiler
DataProfiler
DataProfiler是一个Python库,用于简化数据分析、监控与敏感数据检测。通过单一命令加载数据并自动格式化为DataFrame,支持模式识别、统计分析及实体识别(PII/NPI)。带有预训练的深度学习模型,可高效识别敏感数据,并允许用户添加新的实体识别管道。支持CSV、AVRO、Parquet等多种数据格式,提供便捷的数据处理解决方案。
Logo of kss
kss
Kss提供多种韩语字符串处理功能,适用于自然语言处理、数据预处理和数据分析等领域。工具设计简洁易用,支持分词、关键词提取、拼音转换等模块,用户可通过简单代码调用实现复杂字符串操作。Python、Java等多种编程语言兼容性强,并支持良好的向后兼容。
Logo of data-on-eks
data-on-eks
Data on EKS是一个开源项目,提供全面的Terraform蓝图和最佳实践,帮助在Amazon EKS上扩展和优化数据与AI/ML工作负载。通过AWS Trainium、AWS Inferentia和NVIDIA GPUs等资源,用户可以部署多种解决方案,例如Apache Spark和TensorFlow。访问Data on EKS网站,了解如何创建强大集群,并探索AI/ML平台、数据分析和流处理工具的使用指南,有效管理数据工作负载。
Logo of python-small-examples
python-small-examples
本项目汇集了多个Python小例子和案例,涵盖数据分析、算法与机器学习,帮助用户深入理解Python应用。每个例子均含有详细说明和代码实现,适合初学者及有经验的编程人员参考学习。通过这些示例,用户可以提升编程技巧,解决实际问题,增强对Python编程的自信。
Logo of repohistory
repohistory
Repohistory 是一个开源仪表板工具,用于追踪 GitHub 仓库超过 14 天的流量历史。它具有简洁的用户界面,提供长期数据洞察。这个基于 TypeScript 开发、使用 Tailwind CSS 设计的工具跟踪克隆和查看数据,同时展示全时段的 Star 历史。开发者可通过简单设置,获取项目长期趋势和进展的分析工具,深入了解仓库的表现。
Logo of data-science
data-science
Data Science for Beginners项目提供了一系列Jupyter Notebooks和网页开发代码,涵盖数据科学完整工作流程。项目使用Python、HTML5和JavaScript(特别是D3.js),展示了scikit-learn和PyCaret等工具的应用。内容包括数据收集、预处理、分析、文本分析和可视化,适合数据科学初学者学习实践。项目还包含数据叙事部分,指导如何改进数据可视化,以及提供了作者Medium博客和Observable个人资料的链接,供进一步学习。
Logo of pybaseball
pybaseball
pybaseball是一个专注于棒球数据分析的Python库。它自动从Baseball Reference、Baseball Savant和FanGraphs等网站抓取数据,包括Statcast数据、投球和打击统计、联盟排名等。支持获取单场比赛到整个赛季的详细数据,并可自定义时间段进行数据聚合。这个工具包简化了数据获取过程,为棒球数据分析提供了便捷的访问方式。pybaseball还提供了如statcast、pitching_stats、batting_stats等函数,方便用户进行特定查询和数据分析。此外,它还支持本地数据缓存,提高了数据检索效率。
Logo of google-images-download
google-images-download
此工具是Ultralytics维护的Bing图像抓取下载工具,可高效抓取下载Bing图像用于机器学习、数据分析等。支持Docker,需Python 3.8+,提供详细使用说明。可通过URL或关键词下载图像,采用AGPL-3.0协议开源。
Logo of Time-Series-Works-Conferences
Time-Series-Works-Conferences
这是一个汇集时间序列研究最新进展的资源库,整合了多领域的论文、代码和会议信息。项目涵盖多变量预测、概率预测、数据插补和异常检测等任务,提供详细的论文分类和方法总结。同时收录了相关数据集和开源代码,为时间序列研究提供全面的参考。