#数据科学

AI-Expert-Roadmap - 人工智能专家路线图详解
AI Expert Roadmap人工智能数据科学机器学习深度学习Github开源项目
全面解析成为人工智能专家的路线图,从数据科学、机器学习到深度学习,涵盖所有必备知识和技能。项目旨在帮助新员工和社区成员掌握AI技术。互动版提供详细步骤链接,并通过定期更新保持前沿性。关注项目获取最新AI研究与应用案例,了解不同工具的适用场景,助力职业发展。
python-machine-learning-book-2nd-edition - Python机器学习与深度学习实用指南
Python Machine LearningPackt Publishing深度学习机器学习数据科学Github开源项目
本书详细介绍机器学习和深度学习的核心概念,教你使用Python及其主要库(如Scikit-Learn和TensorFlow)进行数据处理、分类、回归和模型优化。书中包含丰富的示例代码和Jupyter笔记本,帮助读者理解复杂的数学理论和实现步骤,是数据科学家和工程师学习和提升机器学习技能的理想选择。
cookiecutter-data-science - 设置包含最佳实践的数据科学项目模板的工具
Cookiecutter Data Science项目模板数据科学PythonccdsGithub开源项目
Cookiecutter Data Science提供灵活且标准化的数据科学项目结构模板,集成最佳实践,支持Python 3.8+,推荐通过pipx安装。通过简单命令即可创建新项目,生成包含数据、模型、文档、报告等模块的结构化目录,支持v1和v2版本。欢迎贡献,了解更多请访问项目主页。
zenml - 帮助数据科学家和机器学习工程师标准化机器学习流程的框架
ZenMLMLOps数据科学机器学习云基础设施Github开源项目
ZenML是一个MLOps框架,帮助数据科学家和机器学习工程师标准化机器学习流程。用户可以通过Python装饰器创建机器学习流水线,并在AWS、GCP、Azure等云平台上运行。ZenML提供一键部署功能,支持远程堆栈快速设置和使用。其优势包括简化的端到端MLOps流程、与现有工具的无缝集成及全面的模型跟踪和审计功能。适合在复杂基础设施上构建和管理ML流水线的用户。
metaflow - 提升数据科学项目效率的人性化工具
Metaflow数据科学人工智能Netflix生产部署Github开源项目热门
Metaflow是一个用户友好的库,专为帮助科学家和工程师管理和建立实际的数据科学项目而设计,最初由Netflix开发。它支持从快速本地原型设计到生产部署,并提供强大的云端可扩展性和依赖管理。适用于各种项目,从传统统计到最先进的深度学习,Metaflow旨在简化机器学习、人工智能和数据科学项目的流程。详细信息请访问Metaflow官网和文档。
Obviously AI - 通过无代码方法快速实现数据科学与机器学习
热门AI创意AI辅助设计AI工具Obviously AI无代码AIAI模型数据科学预测分析
Obviously AI 提供易于使用的一站式服务,允许用户通过单一操作完成整个数据科学过程:从建立机器学习算法、解释结果到预测未来。这一切无需任何编程背景,同时支持快速构建、部署顶尖AI模型,有效缩减开发周期,支持模型实时监控与集成。
data-science-ipython-notebooks - Python, TensorFlow, Scikit-learn 教程
深度学习TensorFlow机器学习数据科学PythonGithub开源项目
项目包含多个IPython笔记本,详解Python及其数据科学库例如TensorFlow、Scikit-learn与NumPy的使用,覆盖数据处理、统计分析到机器学习等多个应用场景。
yt-channels-DS-AI-ML-CS - 汇集了超过180个涵盖数据科学、机器学习、人工智能等领域的顶级YouTube频道
数据科学机器学习人工智能编程软件工程Github开源项目
yt-channels-DS-AI-ML-CS项目汇集了超过180个涵盖数据科学、机器学习、人工智能等领域的顶级YouTube频道。这些频道由领域内经验丰富的专家主持,内容涵盖初级到高级的编程技巧与洞察,适合所有级别的学习者,帮助用户获取最新资讯与知识提升。
Machine-Learning-Tutorials - 机器学习与深度学习教程资源
机器学习深度学习统计学人工智能数据科学Github开源项目
机器学习教程仓库包含机器学习与深度学习的主题分类教程、文章和其他资源,专为数据科学、自然语言处理和机器学习领域的初学者和专家设计。资源涵盖从入门介绍、面试资源到专家视频教程,以及涵盖线性回归、决策树等常用算法的详细讲解及实际案例展示。此外,项目还深入探讨了人工智能、图形处理学习和各种重要的机器学习概念。
numerical-linear-algebra - 探讨如何使用Python及其科学计算库在Jupyter笔记本中进行高速度和高准确性的矩阵计算
线性代数数值分解Python教程数据科学Github开源项目
本课程深入探讨如何使用Python及其科学计算库在Jupyter笔记本中进行高速度和高准确性的矩阵计算。从基础的矩阵运算到复杂的分解技术,全方位提升数据科学家处理大数据的能力。辅以丰富的视频教学和论坛讨论,构建完善的学习生态。
learning - 帮助开发者通过每日学习自我指导,不断提升软件工程核心技能和掌握新技术的综合性学习日志
Python编程机器学习数据科学程序设计前端知识Github开源项目
该项目提供一个综合性的学习日志,帮助开发者通过每日学习自我指导,不断提升软件工程核心技能和掌握新技术。内容涵盖从Python编程到数据结构,再到Linux命令行的多个领域,每月更新,专注于最新的生成性AI技术。依托于主流在线教育平台如Datacamp和Udacity,覆盖从基础到高级的教程,致力于全面提升用户职业技能。
awesome-codex - 探索OpenAI Codex的多种应用,提升开发效率
OpenAI Codex数据科学代码生成前端开发GitHub CopilotGithub开源项目
这个列表汇集了与OpenAI Codex相关的产品、演示和文章,覆盖数据科学、代码生成与理解、前端开发和游戏开发等多种应用场景。用户可以找到实用资源,如GitHub Copilot和Figma数字助手,帮助开发者高效利用Codex进行项目开发和创新。页面内容丰富,适合科技爱好者和专业开发者。
ml-workspace - 全功能机器学习和数据科学在线开发环境
ML Workspace机器学习开发环境DockerJupyter数据科学Github开源项目
ML Workspace 是一个集成多种流行数据科学库与工具的Web-based IDE (如Tensorflow, PyTorch, Keras, Sklearn)。支持Jupyter、VS Code、Tensorboard,便于快速部署并适用于本地机器学习开发,具备硬件与训练监控功能。支持通过Web、SSH或VNC进行远程访问,兼容Mac、Linux和Windows平台。
NLP-Natural-Language-Processing - 全面的自然语言处理资源与工具库
Natural Language Processing机器学习深度学习数据科学计算机视觉Github开源项目
提供全面的自然语言处理(NLP)资源,涵盖数据集、前沿技术、课程、书籍推荐、GitHub代码示例及流行工具。涉及数据分析、知识图谱、模型与算法、情感分析、主题建模等任务的详细资料与学习路径。了解最新NLP动态,探索自然语言处理的应用潜力。
lightwood - 用JSON-AI语法简化DS/ML生命周期的AutoML框架
LightwoodAutoMLJSON-AI机器学习管道数据科学Github开源项目
Lightwood是一个用JSON-AI语法简化DS/ML生命周期的AutoML框架。它支持多种数据类型和时间序列模式,使用户无需重复编写样板代码即可专注于独特的模型部分。用户可以修改默认值或替换步骤自定义管道,同时支持自带模型的自定义架构。
featureform - 使数据科学家能够定义、管理并服务于机器学习模型的特征的虚拟特征库
Featureform数据科学特征存储机器学习开源Github开源项目
Featureform 是一个虚拟特征库,使数据科学家能够定义、管理并服务于机器学习模型的特征。它通过协调现有基础设施,将变换、特征、标签和训练集标准化,促进团队协作和资源共享。Featureform 支持从个人数据科学家到大型企业团队的多种应用场景,并提供内置合规支持,包括角色访问控制和审计日志。该开源项目兼容现有数据基础设施,适用于本地和云端部署。
studio-lab-examples - 使用Amazon SageMaker Studio Lab的AI/ML学习示例
SageMaker Studio LabAI/MLJupyter notebooksAmazon SageMaker数据科学Github开源项目
本页面展示了如何使用Amazon SageMaker Studio Lab构建AI/ML学习环境的Jupyter笔记本示例,适用于个人数据科学家的ML学习之旅。包含计算机视觉、自然语言处理、地理空间数据科学和生成深度学习等领域的示例,以及详细的设置指南和AWS资源的连接方法。用户可以无需账户阅读或运行笔记本,并通过GitHub分享项目,是成为AI/ML实践者的有用参考资源。
thorough-pytorch - 从基础到进阶的PyTorch深度学习教程
PyTorch深度学习数据科学机器学习课程Github开源项目
《深入浅出PyTorch》是一门完整的课程,适用于深度学习的学习者,内容从基础到进阶。包括PyTorch的安装、基础知识、主要模块、模型定义、进阶训练技巧、以及可视化技术等。课程通过实际案例和项目实战提高编程与实践能力。适合具备Python编程和机器学习基础的人,通过协作学习提高问题解决能力。
practical-machine-learning-with-python - 实际应用中的机器学习与深度学习指南
Practical Machine Learning with Python机器学习Python深度学习数据科学Github开源项目
通过结构化的三层方法和实际案例,本书帮助读者掌握机器学习和深度学习技能。内容涵盖scikit-learn、pandas、tensorflow等工具,提供数据处理、特征工程、建模和部署的详细指导,以及多个跨行业的案例研究,支持独立完成端到端的机器学习项目。
Data-Science-Interview-Questions-Answers - 数据科学面试问题与答案精选
Data-Science-Interview-Questions-Answers数据科学机器学习深度学习GitHubGithub开源项目
提供全面的数据科学面试问题与答案,涵盖机器学习、深度学习、统计学、概率、Python和简历相关问题。定期更新,帮助求职者准备面试,分享行业专家经验。
MEDIUM_NoteBook - 改进时间序列预测与机器学习技术的全面指南
时间序列预测机器学习数据科学Gradient BoostingMLOpsGithub开源项目
该存储库收录了作者在MEDIUM平台发布的时间序列预测及各种机器学习方法的笔记。内容包含从梯度提升和生存分析模型到使用Keras进行异常检测和特征选择等多个主题。每篇文章提供详细的实现代码,适用于数据科学家和机器学习工程师参考和学习。
awesome-python-data-science - Python数据科学资源集合,详解机器学习与深度学习工具
Python数据科学机器学习深度学习工具库Github开源项目
该项目收集了全面的Python数据科学资源,包括机器学习、深度学习、自动化机器学习、自然语言处理、计算机视觉、时间序列分析和强化学习等领域的开源库。从通用型机器学习算法到深度学习框架(如PyTorch和TensorFlow),再到特征工程和数据可视化,用户可以找到适用于各种数据分析和建模需求的工具。项目旨在帮助数据科学家和工程师高效选择工具,以提高开发和分析效率。
zero-to-mastery-ml - 从零到精通的机器学习全面指南
Zero to Mastery Machine Learning机器学习数据科学Scikit-LearnTensorFlowGithub开源项目
本教程涵盖了机器学习从基础到高级的完整学习路径。内容包括代码示例、笔记本、图像和其他资料,均可通过Udemy和zerotomastery.io获取。课程内容包括六步机器学习建模框架、数据科学工具、结构化数据项目、神经网络及深度学习。最新的在线课程材料正在开发中,预计2024年发布更新。此外,还提供学生分享的学习笔记,丰富学习资源。
ILearnDeepLearning.py - 深度学习和数据科学的开源实践项目集
ILearnDeepLearning.py深度学习数据科学神经网络MediumGithub开源项目
此开源项目库集合了多个与深度学习和数据科学相关的小项目,通过实际操作帮助用户理解复杂的神经网络问题。内容包括详细的代码示例和可视化展示,涵盖梯度下降、神经网络数学原理、过拟合分析、优化器选择、卷积神经网络理论及自定义对象检测模型的训练等。适合希望深入了解和实践深度学习技术的用户,内容实用且丰富。
BEPb - 多领域编程技能与开源贡献展示
GitHubPython机器学习数据科学开源项目Github
这个项目展示了作者在多个技术领域的专长,包括Python编程、机器学习和数据科学。通过GitHub统计数据、代码分析和可视化图表,直观地呈现了作者的技术水平和开源贡献。项目还提供了多种联系渠道,方便进行技术交流。
data-science - 数据科学初学者实践教程集合
数据科学PythonJavaScript数据分析数据可视化Github开源项目
Data Science for Beginners项目提供了一系列Jupyter Notebooks和网页开发代码,涵盖数据科学完整工作流程。项目使用Python、HTML5和JavaScript(特别是D3.js),展示了scikit-learn和PyCaret等工具的应用。内容包括数据收集、预处理、分析、文本分析和可视化,适合数据科学初学者学习实践。项目还包含数据叙事部分,指导如何改进数据可视化,以及提供了作者Medium博客和Observable个人资料的链接,供进一步学习。
cheatsheets - Posit工具和R语言包的可视化速查表
PositRStudiocheatsheets数据科学开源软件Github开源项目
cheatsheets项目是一个开源的快速参考指南集合,专注于Posit(原RStudio)工具和R语言包。它以视觉化方式呈现关键信息,便于用户快速查找函数和用法。项目提供PDF版本,并正在开发更易访问的HTML版本。源文件托管在GitHub上,支持社区贡献翻译。这些速查表不仅是学习和编程的参考工具,也可作为相关技术的推广资料。项目强调视觉设计和布局的重要性,通过组织和可视化关键信息来提高参考效率。它鼓励社区参与,包括贡献新的cheatsheet和翻译现有内容。该项目遵循创意共享版权,促进知识共享和广泛传播。
scikit-learn - Python机器学习的核心工具库
scikit-learn机器学习Python开源项目数据科学Github
scikit-learn是基于SciPy构建的Python机器学习库,提供高效的数据挖掘和分析工具。支持分类、回归、聚类等多种机器学习任务,自2007年启动以来由志愿者维护,已成为广受欢迎的开源项目。其特点包括易用性、高性能和完善的文档,在学术和工业领域得到广泛应用。
Astroniz-YT-Tutorials - Python 太空数据科学教程和实践代码库
AstronizPython数据科学太空研究教程Github开源项目
Astroniz-YT-Tutorials 是一个开源项目,为 Python 爱好者和数据科学家提供太空研究相关的编程教程和代码示例。项目内容与 YouTube 视频教程对应,涵盖太空数据分析和科学计算主题。该资源库持续更新,旨在提升用户的编程技能和太空科学知识,促进相关领域的研究。部分代码可能需要额外数据集支持。
from-python-to-numpy - Python到NumPy的向量化迁移指南
NumPyPythonvectorization数据科学编程技术Github开源项目
From Python to Numpy 是一个开源的NumPy学习项目,采用Creative Commons Attribution 4.0国际许可证。该项目提供了从Python到NumPy的迁移指导,通过向量化技术展示如何提升代码效率。作者Nicolas P. Rougier分享了众多实用技巧,这些技巧往往只能通过实践获得,为读者提供了宝贵的学习和实践机会。项目涵盖了许多传统书籍未提及的内容,填补了现有NumPy学习资料的空白,帮助读者通过丰富的实例掌握NumPy的高级应用。
data-science-on-aws - 在AWS平台上开展数据科学工作的全面指南,涵盖从数据摄取到模型部署的完整流程
AWSSageMaker机器学习数据科学自然语言处理Github开源项目
该项目提供在AWS平台上开展数据科学工作的全面指南,涵盖从数据摄取到模型部署的完整流程。内容包括使用Amazon SageMaker构建AI/ML管道、BERT模型文本分类、高级模型训练及实时流分析等。项目特别关注自然语言处理任务,为数据科学家和机器学习工程师展示了AWS云端AI解决方案的实际应用。
DS-1000 - 数据科学代码生成基准测试集
DS-1000数据科学代码生成基准测试PythonGithub开源项目
DS-1000是一个数据科学代码生成基准测试集,包含1000个涵盖Matplotlib、Numpy、Pandas等主流库的数据科学问题。项目提供简化数据格式,支持通过Hugging Face或本地文件加载。DS-1000采用严格的测试方法评估代码正确性,为数据科学代码生成模型提供全面评估标准。
xgboost - 高效灵活可扩展的梯度提升算法库
XGBoost梯度提升机器学习分布式计算数据科学Github开源项目
XGBoost是一款高性能的梯度提升算法库,专为效率、灵活性和可扩展性而设计。它能快速准确地处理大规模数据集,解决各类机器学习问题。XGBoost支持多种分布式环境,可处理超十亿样本的数据。作为开源项目,XGBoost不断通过社区贡献来提升性能和扩展功能。
rmarkdown - R Markdown 动态分析文档创建工具 集成代码输出与文本
R Markdown动态分析文档RStudioPandoc数据科学Github开源项目
rmarkdown是一款用于创建动态分析文档的R包。它集成了代码、渲染输出和文本内容,支持HTML、PDF、Word等多种输出格式。使用rmarkdown,用户可专注于内容创作,无需过多关注文档呈现。该工具适用于数据科学分析、研究复现、代码协作和结果展示等场景,提高了数据分析和报告的效率。
reticulate - R与Python互操作的全面解决方案
reticulatePythonR数据科学跨语言交互Github开源项目
reticulate是一个实现R和Python全面互操作的包。它支持在R中调用Python、导入模块、在R Markdown中使用Python代码块,以及在R会话中交互使用Python。该包能够转换R和Python对象,并支持不同版本的Python环境。通过在R会话中嵌入Python会话,reticulate实现了高性能的无缝互操作。这个工具能够显著简化同时使用R和Python的数据科学工作流程。
PySyft - 隐私保护下的数据科学:无需获取数据副本使用非公开信息
PySyft数据科学数据隐私远程数据科学数据分析Github开源项目
PySyft革新数据科学,允许在不查看或复制数据的情况下使用非公开信息。通过连接Datasite,数据所有者控制数据保护,数据科学家直接运行Python代码进行统计分析和机器学习,支持Linux、macOS、Windows、Docker和Kubernetes,适用于多种开发环境。