#数据科学

Complete-Life-Cycle-of-a-Data-Science-Project - 数据科学项目全生命周期实践指南
数据科学web爬虫数据收集数据集APIGithub开源项目
该项目提供了数据科学项目完整生命周期的实践指南。涵盖数据收集、清洗、特征工程、模型训练及部署全过程。详细介绍网络爬虫、API、数据库等数据获取方法,并汇总多个开放数据集资源。同时包含数据预处理、特征选择、模型评估等关键环节的最佳实践。对数据科学学习者和从业人员具有重要参考价值,有助于全面把握数据科学项目流程。
must-read-papers-for-ml - 精选机器学习和数据科学必读论文资源集
机器学习深度学习数据科学神经网络论文集Github开源项目
本项目汇集了数据科学、机器学习和深度学习领域的重要论文和综述文章。涵盖数据预处理、深度学习技术、推荐系统和计算机视觉等多个主题。资源按重要性分类,并提供链接,方便读者学习和追踪最新进展。项目持续更新,欢迎贡献新的学术资源。
scikit-learn-videos - 使用scikit-learn学习机器学习实践技能
机器学习scikit-learnPythonJupyter Notebook数据科学Github开源项目
该项目通过10个scikit-learn视频教程和配套Jupyter notebook,系统讲解机器学习基础知识与实践技能。内容涵盖机器学习概念、Python环境配置、数据处理、模型训练评估、交叉验证和参数优化等。总时长4.5小时,并提供更新的免费在线课程,包含测验和证书,是入门scikit-learn的综合学习资源。
ML-CaPsule - 全面的机器学习项目集合与实践资源
机器学习数据科学项目集合PythonML-CapsuleGithub开源项目
ML-CaPsule是一个综合性机器学习资源库,收录了从入门到高级的多个主题。项目包括机器学习基础概念、深度学习、自然语言处理等领域的实践项目。学习者可通过这些资源掌握数据提取、可视化和特征选择等核心技能。此外,项目还涵盖统计学基础和数据科学多个方面的知识,为用户提供全面而实用的学习内容。
Jupyter - 开源算法学习与交互式实践环境
Jupyter算法开源项目贡献指南数据科学Github
Jupyter项目是一个开源的算法学习平台,提供多种算法实现和交互式演示。用户可在线运行和编辑算法,体验便捷的开发环境。该项目欢迎贡献新算法,包括源代码、数学解释和演示。平台支持数据集使用,并设有贡献指南和行为准则,致力于构建协作学习社区。
dtreeviz - 提供直观的决策树可视化和模型解释功能
dtreeviz决策树可视化机器学习模型解释数据科学Github开源项目
dtreeviz是一个专注于决策树可视化和模型解释的Python库。它支持多个主流机器学习框架,如scikit-learn、XGBoost等。该库提供树结构、预测路径、叶节点和特征空间等多种可视化功能,帮助用户直观理解决策树模型原理。dtreeviz适用于机器学习实践者和研究人员,可用于模型解释和教学等场景。
BitMagic - C++位向量压缩库用于高效数据处理和内存优化
BitMagic压缩位向量数据科学SIMD优化序列化Github开源项目
BitMagic是一个专注于内存优化的C++库,用于信息检索和数据科学。它通过位切片变换、秩选择压缩和逻辑计算实现高效的位向量和容器压缩。该库支持快速序列化和搜索,适用于内存受限场景和大数据处理。BitMagic提供集合运算、区间操作和三值逻辑等功能,并支持WebAssembly和ARM平台,为开发者提供全面的数据处理解决方案。
knime-core - KNIME Analytics Platform的核心组件和开发框架
KNIME数据分析平台开源项目软件开发数据科学Github
KNIME Core是KNIME Analytics Platform的核心组件,提供API定义和框架支持。它包含org.knime.core.*系列模块,为数据分析和机器学习工作流程构建奠定基础。该项目由KNIME Core开发团队维护,支持创建自定义扩展。作为开源项目,KNIME Core在GitHub上提供源代码,便于社区参与和贡献。KNIME还设有技术论坛,供用户交流和讨论。
Data-Science-For-Beginners - 微软推出20节数据科学入门课程
数据科学课程GitHubMicrosoft入门Github开源项目
微软Azure Cloud Advocates团队推出数据科学入门课程,包含20节内容。课程涵盖数据科学伦理、数据准备、可视化和分析等基础知识,采用项目式教学方法。每节课配备测验、说明、解决方案和作业,帮助初学者系统掌握数据科学技能。
targets - R语言数据科学工作流管理工具
targetsR语言管道工具数据科学可复现性Github开源项目
targets是一个R语言数据科学工作流管理工具,具有类似Make的功能。它可以智能跳过已更新的任务,利用隐式并行计算提高效率,并将文件处理为R对象。通过targets,用户可以高效、便捷地管理复杂的数据分析流程,提高结果的可重复性和可信度。该工具提供多种功能用于可视化、执行和读取工作流,适用于各类数据科学项目。
Data-Science-EBooks - 探索数据科学的免费电子书资源宝库
Data ScienceMachine Learning电子书资源集合数据科学Github开源项目
Data-Science-EBooks是一个开源项目,收集了数据科学、机器学习及相关主题的电子书资源。这个GitHub开源仓库提供免费的电子书资源,涵盖数据分析、统计学、人工智能等热门主题,是数据科学学习和研究的valuable参考库。该项目涵盖从入门到高级的各个层面,为学习者、研究人员和专业人士提供了丰富的知识来源。项目包含最新的数据科学趋势和技术资料,有助于使用者在这个快速发展的领域中获取知识。
t5_paraphraser - 基于T5模型的智能问题重构生成器
模型训练开源项目模型GithubHuggingfaceT5文本生成深度学习数据科学
t5_paraphraser是一个基于T5预训练模型的文本复述工具,可以智能重构输入的问题或句子,生成多个语义相似但表述不同的版本。项目使用PyTorch和Transformers库实现核心功能,并提供详细的代码示例和输出结果。这对于文本变体生成、问答系统增强或语言模型训练的开发者而言是一个有价值的资源。