#机器学习

scikit-lego - 为scikit-learn提供自定义扩展的开源库
scikit-lego机器学习Python库数据科学开源项目Github
scikit-lego是一个开源Python库,为scikit-learn提供自定义转换器、指标和模型。该项目最初由荷兰多家公司合作开发,现已获得全球贡献。scikit-lego严格遵循scikit-learn标准,提供高质量代码和测试。它包含多种新特性,如自定义数据集、pandas工具、线性模型、朴素贝叶斯、混合模型、元估计器、预处理工具、模型选择方法和评估指标,旨在增强机器学习工作流程的灵活性和功能性。
MAPIE - 开源机器学习不确定性量化与风险控制库
MAPIE机器学习不确定性量化保证覆盖率预测区间Github开源项目
MAPIE是一个开源Python库,用于量化机器学习模型的不确定性和控制风险。它计算可控覆盖率的置信预测区间,适用于回归、分类和时间序列分析。MAPIE还可控制多标签分类和语义分割等复杂任务的风险。该库兼容各类模型,遵循scikit-learn API,基于同行评审算法提供理论保证。MAPIE仅依赖scikit-learn和numpy,支持Python 3.7及以上版本。
distil-whisper - 快速高效的音频转录模型
Distil-Whisper语音识别模型压缩自然语言处理机器学习Github开源项目
Distil-Whisper是OpenAI Whisper模型的蒸馏版本,速度提升6倍,模型规模缩小49%,同时保持了相近的准确性。该项目支持短语音和长语音转录,提供多个针对英语语音识别的高效模型。Distil-Whisper还可作为Whisper的辅助模型实现推测解码,在保证输出一致性的同时将速度提升2倍。
MachineLearningWithMe - 全面深入的机器学习算法实践教程
机器学习算法模型数据分析人工智能Github开源项目
MachineLearningWithMe是一个系统化的机器学习教程项目,内容涵盖从环境配置到高级算法的多个方面。项目详细讲解并实现了线性回归、逻辑回归、K近邻、朴素贝叶斯、决策树、支持向量机、聚类和降维等核心算法。特别强调动手实践,指导读者从零开始实现各类算法,并提供泰坦尼克号生还预测等实际案例。此外还包括模型评估、特征工程和集成学习等进阶内容,适合初学到中级水平的学习者深入探索机器学习领域。
CC5205 - 综合数据挖掘与机器学习课程资源
数据挖掘机器学习聚类算法神经网络数据分析Github开源项目
智利大学计算机科学系的开源数据挖掘课程,结合理论与实践。课程资源丰富,包括视频、幻灯片和补充材料,全面覆盖从数据分析到机器学习算法的各个方面。特别关注数据隐私和伦理,为学习者提供全方位的数据科学教育。通过实践项目和丰富的学习资源,帮助学生和专业人士深入掌握数据挖掘和机器学习技能。
spark-nlp-workshop - Python和Scala自然语言处理实践资源
Spark NLP自然语言处理机器学习PythonScalaGithub开源项目
Spark NLP Workshop是一个开源项目,提供丰富的Jupyter笔记本和教程,展示如何在Python和Scala中使用Spark NLP进行自然语言处理。项目涵盖注释、评估和训练等方面,并包含适用于不同开发环境的Databricks笔记本。此资源库支持本地和Google Colab环境的简易设置,为数据科学家和开发者提供了实用的NLP工具和示例。
maml - 材料科学机器学习的高级Python接口包
maml机器学习材料科学特征工程潜在能量面Github开源项目
maml是一个为材料科学机器学习设计的Python包,提供高级接口简化开发流程。它整合了scikit-learn和tensorflow等机器学习库,以及pymatgen和matminer等材料科学工具,实现特征提取和模型构建。maml支持多种局部环境特征,如双谱系数和Behler-Parrinello对称函数,并包含势能面建模、X射线吸收光谱预测等应用模块。
aeon - 开源时间序列学习框架
aeon时间序列机器学习算法PythonGithub开源项目
aeon是一个开源时间序列学习框架,兼容scikit-learn,集成最新和经典的机器学习算法。支持预测、分类等任务,采用numba实现高效计算,并提供统一接口便于算法比较。该框架涵盖广泛的时间序列算法,持续更新最新研究成果,适用于Python 3.9及以上版本。
langchain-tutorials - LangChain教程与项目实例集合
LangChain教程人工智能机器学习自然语言处理Github开源项目
LangChain是一个用于构建LLM应用的框架。本项目提供全面的教程和示例,涵盖核心概念、使用案例和实际项目。内容包括文本摘要、问答系统、数据提取和聊天机器人等多个应用领域。通过丰富的代码示例和视频教程,开发者可以快速掌握LangChain,构建各类AI应用。
CC6205 - 自然语言处理基础到前沿的全面课程
自然语言处理机器学习深度学习神经网络NLP课程Github开源项目
该自然语言处理课程涵盖NLP基础和前沿技术,包括传统的N-gram模型、朴素贝叶斯、隐马尔可夫模型,以及现代的词嵌入、循环神经网络和Transformer等。通过理论学习和实践,学生可掌握NLP核心概念和最新进展,为后续研究和应用打下基础。课程内容丰富全面,适合想系统学习NLP的学生和研究者。
ARENA_3.0 - 从基础到高级应用的人工智能实践学习平台
GitHubARENA 3.0Streamlit机器学习人工智能Github开源项目
ARENA 3.0项目是一个综合性人工智能学习平台,涵盖深度学习基础、转换器可解释性和强化学习等领域。通过实践练习和Streamlit页面,学习者可构建神经网络、探索机器学习模型内部原理,并开发强化学习代理。该项目注重培养实际技能,帮助学习者应对AI领域的前沿挑战。
awesome-materials-informatics - 材料信息学全面资源集锦 助力数据驱动材料研究
材料信息学数据科学开源软件机器学习计算材料学Github开源项目
本资源列表汇集了材料信息学领域的软件工具、云平台、数据集和标准化倡议。内容涵盖开源与商业解决方案,聚焦材料模拟、数据挖掘和机器学习等关键技术。研究人员可借此快速了解行业动态,为数据驱动的材料科学研究提供参考。
Awesome-Information-Bottleneck - 信息瓶颈理论在机器学习中的进展和应用综述
Information Bottleneck深度学习信息理论神经网络机器学习Github开源项目
本项目汇总了信息瓶颈理论在机器学习领域的关键文献,包括经典论文、综述、理论研究、模型开发和应用。重点介绍了信息瓶颈原理解释深度神经网络学习行为的方法,以及在表示学习、生成模型、强化学习等方向的创新应用。项目为研究人员和实践者提供了了解信息瓶颈理论最新进展的全面资源。
Sophia - 随机二阶优化器提升语言模型预训练效率
Sophia优化器机器学习语言模型预训练Github开源项目
Sophia是一种为大规模语言模型预训练设计的随机二阶优化器。它通过支持更大学习率,提高了训练速度和模型性能。该项目提供Sophia-G优化器的实现,包含超参数调优指南和GPT-2训练脚本,方便研究人员应用这一优化技术。Sophia适用于GPT-2等不同规模的模型,展现了良好的扩展性。
EXAONE-3.0 - 英韩双语7.8B参数大规模语言模型
EXAONE 3.0语言模型人工智能自然语言处理机器学习Github开源项目
EXAONE 3.0是LG AI Research开发的英韩双语大规模语言模型,参数规模达78亿。该模型通过8T优质数据预训练和指令微调,在MT-Bench等多项评测中表现出色。EXAONE 3.0能够进行跨语言交互,处理复杂指令,并生成准确回应。这一开源项目为自然语言处理研究和应用开发提供了重要工具。
orpo - 无参考模型的语言模型偏好优化技术
ORPO模型训练人工智能自然语言处理机器学习Github开源项目
ORPO是一种新型语言模型训练方法,无需参考模型即可实现偏好优化。项目展示了ORPO在AlpacaEval、MT-Bench和IFEval等基准测试中的性能。ORPO训练的Mistral-ORPO-β模型在AlpacaEval官方排行榜上获得14.7%的长度控制胜率。项目开源了多个预训练模型和训练日志,为AI研究和开发提供了重要资源。
personality-prediction - 基于预训练语言模型的自动化性格预测系统
性格预测语言模型机器学习自然语言处理心理语言学Github开源项目
该项目探索了预训练语言模型在自动化性格预测领域的应用。研究基于Essays数据集(大五人格特征)和Kaggle MBTI数据集,使用TensorFlow和PyTorch实现了一系列实验。项目提供了完整的工作流程,包括环境配置、语言模型特征提取和浅层MLP微调,最终实现对未知文本的性格特征预测。这一研究为自然语言处理在心理学领域的应用提供了新的思路。
sktime - 多功能时间序列分析和预测库
sktime时间序列分析机器学习Python库统一接口Github开源项目
sktime是一个开源的Python时间序列分析库,为多种时间序列学习任务提供统一接口。它支持时间序列分类、回归、聚类、标注和预测等功能,并提供专门的时间序列算法和兼容scikit-learn的工具。sktime还整合了多个相关库的接口,便于用户在不同时间序列任务间迁移算法。
khaiii - Kakao开源的韩语形态素分析工具
khaiii形态素分析机器学习自然语言处理韩语分析Github开源项目
khaiii是Kakao开发的开源韩语形态素分析工具,采用CNN算法实现。该项目结合预分析词典和错误修复技术,在保证准确率的同时提供高效处理速度。支持自定义词典,可用于韩语自然语言处理的基础预处理,适合大规模文本分析场景。
nl4dv - 数据可视化的自然语言处理工具包
NL4DV自然语言处理数据可视化机器学习开源工具Github开源项目
NL4DV是一个开源工具包,能将自然语言查询转换为包含数据属性、分析任务和Vega-Lite可视化规范的JSON对象。它允许开发者通过自然语言创建Python可视化,或为现有系统增加自然语言交互功能。由Georgia Tech Visualization Lab开发的NL4DV为数据可视化领域提供了新的可能性。NL4DV支持自动识别数据属性、分析任务,并生成相应的可视化建议。该工具包适用于多种场景,并提供完整的API文档和示例,便于集成和使用。
awesome-AI-for-time-series-papers - 时间序列分析领域的人工智能前沿研究与资源集锦
时间序列AI机器学习深度学习数据挖掘Github开源项目
这是一个全面收录人工智能在时间序列分析(AI4TS)领域最新研究成果的资源库。项目汇集了顶级AI会议和期刊发表的论文、教程和综述,涉及时间序列、时空数据、事件数据等多个方面。资源库实时更新NeurIPS、ICML、KDD等重要会议的相关论文,为AI4TS领域的研究人员和工程师提供了丰富且及时的学术参考。
mlforecast - 高性能可扩展的机器学习时间序列预测框架
MLForecast时间序列预测机器学习特征工程分布式训练Github开源项目
mlforecast是一个基于机器学习模型的时间序列预测框架,具有高效的特征工程实现和良好的可扩展性。该框架支持pandas、polars、spark等多种数据格式,兼容sklearn API,能够处理海量数据。除了支持概率预测和外生变量,mlforecast还提供分布式训练功能,适用于大规模生产环境的时间序列预测任务。框架采用熟悉的fit和predict接口,便于快速上手和集成到现有项目中。
python-glmnet - Python实现的正则化回归库
PythonGLMNET机器学习正则化回归Scikit-LearnGithub开源项目
python-glmnet是一个实现正则化回归模型的Python库。它封装了R语言glmnet包的Fortran库,提供线性和逻辑回归功能。该库兼容Scikit-Learn的API,支持稀疏矩阵,具有交叉验证和自动选择最佳正则化参数的功能。可通过conda或pip安装,适用于需要实现Lasso或ElasticNet回归的数据科学项目。
eurybia - 开源Python库助力数据和模型偏移检测
Eurybia数据漂移模型漂移机器学习Python库Github开源项目
Eurybia是一个Python开源库,专注于检测数据和模型偏移,并在模型部署前进行数据验证。该工具生成详细的HTML报告,支持模型性能监控、AI系统审核和治理优化。通过直观的可视化和动态报告,Eurybia简化了数据特征和偏移分析,促进了团队协作和跨部门沟通。
data-science - 开源社区大学提供的数据科学自学课程
数据科学开源教育课程大纲机器学习GitHubGithub开源项目
开源社区大学提供的数据科学自学课程,汇集世界顶尖大学的在线资源。课程覆盖数据科学本科全部内容,包括编程、数学、统计学和机器学习等。学习者可自主安排进度,利用进度跟踪工具和社区支持完成学习。这一免费资源为有志于数据科学领域的学习者提供了全面的教育路径。
molfeat - 多功能分子特征提取框架
molfeat分子特征提取机器学习化学信息学开源软件Github开源项目
molfeat是一个开源的分子特征提取框架,集成多种预置分子特征提取器。它提供简洁高效的API,统一预训练分子嵌入和传统特征提取方法。框架支持通过插件扩展自定义特征提取器,并采用缓存机制优化性能。作为分子特征化的综合解决方案,molfeat适用于广泛的分子建模和分析应用场景。
awesome-tensorflow - TensorFlow资源大全 丰富的开源深度学习工具库
TensorFlow深度学习机器学习神经网络人工智能Github开源项目
这是一个全面的TensorFlow资源列表,涵盖教程、模型、项目、工具等多个方面。开发者和研究人员可以在此找到丰富的学习和应用资源,从入门到进阶。列表内容包括实验、库、视频、论文等,适合不同层次的TensorFlow使用者。这个资源集为探索TensorFlow的各种可能性提供了便利。
optuna-dashboard - Optuna超参数优化的实时仪表盘工具
Optuna仪表盘可视化超参数优化机器学习Github开源项目
optuna-dashboard是Optuna超参数优化框架的实时仪表盘工具,提供直观的图形界面用于监控和分析优化实验。它展示优化历史和超参数重要性等关键信息,支持多种安装方式如PyPI、Anaconda Cloud和Docker镜像。该工具还包括Jupyter Lab扩展和纯浏览器版本,适用于各种环境。optuna-dashboard能有效提升机器学习实验的监控和分析效率。
yoloexplorer - 高效探索和处理计算机视觉数据集的开源工具
YOLOExplorer计算机视觉数据集管理图像分析机器学习Github开源项目
YOLOExplorer是一款开源的计算机视觉数据集分析和处理工具。它提供API接口,支持SQL查询、向量相似度搜索和Pandas集成。该工具可用于数据集分析、清理和合并,并提供GUI仪表板进行可视化操作。YOLOExplorer支持多种预训练模型,能快速生成适用于YOLO、SAM等模型的数据集,有助于提升计算机视觉项目的开发效率。
coreml-examples - CoreML演示应用集合展示苹果神经引擎优化技术
CoreML苹果神经引擎模型优化机器学习iOS开发Github开源项目
该仓库收录了多个为苹果神经引擎优化的CoreML演示应用,展示了先进机器学习模型在iOS设备上的应用。涵盖FastViT图像分类、Depth Anything V2单目深度估计和DETR语义分割等模型。这些实例不仅展示CoreML功能,还为开发者提供在iOS设备上部署复杂机器学习模型的参考。项目采用coremltools进行优化和测试,是iOS机器学习开发的重要学习资源。
LLM-Agent-Survey - 大语言模型驱动智能体的构建应用与评估综述
LLM自主代理人工智能大语言模型机器学习Github开源项目
该研究全面综述了基于大语言模型(LLM)的自主智能体,探讨了智能体的核心组件和应用领域。作为该领域首个发表的综述论文,研究分析了LLM智能体在多个学科的应用,并讨论了评估策略,为该快速发展领域的研究人员提供了宝贵见解。
MLQuestions - 65个机器学习面试问题助您备战2024年技术面试
机器学习面试问题深度学习计算机视觉神经网络Github开源项目
MLQuestions项目收录65个机器学习和计算机视觉工程师技术面试问题。涵盖偏差-方差权衡、卷积神经网络等主题,并新增自然语言处理问题。提供在线课程和推荐书籍等准备资源。问题内容包括机器学习基础、深度学习技术和计算机视觉算法,适合求职者全面备战2024年技术面试。
ByProt - 先进的蛋白质序列设计工具包
ByProt蛋白质设计AI建模反向折叠机器学习Github开源项目
ByProt是一个专注于蛋白质研究中生成学习的多功能工具包。它主要用于基于结构的序列设计,提供高效的非自回归ProteinMPNN变体和LM-Design的官方实现。LM-Design作为ICML 2023口头报告的成果,是当前最先进的蛋白质序列设计模型。该工具包支持CATH和多链数据集的训练与评估,为研究人员提供灵活的蛋白质设计方案。
mljar-supervised - 开源自动机器学习框架 简化表格数据建模
AutoML机器学习模型训练数据分析MLJARGithub开源项目
mljar-supervised是一个专门用于表格数据的开源自动机器学习框架。它可自动完成数据预处理、模型构建和超参数调优,生成详细的Markdown报告解释每个模型。该框架提供多种工作模式,包括数据解释、生产部署、竞赛优化等。支持多种算法并具备模型集成功能,能有效简化数据科学工作流程,帮助用户快速构建高质量机器学习模型。
skglm - 快速灵活的稀疏广义线性模型Python库
skglmGLMscikit-learn机器学习稀疏模型Github开源项目
skglm是一个开源Python库,专为解决稀疏广义线性模型(GLMs)而设计。它提供快速估计器,完全兼容scikit-learn,并支持更多模型。其模块化设计允许用户自定义估计器,灵活性高。skglm在处理大型数据集时,性能最高可达scikit-learn的100倍。
cheatsheets-ai - 深度学习和机器学习工程师常用速查表
AI Cheatsheets机器学习深度学习TensorFlowKerasGithub开源项目
提供详尽的深度学习和机器学习速查表,包括Tensorflow、Keras、Numpy等热门工具,帮助工程师和研究人员快速掌握核心知识,提高工作效率。访问AI Cheatsheets获取更多资源和最新技术信息,适用于各水平从业者。