#机器学习

AlphaPy - 多功能机器学习框架 整合市场分析与体育预测
AlphaPy机器学习数据科学预测模型金融分析Github开源项目
AlphaPy是一个基于Python的综合机器学习框架,集成了scikit-learn、Keras和XGBoost等多种先进模型。它不仅提供集成模型生成功能,还包含MarketFlow和SportFlow等专用工具,用于市场分析和体育赛事预测。此外,AlphaPy支持交易系统开发和投资组合分析,为数据科学家和金融分析师提供了全面的解决方案。
Learning-Deep-Learning - 自动驾驶与深度学习前沿技术论文笔记集锦
深度学习机器学习计算机视觉自动驾驶论文阅读Github开源项目
这个项目汇集了深度学习和机器学习领域的论文阅读笔记,重点关注自动驾驶技术。涵盖BEV感知、语义占用预测、可行驶空间检测和3D目标检测等热门研究方向。同时收录了多篇综述文章,全面呈现自动驾驶领域的最新进展和技术动向。
Machine_Learning_and_Deep_Learning - 完整的机器学习和深度学习学习路径
机器学习深度学习Python编程数据分析统计学Github开源项目
该项目提供了从Python基础到机器学习算法的全面学习路径,包含多个模块如数据分析、统计和机器学习。通过教程、代码示例和案例研究,帮助学习者掌握数据科学和AI的核心知识。这是一个开源项目,欢迎社区贡献。
tesstrain - Tesseract 5训练流程自动化工具
TesseractOCR模型训练机器学习图像处理Github开源项目
tesstrain是一个基于Makefile的Tesseract 5训练工作流工具。它提供完整的OCR模型训练流程,包括数据准备、训练、评估和可视化。支持自定义模型、微调和从头训练,具有灵活的配置选项。tesstrain能生成traineddata文件和错误率图表,适用于高效开发和优化Tesseract模型。
LaTeX_OCR_PRO - 基于深度学习的多语言数学公式识别系统
LaTeX_OCR_PRO数学公式识别Seq2SeqAttention机器学习Github开源项目
LaTeX_OCR_PRO是一个开源的数学公式识别项目,结合Seq2Seq、Attention和Beam Search技术,实现了对标准、中文及手写数学公式的高精度识别。项目提供完整的环境配置、数据处理、模型训练和评估流程,在多项性能指标上达到业界领先水平。此外,LaTeX_OCR_PRO还支持训练过程和注意力机制的可视化,为相关研究和应用开发提供了有力支持。
Convolutional-KANs - KAN卷积网络探索参数效率与性能提升
CKAN神经网络卷积机器学习图像处理Github开源项目
Convolutional-KANs项目将Kolmogorov-Arnold网络(KAN)架构应用于卷积层,引入可学习的非线性激活函数。初步实验表明,KAN卷积在保持准确性的同时,可能比传统卷积网络更具参数效率。该项目正在更复杂的数据集上进行进一步测试,以评估KAN卷积的实际性能。这一创新为计算机视觉领域开辟了新的研究方向。
MLKit - Android机器学习开发的高效工具库
MLKit机器学习图像识别AndroidGoogleGithub开源项目
MLKit是一个Android机器学习工具库,集成了Google的多项视觉识别技术。它支持条码扫描、人脸检测、图像标签和对象检测等功能。开发者无需深厚的机器学习背景,即可通过简单的代码实现复杂功能。此外,MLKit还提供API支持在应用中使用自定义TensorFlow Lite模型,为开发者提供了更多灵活性。
deep-license-plate-recognition - 基于深度学习的多功能车牌识别系统
ALPR车牌识别机器学习API图像处理Github开源项目
deep-license-plate-recognition是一个基于深度神经网络的自动车牌识别系统。该项目可在复杂环境下准确识别车牌,支持90多个国家,能识别车辆类型、品牌、型号和颜色。系统提供REST API接口,兼容多种编程语言和操作系统平台。适用于停车场管理、道路监控等场景,并提供免费试用。
simple-ocr-opencv - 基于OpenCV和NumPy的轻量级Python OCR工具
OCRPythonOpenCV图像识别机器学习Github开源项目
simple-ocr-opencv是一个基于OpenCV和NumPy的Python OCR工具。它采用矩形模型进行图像分割,使用k-NN算法实现字符分类。项目结构清晰,包含示例代码,支持自定义训练,并提供预标注训练图像和交互式标注功能。开发者可通过example.py快速上手。这个开源项目遵循GNU AGPLv3许可证,适合需要实现基础OCR功能的开发者使用。
fusilli - 多模态数据融合Python库 支持机器学习任务
fusilli多模态数据融合机器学习PyTorch数据分析Github开源项目
fusilli是一个多模态数据融合Python库,支持表格-表格和表格-图像融合,适用于回归、二分类和多分类任务。基于PyTorch Lightning和PyTorch Geometric构建,提供平台比较不同融合方法。能有效结合血液检测和神经影像等数据类型,用于疾病预测等应用。为研究人员和开发者提供便捷工具,探索多模态数据融合技术。
nlp-de-cero-a-cien - 从零开始学习NLP,实践Hugging Face开发
NLPHugging FaceTransformers机器学习自然语言处理Github开源项目
本项目提供全面的NLP学习课程,涵盖词嵌入到Transformer模型等关键技术。7次在线课程由行业专家授课,学习者可掌握核心知识并使用Hugging Face开发应用。课程设计适合不同水平学习者,提供录像回放及社区支持。
ReservoirComputing.jl - Julia语言实现的高效水库计算库 支持ESN等多种模型
ReservoirComputing.jl储备计算Julia语言机器学习时间序列预测Github开源项目
ReservoirComputing.jl是一个Julia语言开发的水库计算库,支持回声状态网络(ESN)等多种模型。该库提供高效、模块化的实现,可用于时间序列预测和动态系统建模。作为SciML生态系统的一部分,ReservoirComputing.jl具有灵活的API设计和丰富的功能,通过简洁的接口和详细文档,便于研究人员和工程师快速构建复杂的水库计算模型。
mlr - R语言的综合机器学习工具包
机器学习R语言mlr算法数据分析Github开源项目
mlr是一个功能丰富的R语言机器学习框架,为分类、回归、聚类和生存分析等任务提供标准化接口。它支持模型重采样、超参数优化和特征选择,并具备可视化和并行计算能力。尽管已停止新功能开发,mlr仍是一个成熟稳定的工具包,适用于多种数据分析场景。
bird-recognition-review - 深度学习推动鸟类声音识别研究进展
鸟类识别数据集机器学习音频处理生态学Github开源项目
本项目梳理了鸟类声音识别领域的数据集、论文和开源项目等资源。重点介绍了卷积神经网络等深度学习方法在提高识别准确率方面的进展。同时探讨了野外录音中的背景噪声、多种鸟类同时发声等挑战,为该领域研究提供了参考。
MLJ.jl - Julia生态系统中全面的机器学习工具箱
MLJ机器学习Julia模型选择元算法Github开源项目
MLJ.jl是Julia语言生态系统中的机器学习工具箱,集成了约200个机器学习模型,提供统一接口和元算法。支持模型选择、调优、评估和组合等功能,适用于机器学习研究和应用。该项目由Alan Turing研究所发起,获得新西兰战略科学投资基金资助,为用户提供完善的文档和贡献指南。
sentinel2-cloud-detector - Sentinel-2卫星图像云检测Python包
s2cloudlessSentinel-2云检测Python包机器学习Github开源项目
sentinel2-cloud-detector是一个针对Sentinel-2卫星图像的云检测Python包。它采用单场景像素级云检测器和机器学习算法,生成云识别结果和概率图。该工具通过国际合作验证,提供多种安装方式和使用示例,适用于遥感图像处理。
self-paced-ensemble - 自适应集成学习框架解决高度不平衡数据分类
Self-paced Ensemble不平衡数据分类集成学习机器学习Python库Github开源项目
Self-paced Ensemble (SPE)是一个处理大规模高度不平衡数据分类的集成学习框架。SPE采用严格平衡的欠采样策略,无需计算样本间距离,适用于各类数据集。该框架计算高效,性能优异,可与多种学习模型兼容。作为通用框架,SPE能提升现有方法在不平衡数据上的表现,特别适合处理噪声大、极度不平衡的大规模数据集。
Great-Deep-Learning-Tutorials - 全面深度学习教程和实用资源集锦
深度学习机器学习神经网络人工智能PyTorchGithub开源项目
该项目汇集了深度学习领域的优质教程和资源,覆盖计算机视觉、自然语言处理、语音处理等多个方向。内容包括入门教程、高级课程、技术博客和开源代码库,涵盖模型量化、AutoML、图神经网络等前沿主题。同时提供深度模型训练的实践指南,适合系统学习和深入研究深度学习的人员参考。
smartcore - Rust语言开发的开源机器学习库
SmartCore机器学习RustAPIJupyter NotebookGithub开源项目
smartcore是一个Rust语言开发的机器学习库,实现了分类、回归、聚类等多种算法模型。项目提供API接口和文档,并支持Jupyter Notebook环境。作为Rust生态系统的一部分,smartcore为数据科学和机器学习应用提供工具支持。
100DaysofMLCode - 100天掌握机器学习编程实践从数据预处理到深度学习
机器学习数据预处理回归分类聚类Github开源项目
100DaysofMLCode是一个为期100天的机器学习编程挑战项目,涵盖数据预处理、回归、分类、聚类、强化学习、自然语言处理和深度学习等主题。项目提供代码示例和日志记录,适合不同水平的开发者学习和实践机器学习技术。作为开源项目,它欢迎社区贡献。
scicloj.ml - Clojure机器学习生态系统 强大灵活的数据科学工具
Clojure机器学习数据处理模型训练pipelinesGithub开源项目
Scicloj.ml是一个为Clojure语言打造的全面机器学习生态系统。它整合了多个成熟的数据科学库,提供标准化的分类、回归和无监督学习模型接口。该库支持数据驱动的机器学习流水线构建,内置复杂的交叉验证功能,并具备灵活的开放架构,可轻松集成各类ML模型。Scicloj.ml还提供丰富的数据预处理工具,并允许通过回调机制实现实验跟踪,为Clojure开发者提供了强大而灵活的机器学习解决方案。
NsfwSpy.NET - 开源AI图像和视频内容分类器
NsfwSpy图像分类内容审核机器学习.NETGithub开源项目
NsfwSpy.NET是基于.NET Core 2.0及以上版本的开源图像和视频内容分类器,支持多平台使用。该工具采用ML.NET模型,通过大规模图像训练,能够识别色情、性感、动漫色情和中性内容。NsfwSpy.NET支持多种格式,提供GPU加速,可用于用户生成内容的审核。
Annif - 多算法自动主题索引工具包 提升文本分类效率
Annif自动主题索引自然语言处理机器学习文本分类Github开源项目
Annif是一个开源自动主题索引工具包,集成多种算法用于文本分类和主题标注。它可高效处理大规模文档,提供REST API,支持多语言,并支持Docker部署。这个工具主要应用于图书馆、档案馆等需要自动化主题分类的机构,能提高索引效率和一致性。Annif项目持续更新,具备完善的文档和活跃的社区支持。
AutoMLPipeline.jl - Julia机器学习管道构建和优化工具
AutoMLPipeline机器学习管道优化特征工程集成学习Github开源项目
AutoMLPipeline工具包用简洁表达式构建复杂机器学习管道。它基于Julia宏编程实现符号化处理,便于优化回归和分类模型结构。主要特点包括符号化API、常用库封装、可扩展架构、元集成学习和特征选择。该工具简化了从数据预处理到模型训练的流程,支持多种算法组件。
Compendium-of-free-ML-reading-resources - 机器学习免费学习资源集合 书籍论文和在线教程
机器学习深度学习数据科学统计学线性代数Github开源项目
该项目是一个综合性机器学习免费资源集合,涵盖数据分析、数学、统计、机器学习和深度学习等领域。收录内容包括经典教材、最新论文、PDF电子书和在线教程,以英文原版为主。项目提供系统的机器学习知识体系和高质量学习材料,适合入门和进阶学习。资源全面、内容权威、持续更新,定期收录最新开放获取资源,为自学者和研究人员提供最新知识和便利。
benchmarks - 主流机器学习库全面性能基准测试
CatBoost基准测试机器学习性能比较GPU加速Github开源项目
Benchmarks是GitHub上的开源项目,致力于多个主流机器学习库的性能对比。该项目涵盖CatBoost、XGBoost、LightGBM和H2O等库,对比范围包括二元分类、训练速度、模型评估、排序任务和SHAP值计算。此外还提供CPU与GPU性能对比和Kaggle竞赛数据集上的质量评估。这些全面的基准测试为机器学习从业者提供了客观的性能参考数据。
Tabular-data-generation - 开源表格数据生成工具库支持多种生成模型
GAN表格数据生成时间序列生成数据增强机器学习Github开源项目
Tabular-data-generation是一个开源的表格数据生成工具库,集成了GAN、TimeGAN、扩散模型和大语言模型等多种生成技术。通过简洁的API,研究人员可方便地生成高质量合成数据,应用于数据增强和隐私保护等领域。项目提供了完整的使用文档、实验设计和结果分析,为表格数据生成研究提供了有价值的参考资源。
MedMNIST - 标准化医学图像分类数据集
MedMNIST医学图像分类神经网络机器学习数据集Github开源项目
MedMNIST是一个标准化的生物医学图像数据集,包含18个2D和3D子集。数据集提供28x28及更大尺寸的图像,涵盖多种医学影像模态,适用于不同的分类任务。总计约708K个2D图像和10K个3D图像,支持生物医学图像分析、计算机视觉和机器学习研究。MedMNIST以其多样性、标准化和易用性,成为评估机器学习算法和开发医学模型的重要资源。
ML-DL-scripts - 机器学习和深度学习的全面脚本库 从分类到部署的解决方案
机器学习深度学习PythonGitHub数据科学Github开源项目
ML-DL-scripts是一个综合性的机器学习和深度学习Python脚本库。这个项目涵盖了从分类、回归到聚类和时间序列分析等多个领域,同时提供了PyTorch、Fastai和Keras等主流深度学习框架的使用示例。项目还包括图像处理、自然语言处理和异常检测等实际应用案例,以及基于Docker的模型部署配置。这个代码库为数据科学研究和机器学习应用提供了丰富的技术参考资源。
mlr3 - 现代化的R语言机器学习框架
mlr3机器学习R语言数据分析模型训练Github开源项目
mlr3是一个现代化的R语言机器学习框架,专注于高效和面向对象的设计。它提供构建机器学习模型的基本组件,支持分类、回归等任务,并具有良好的可扩展性。该框架利用R6类和data.table实现清晰的面向对象设计和快速数据处理。mlr3提供交叉验证等重采样方法和丰富的性能评估指标。作为mlr的继任者,mlr3克服了前身的局限性,为研究人员和数据科学家提供更灵活、更易维护的机器学习工具。
DecisionTree.jl - Julia高效决策树和随机森林算法库
DecisionTree.jl机器学习决策树随机森林JuliaGithub开源项目
DecisionTree.jl是一个Julia语言实现的决策树和随机森林算法库,提供分类和回归功能。它支持预剪枝、后剪枝、多线程bagging和自适应提升等技术,可与AutoMLPipeline.jl、MLJ.jl等库集成使用。该库具有高效易用的API,支持交叉验证和特征重要性分析,适用于各类机器学习项目中的决策树相关任务。
ml-course - Andrew NG机器学习MOOC课程的R语言编程练习实现
机器学习MOOCAndrew NGR语言编程练习Github开源项目
该开源项目在GitHub上为Andrew NG教授的机器学习MOOC课程提供R语言版本的编程练习代码。包含练习说明、启动代码和解决方案,使学习者能用免费的R软件替代MATLAB/Octave完成作业。项目还提供依赖包安装和作业提交指南,帮助学习者顺利完成这门机器学习入门课程。
ML-2021-notes - 李宏毅机器学习课程笔记集锦
机器学习李宏毅深度学习神经网络课程笔记Github开源项目
该项目整理了李宏毅2021年机器学习课程的详细笔记,涵盖从基础概念到前沿技术的15个主题。内容包括深度学习、CNN、Transformer、GAN等核心知识,以及自监督学习、对抗攻击等新兴领域。每个主题都配有相应的视频链接,便于深入学习。项目采用Notion平台展示,提供完整的课程大纲和PDF版本。笔记内容基于课程视频和幻灯片,力求准确理解和呈现。适合机器学习初学者和研究人员系统学习和参考。
aitlas - 地球观测人工智能工具箱简介
AiTLAS遥感人工智能地球观测机器学习Github开源项目
AiTLAS是一个开源的地球观测人工智能工具箱,集成了先进的机器学习方法和地球观测数据集。它适用于土地利用分类、作物预测、对象定位等多种任务。该工具箱旨在帮助地球观测专家应用新型AI方法,并为AI研究人员提供标准化的地球观测数据。AiTLAS支持Python 3.7+,提供文档和示例,便于安装和使用。
classifier - Ruby实现的文本分类和语义分析库
Classifier贝叶斯分类LSI机器学习文本分类Github开源项目
Classifier是一个Ruby开源库,实现了贝叶斯分类和潜在语义索引算法。它提供文本分类、语义分析、搜索和聚类功能,适用于多种文本处理任务。该库具有良好的性能和扩展性,同时保持了使用简便性。Classifier提供了详细文档和示例,便于开发者快速上手和集成。
imbalanced-ensemble - 专注类别不平衡的Python集成学习库
IMBENS类别不平衡集成学习Python机器学习Github开源项目
imbalanced-ensemble是一个针对类别不平衡数据的Python集成学习库。该库提供15种以上的集成不平衡学习算法和19种采样方法,特点包括易用API、优化性能和强大可视化功能。完全兼容scikit-learn和imbalanced-learn,支持二分类和多分类任务。imbalanced-ensemble适用于类别不平衡集成学习模型的快速实现、修改、评估和可视化。