#机器学习

ialacol - 轻量化OpenAI API兼容替代方案,适合Kubernetes环境并支持快速Helm安装
ialacolOpenAI兼容Kubernetes部署机器学习模型支持Github开源项目
ialacol是一个轻量级的OpenAI API兼容替代方案,支持LLaMa 2、Mistral、StarCoder等多种模型,并提供Kubernetes集群的一键Helm安装。项目具备CUDA加速、流式体验和与GitHub Copilot VSCode扩展的兼容性。通过配置示例和运行指南,可以灵活部署和配置服务,实现快速启动和高效使用。ialacol兼容ctransformers和多种LLMs,适合多种应用场景。
budoux - 独立小巧且多语言支持的机器学习换行工具
BudouX机器学习语段分割独立工具浏览器端Github开源项目
BudouX 是一款独立且小巧的机器学习换行整理工具,无需依赖第三方分词器,支持日语、简体中文、繁体中文和泰语。它占用空间小,约15KB,可用于客户端,并支持与HTML输入的集成。使用者可以通过提供数据集训练任何语言的模型,适用于Python、JavaScript和Java编程语言。该工具旨在解决CJK语言在网页排版中的分行问题,提高可读性。
spago - Go语言编写的轻量级深度学习和自然语言处理库
SpagoGo深度学习自然语言处理机器学习Github开源项目
Spago是一个用纯Go语言编写的机器学习库,支持自动微分、前馈层、循环层和注意力层等架构,适用于深度学习和自然语言处理。它旨在减少对生产环境中Python的依赖,通过独立的可执行文件简化部署,已在多个项目中成功应用。特别适合需要纯Go实现NLP功能的开发者。
opennlp - Apache OpenNLP:优化您的自然语言处理任务的顶级工具
Apache OpenNLP自然语言处理机器学习Java模型Github开源项目
Apache OpenNLP是一个用Java编写的机器学习工具包,用于自然语言处理,支持分词、句子分割、词性标注、命名实体识别、块解析、语法分析、共指解析和语言检测等任务。项目旨在提供成熟的NLP工具,并提供多语言预训练模型和注释资源。OpenNLP可以通过Java API或命令行使用,易于集成到如Apache Flink、Apache NiFi、Apache Spark等分布式处理管道中。
projects - 高效管理和分享端到端工作流程的工具
WeaselspaCyNLP管道项目模板机器学习Github开源项目
Weasel项目模板提供了管理和分享各类端到端工作流程的便捷方式,可克隆预定义模板,调整以满足具体需求,进行数据加载和管道训练,导出为Python包并上传到远程存储,与团队共享结果。该项目还包括与第三方库和工具的集成模板,以及性能基准模板。
AndroidTensorFlowMNISTExample - 使用TensorFlow在Android平台上的MNIST手写数字识别示例
TensorFlowAndroidMNIST机器学习手写数字识别Github开源项目
该项目展示了如何使用TensorFlow在Android平台上为MNIST数据集创建手写数字识别模型。用户无需自行构建库,可以直接通过Maven获取所需资源。项目提供了详细的模型训练步骤、资源链接及贡献指南,适合对机器学习和Android开发有兴趣的用户。
machinelearning-samples - 专为.NET开发者设计的跨平台的开源机器学习框架
ML.NET跨平台开源机器学习MLOpsGithub开源项目
ML.NET是一个跨平台的开源机器学习框架,专为.NET开发者设计。它提供丰富的样例和教程,涵盖二分类、多分类、推荐系统、回归、时间序列预测、异常检测和聚类等任务,方便开发者将机器学习模型集成至现有或新建的.NET应用中。项目还提供了完整的端到端应用示例,包括Web和桌面应用,扩展了机器学习的实际应用场景。
causallib - 通过观察性数据的因果推断分析
causallib因果推断Python包机器学习模型评估Github开源项目
Causallib是一个Python包,提供统一的因果推断方法,灵感来自scikit-learn API,支持复杂机器学习模型的集成。用户可以进行有适应性的模块化因果建模,提供更准确的效果估计。该包还包括评估工具,用于诊断模型表现差异,适用于各种治疗策略和潜在结果预测。研究人员可以使用causallib从现实世界的观察性数据中推断干预措施的因果影响,适用于医疗和社会科学等领域。更多信息请访问causallib文档。
csinva.github.io - 机器学习与神经科学的互动演示和详尽笔记资源
csinva机器学习因果推断神经科学研究笔记Github开源项目
提供机器学习、统计学及神经科学的全面笔记、演示文稿和研究概述,涵盖可解释性、因果推断、迁移学习和不确定性等主题。用户可以访问实用的备忘单和课程笔记,了解最新的研究进展。资源来源包括Chandan在UC Berkeley读博期间积累的丰富资料,适用于相关领域的研究和教学人员。
Stock-Market-Prediction-Web-App-using-Machine-Learning-And-Sentiment-Analysis - 使用机器学习和情感分析预测股市走势
Stock Market Prediction Web App机器学习情感分析ARIMALSTMGithub开源项目
该Web应用结合机器学习和情感分析,预测未来7天内NASDAQ和NSE股票的走势。用户可以实时查看股票价格、阅读最新股票新闻、进行货币转换,并获得股票推荐。采用ARIMA、LSTM和线性回归算法进行预测,并通过社交媒体情感分析提供买卖建议。系统拥有管理员和用户权限,前端采用Flask和Wordpress。
machinelearning - 跨平台开源框架,简化.NET应用中的模型开发与部署
ML.NET机器学习开源框架模型训练自定义模型Github开源项目
ML.NET是一个跨平台的开源机器学习框架,使开发者无需机器学习经验即可在.NET应用中构建、训练和部署定制模型。它支持从文件和数据库加载数据,并进行数据转换,具备多种机器学习算法。ML.NET适用于分类、预测和异常检测等多种场景,并兼容TensorFlow和ONNX模型,扩展性强。支持Windows、Linux和macOS操作系统,以及ARM64和Apple M1处理器架构。
myvision - 免费在线图像标注工具
MyVision图像注释工具机器学习数据集COCO-SSDGithub开源项目
MyVision是一款免费在线图像标注工具,旨在生成计算机视觉机器学习训练数据。它具有快速标注、多种数据集格式支持和现有项目导入功能。还利用COCO-SSD预训练模型自动标注对象,保障数据隐私。无需任何设置,只需打开index.html文件即可使用。适用于大数据集的高效工作流程,并支持英文和中文。
emlearn - 微控制器与嵌入式系统的便携机器学习工具
emlearn机器学习嵌入式系统MicroPythonScikit-learnGithub开源项目
emlearn是一款为微控制器和嵌入式系统设计的便携高效的机器学习工具。通过Python训练模型后,可生成C99代码用于设备推断。支持包括AVR Atmega、ESP8266、ARM Cortex M等多个平台,无需动态分配或libc依赖,可直接与Python整合,通过scikit-learn或Keras训练并生成可嵌入C语言代码。
ml - JavaScript环境下的多功能机器学习工具集
ml.js机器学习JavaScriptnpmGithub开源项目
ml.js库提供了一系列JavaScript环境下的机器学习工具,覆盖无监督学习、监督学习、神经网络、回归、优化、数学运算和数据处理等功能。用户可轻松在浏览器中引用并使用这些工具,每个模块都附有详细的链接说明,便于开发者快速找到和使用所需功能。
xorbits - 轻松扩展数据科学与机器学习工作负载的开源框架
Xorbits开源计算框架机器学习Python API大数据处理Github开源项目
Xorbits 是一款开源计算框架,旨在简化数据科学和机器学习任务的扩展。从数据预处理到模型部署,Xorbits 支持整个流程。它可以利用多核或GPU加速单机计算,或扩展至数千台机器,以处理TB级数据和大型模型的训练。Xorbits 提供兼容 pandas、NumPy、PyTorch 和 XGBoost 等库的 Python API,无需深入了解基础设施即可完成工作负载扩展。
Open3D-PointNet2-Semantic3D - 使用Open3D和PointNet++进行高效3D数据处理与语义分割
Open3DSemantic3DPointNet++机器学习语义分割Github开源项目
该项目演示了如何使用Open3D与PointNet++进行3D点云的加载、预处理及语义分割,提供了高效的点云操作方法和训练预测流程,为Semantic3D数据集提供了简洁优化的基准实现,适用于深度学习应用的快速开发。
feast - 旨在为机器学习平台团队提供可靠的特征管理工具的开源的特征存储系统
Feast特征存储机器学习数据基础设施模型训练Github开源项目
Feast是一个开源的特征存储系统,旨在为机器学习平台团队提供可靠的特征管理工具。它通过管理离线存储和低延迟的在线存储,确保特征在训练和服务中的一致性,避免数据泄漏。Feast提供了一个单一的数据访问层,将特征存储与特征检索分离,使模型在不同数据基础设施之间保持可移植性。用户可以通过详细的文档和指南,轻松上手并运行Feast。
fklearn - 通过函数式编程简化机器学习问题的解决方案
fklearn机器学习功能编程Apache许可证scikit-learnGithub开源项目
fklearn基于函数式编程原则,旨在简化实际机器学习问题的解决。其核心原则包括:模型验证应反映真实情况、生产模型应与已验证模型一致、模型可快速投产,以及结果的可重复性和易于深入分析。用户可通过pip或源码安装fklearn,并可参考详尽文档和社区支持以快速入门。
NLP-Natural-Language-Processing - 全面的自然语言处理资源与工具库
Natural Language Processing机器学习深度学习数据科学计算机视觉Github开源项目
提供全面的自然语言处理(NLP)资源,涵盖数据集、前沿技术、课程、书籍推荐、GitHub代码示例及流行工具。涉及数据分析、知识图谱、模型与算法、情感分析、主题建模等任务的详细资料与学习路径。了解最新NLP动态,探索自然语言处理的应用潜力。
decision-forests - 支持TensorFlow的多功能决策森林模型库
TensorFlow Decision ForestsYggdrasil Decision Forests随机森林梯度提升树机器学习Github开源项目
TensorFlow Decision Forests (TF-DF) 是一款用于在 TensorFlow 中训练、运行和解释决策森林模型(包括随机森林和梯度增强树)的库,支持分类、回归和排序。TF-DF 由 Yggdrasil Decision Forests (YDF) 支持,兼容C++、JavaScript、CLI和Go语言,适用于Linux和Mac环境。借助简洁的API和丰富的文档资源,用户能够轻松构建强大且易解释的机器学习模型。
traceml - 机器学习数据追踪与可视化工具,支持多种深度学习框架
TraceMLPolyaxon机器学习深度学习数据追踪Github开源项目
TraceML 是一款强大的工具,用于机器学习和数据的追踪、可视化、解释和漂移检测。它与 Keras、PyTorch、TensorFlow、Fastai、Pytorch Lightning 和 HuggingFace 等多种深度学习和机器学习框架集成,方便用户记录和跟踪实验数据。TraceML 支持离线模式、多种数据可视化接口,并能生成详细的数据框架总结。
examples - 高效分析非结构化数据的开源示例
Towhee数据处理机器学习嵌入向量图像搜索Github开源项目
Towhee Examples 是一个用于分析非结构化数据的开源案例库,包括反向图像搜索、反向视频搜索、音频分类、问答系统和分子搜索等多种应用场景。通过 Towhee 的机器学习模型管道,用户可以轻松生成各种嵌入向量。示例内容多样,涵盖图像动画、图像去重、文字图像搜索、视频分类、深度伪造检测和音频分类等。所有示例均可在本地环境中轻松运行,帮助开发者简化数据处理任务。
sklearn-evaluation - 机器学习模型评估工具
sklearn-evaluation机器学习模型评估PythonJupyter notebookGithub开源项目
sklearn-evaluation是一款简便的机器学习模型评估工具,支持绘制混淆矩阵、特征重要性、精准率-召回率、ROC曲线、肘部曲线和轮廓图等多种图表,并生成HTML格式的评估报告。该工具还可使用本地SQLite数据库进行实验跟踪,分析Jupyter notebook输出,并通过SQL查询notebook数据。兼容Python 3.7及更高版本,适用于Linux、macOS和Windows平台,提供全面的模型评估功能。
MachineLearning-DeepLearning-Code-for-my-YouTube-Channel - 自然语言处理和深度学习模型微调开源代码合集
自然语言处理机器学习深度学习YouTube频道模型微调Github开源项目
本项目汇集了自然语言处理和深度学习模型微调的开源代码,涵盖多种模型如Mistral、Falcon、DeBERTa和BERT,应用场景横跨Amazon评论数据集、Kaggle竞赛和跨语言命名实体识别等。项目内容适合从初学者到专业研究人员,提供前沿技术和最佳实践,帮助提升模型性能和解决实际问题。通过详尽的代码注释和YouTube视频,用户可以清晰理解复杂概念和操作步骤,高效掌握深度学习技巧。
flashlight - 用C++编写的机器学习库
Flashlight机器学习C++高性能神经网络Github开源项目
Flashlight是完全用C++编写的灵活高效的机器学习库,源自Facebook AI Research及其他知名项目。它包括内部接口可修改、核心小于10 MB以及高性能默认设置等特点,支持自动语音识别、图像分类、物体检测和语言建模等应用。提供简单的安装方式和全面的文档,适合研究者和开发者使用。
polymath - 使用机器学习技术将任何音乐库自动转换为音乐制作样本库的工具
Polymath机器学习音乐制作样本库音频处理Github开源项目
Polymath 使用机器学习技术将任何音乐库自动转换为音乐制作样本库。该工具能分离歌曲为不同音轨,量化节奏和速度,分析音乐结构和音调,并将音频转为 MIDI。适用于音乐制作人、DJ 和机器学习音频开发者,极大简化工作流程。访问 nendo.ai 获取更多信息和网络版功能。
pyss3 - 简洁明了的文本分类Python库
PySS3文本分类机器学习开源项目模型评估Github
PySS3是一个用于文本分类的Python库,使用简单且可解释的SS3模型,适合需要清晰了解决策依据的应用场景。PySS3提供了诸如SS3类、实时测试的Live_Test类和评估工具Evaluation类,帮助用户快速开发和优化机器学习模型。直观的API和可视化工具使得用户可以轻松提升模型性能,理解模型决策的原因。
CFU-Playground - 提高机器学习任务性能的FPGA处理器优化平台
CFU PlaygroundFPGA机器学习性能提升定制指令Github开源项目
CFU-Playground项目为工程师、实习生和学生提供了一个用于设计和评估FPGA“软”处理器增强功能的框架,专注于提升机器学习任务的性能。用户可以快速上手、自定义指令,并进行效率测试和性能测量,实现多次迭代。项目还包含TensorFlow Lite模型优化、硬件要求和软件工具链的详细设置指导,除Vivado外,所有工具均为开源。
sematic - 开源的机器学习平台,支持ML工程师和数据科学家使用Python编写并运行复杂的端到端流水线
Sematic机器学习PythonKubernetes开源Github开源项目
Sematic是一个开源的机器学习平台,支持ML工程师和数据科学家使用Python编写并运行复杂的端到端流水线。无论在本地计算机、云虚拟机还是Kubernetes集群上执行,Sematic都可以高效利用云资源。它具有易于上手、端到端可追溯性、本地与云一致性和高可重复性等特点,可在无需部署或额外基础设施的情况下开始使用,所有流水线步骤都可以在web仪表盘上监控和可视化,适用于优化不同计算资源。
advanced-machine-learning-engineer-roadmap-2024 - 全面全栈机器学习工程师成长指南
Full Stack MLPython 编程数据分析机器学习深度学习Github开源项目
掌握全栈机器学习工程师所需的各项技能,从数据收集与预处理到模型部署与维护,涵盖Python编程、数据分析、数据可视化、统计学、机器学习、自然语言处理、深度学习、计算机视觉、MLOps及Git与GitHub的使用。通过具体步骤和示例逐步提升专业能力。
katana-skipper - 机器学习工作流引擎
Katana ML Skipper机器学习微服务DockerKubernetesGithub开源项目
Katana-skipper 是一个灵活的机器学习工作流引擎,它能够在多个微服务之间进行事件调度,并创建可执行的流程来处理请求。该引擎可配置以支持任何微服务,且具有通用的引擎和通信部分。示例服务使用波士顿房价数据进行数据处理和模型训练,支持多种编程语言的微服务容器,包括 Python 和 JavaScript。Skipper 可部署于任何支持 Kubernetes 或 Docker 的云服务商,并支持使用 Kubernetes 命令进行扩展。
pycaret - 开源的低代码Python机器学习库,能够简化和自动化机器学习工作流程
PyCaret机器学习低代码Python开源Github开源项目
PyCaret是一个开源的低代码Python机器学习库,能够简化和自动化机器学习工作流程。通过减少代码量,PyCaret使实验更高效、更快速。它支持scikit-learn, XGBoost, LightGBM, CatBoost等多种机器学习框架,用户可以通过少量代码完成模型训练、评估和预测。无论是经验丰富的数据科学家,还是对低代码解决方案感兴趣的用户,PyCaret都是理想选择。
neuralforecast - 先进的神经网络时间序列预测模型库
NeuralForecast预测模型机器学习时间序列深度学习Github开源项目
NeuralForecast 提供 30 多种先进的神经网络模型,提升时间序列预测的准确性和效率。支持外生变量和静态协变量,并具备自动超参数优化和可解释性方法。通过 sklearn 语法 `.fit` 和 `.predict` 实现快速训练和预测,包含 NBEATSx 和 NHITS 等最新实现,并与 Ray 和 Optuna 集成,适用于多种应用场景。
computer-vision-in-action - 计算机视觉实战指南:涵盖基础理论及前沿技术
Maiwei AI LabCharmve计算机视觉机器学习L0CVGithub开源项目
本项目提供全面且前沿的计算机视觉学习资源,涵盖深度学习基础、神经网络模型及其优化方法。核心内容包括卷积神经网络、循环神经网络以及现代技术如Transformer、强化学习和迁移学习。通过实战项目和详细的代码实现,用户可以学习图像分类、目标检测、语义分割和3D重建等应用。此外,项目提供在线运行的notebook,简化本地调试过程。
basalt - 使用Mojo语言开发的机器学习框架
Basalt机器学习Mojo框架性能优化Github开源项目
Basalt是一个独立的机器学习框架,利用Mojo语言进行从头开发,性能媲美PyTorch等成熟框架。基于MLIR技术,Basalt通过静态图优化性能。目前,项目正在持续更新,计划支持更多操作符、图子模块和GPU等特性。尝试使用Basalt为机器学习项目带来显著加速效果。
cheatsheets-ai - 深度学习和机器学习工程师常用速查表
AI Cheatsheets机器学习深度学习TensorFlowKerasGithub开源项目
提供详尽的深度学习和机器学习速查表,包括Tensorflow、Keras、Numpy等热门工具,帮助工程师和研究人员快速掌握核心知识,提高工作效率。访问AI Cheatsheets获取更多资源和最新技术信息,适用于各水平从业者。