#机器学习
Data-Engineering-Roadmap - 数据工程师成长路线图及关键技能学习资源
数据工程编程语言数据库数据处理机器学习Github开源项目
该项目提供了一个系统化的数据工程学习路线图,涵盖编程语言、SQL、数据库、数据处理、集群计算、数据可视化等核心领域。路线图内容丰富,包括Linux系统、数据结构与算法、数据库基础、SQL、NoSQL、数据处理、集群计算、数据仓库、数据可视化等。同时涵盖了CI/CD、云计算、机器学习等相关技术,为构建完整的数据工程知识体系提供了全面指导。它推荐了各方面的学习资源和实用工具,旨在帮助学习者全面掌握数据工程技能,而非仅追随热点。路线图适合不同水平的学习者,为数据工程职业发展提供了清晰指导。
natml-unity - 跨平台Unity机器学习集成工具
机器学习Unity跨平台性能优化NatML HubGithub开源项目
NatML是一款为Unity开发者设计的机器学习集成工具,支持多种ML模型格式和跨平台部署。它通过硬件加速提供高性能,并通过NatML Hub简化预训练模型的发现和使用。NatML允许开发者以少量代码实现复杂的机器学习功能,无需深厚的ML背景。该工具简化了Unity项目中机器学习的应用流程,提高了开发效率。
awesome_OpenSetRecognition_list - 开放集识别和相关技术的精选论文资源
开放集识别开放世界识别深度学习机器学习异常检测Github开源项目
这个项目汇集了开放集识别、分布外检测、开放集域适应和开放世界识别等领域的精选论文和资源。内容包括最新教程、研究挑战和学术论文,涵盖了基于深度学习和传统机器学习的方法。列表持续更新,为研究人员提供开放集识别领域的全面概览,展示了该方向的前沿进展。
spark - 统一分析引擎 支持多语言API及丰富工具集
Apache Spark大数据处理分布式计算数据分析机器学习Github开源项目
Apache Spark是一个大规模数据处理的统一分析引擎,提供Scala、Java、Python和R的高级API。它支持多种高级工具,如Spark SQL、pandas API on Spark、MLlib、GraphX和Structured Streaming,分别用于SQL查询、pandas操作、机器学习、图处理和流处理。Spark的优化引擎支持通用计算图,适用于多种大数据分析场景。
cleanlab - 开源工具自动检测和优化机器学习数据集
cleanlab机器学习数据清理标签错误检测数据中心AIGithub开源项目
cleanlab是一款开源的数据中心AI工具包,能够自动检测机器学习数据集中的标签错误、异常值和重复项等问题。该工具适用于图像、文本和表格等各类数据,并支持所有机器学习模型。除了发现数据问题,cleanlab还可以训练更稳健的模型,评估数据质量。基于可靠的理论基础,cleanlab运行高效,操作简便,是优化数据质量和提升模型性能的实用工具。
BayesianOptimization - 贝叶斯优化的Python库 高效优化黑盒函数
贝叶斯优化高斯过程全局优化机器学习PythonGithub开源项目
BayesianOptimization是一个纯Python实现的贝叶斯全局优化库。该工具利用高斯过程构建未知函数的后验分布,平衡探索与利用来寻找函数最大值。它适用于高成本函数优化,能以较少迭代找到接近最优的参数组合。BayesianOptimization提供简洁API,支持自定义搜索空间、序列域缩减和约束优化等功能,适用于机器学习模型调参等场景。
Machine-Learning-Guide - 全面的机器学习指南,从基础到前沿应用
机器学习人工智能深度学习自然语言处理计算机视觉Github开源项目
这份机器学习指南涵盖了从基础概念到前沿技术的各个方面,包括丰富的学习资源、主流框架工具介绍和热门应用领域。指南详细讲解了算法、深度学习、强化学习等核心主题,还提供了CUDA、MATLAB等相关技术的开发指南。涉及计算机视觉、自然语言处理等热门领域,并深入介绍PyTorch、TensorFlow等主流机器学习框架和工具,旨在提高机器学习开发效率。
mac-ml-speed-test - Apple Silicon Mac机器学习性能测试工具
Mac机器学习性能测试PyTorchTensorFlowGithub开源项目
mac-ml-speed-test是一个专为Apple Silicon Mac设计的机器学习性能测试项目。通过简单脚本对比不同Mac设备上的机器学习模型速度,涵盖计算机视觉和自然语言处理等领域。项目使用PyTorch、TensorFlow等主流框架,并提供详细配置指南,便于用户进行性能评估。测试内容包括图像分类、文本分类和LLM文本生成等任务,使用CIFAR100、Food101和IMDB等数据集。此外,项目还包括与NVIDIA TITAN RTX和Google Colab免费版的性能对比,为用户提供更全面的参考数据。
tabnine-intellij - 智能代码补全与开发辅助工具
TabnineAI代码助手代码补全开发工具机器学习Github开源项目
Tabnine是一款基于AI的代码辅助工具,为开发者提供实时代码补全、聊天和代码生成功能。支持多种主流编程语言和IDE,通过预训练的机器学习模型提供全行、全函数及自然语言到代码的补全建议。该工具注重代码隐私保护,可在本地或云端运行,旨在提高开发效率和代码质量。
Papers-in-100-Lines-of-Code - 45篇深度学习论文的100行代码实现集锦
深度学习神经网络机器学习计算机视觉NeRFGithub开源项目
Papers-in-100-Lines-of-Code项目汇集了45篇深度学习领域重要论文的精简实现。覆盖范围广泛,从经典网络架构到前沿神经渲染技术,每个算法都浓缩为100行以内的代码。这种简洁实现有助于理解算法核心思想,为研究者和开发者提供了快速上手的机会。项目既展示了复杂算法的精髓,又为深度学习实践提供了便捷途径。
raft - 可复用CUDA函数库加速向量搜索与机器学习
RAFTGPU加速机器学习向量搜索CUDAGithub开源项目
RAFT是一个CUDA加速的C++头文件库,为机器学习和信息检索提供基础算法和原语。它实现了先进的向量相似度搜索方法,包括暴力搜索、IVF-Flat、IVF-PQ和CAGRA。RAFT还提供可重用原语,用于构建涵盖数据生成、模型评估、分类回归、聚类等领域的机器学习算法。通过跨项目复用和集中核心计算,RAFT加速了算法开发,并使未来优化能广泛应用于各种算法。
awesome-time-series-segmentation-papers - 时间序列分割技术论文精选与代码实现
时间序列分割机器学习数据挖掘变点检测语义分割Github开源项目
该项目汇集了时间序列分割领域的经典算法和最新研究成果,涵盖单变量、多变量和张量时间序列的分割方法。内容包括无监督语义分割、变点检测等技术,并提供相关代码实现和数据集链接。这一资源对时间序列处理和模式识别研究具有重要参考价值。
airy - 流式数据处理框架赋能 AI 模型训练与实时分析
Airy Core数据平台开源流处理机器学习Github开源项目
Airy Core 是一个开源的流式数据处理框架,为 AI 模型训练和实时分析提供支持。它集成了多种数据源,如 Facebook、WhatsApp 等社交平台,并支持自定义连接器。Airy Core 能够融合历史和实时数据流,简化数据摄取流程,并通过预构建连接器从 Kafka 直接消费数据。基于 Apache Kafka 构建的 Airy Core 可同时处理海量事件,实现数据的实时流式传输。这一框架不仅简化了部署过程,还缩短了开发周期,同时增强了基础设施和应用的稳定性。
numalogic - 开源时间序列分析和异常检测框架
numalogic机器学习时间序列分析异常检测AIOpsGithub开源项目
numalogic是一个开源的机器学习框架,专注于运营数据分析和AIOps。该框架集成了多种ML模型和算法,提供预测性数据分析、模型选择、数据处理和特征提取功能。numalogic适用于部署失败检测、系统故障识别、欺诈检测等场景。它支持实时训练,可根据输入数据自动更新模型,适合构建持续运行的ML平台。numalogic设计简洁,易于使用和扩展,为数据分析提供了灵活的解决方案。
inaSpeechSegmenter - CNN音频分割工具包实现语音检测与性别识别
语音分割性别识别音频处理机器学习开源工具Github开源项目
inaSpeechSegmenter是一个基于CNN的开源音频分割工具包,主要用于语音活动检测和说话人性别分割。该工具能将音频分为语音、音乐和噪音区域,并对语音部分进行男女性别标注。在法语媒体测试中表现出色,已应用于多项性别代表性研究。兼容Python 3.7到3.12版本,提供命令行和API接口,支持pip安装和Docker部署。
LotteryPrediction - 将机器学习应用于彩票数据分析和预测模型
时间序列预测深度学习彩票预测数据分析机器学习Github开源项目
LotteryPrediction是一个开源项目,结合机器学习和数据分析技术,旨在为彩票预测提供数据驱动的解决方案。该项目通过分析历史开奖数据,识别潜在模式,并应用统计方法预测未来结果。LotteryPrediction提供多种服务级别,从基础开源版本到定制化企业解决方案。项目还包含数据可视化工具,帮助用户更好地理解彩票数据趋势。需要注意的是,该项目不保证预测准确性,仅作为辅助决策工具使用。
ABAGAIL - 功能丰富的Java机器学习算法库
ABAGAIL机器学习人工智能算法神经网络优化算法Github开源项目
ABAGAIL是一个开源Java库,实现了多种机器学习和人工智能算法。它包含隐马尔可夫模型、神经网络、支持向量机、决策树等算法,并提供线性代数、优化和图算法支持。该项目适合喜欢自主实现算法的开发者,提供灵活的定制选项和示例代码,可用于解决离散优化问题和机器学习任务。
hyperopt - Python库Hyperopt助力机器学习超参数优化
Hyperopt超参数优化Python库机器学习分布式计算Github开源项目
Hyperopt是一个强大的Python库,专门用于复杂搜索空间中的超参数优化。它支持实值、离散和条件维度,提供随机搜索、TPE等多种算法。通过Apache Spark和MongoDB实现并行化,Hyperopt能够显著提高机器学习模型的调优效率。作为开源项目,它为机器学习领域提供了高效的超参数优化解决方案,正在被广泛应用于加速模型开发和性能优化。
StratosphereLinuxIPS - Slips是基于机器学习的开源网络入侵防御系统
Slips入侵防御系统机器学习网络安全开源软件Github开源项目
Slips是一款强大的开源网络入侵防御系统,通过机器学习检测网络流量中的恶意行为。它支持实时分析网络流量、PCAP文件和来自Suricata等工具的网络流,结合了训练模型、威胁情报和专家规则来触发警报。Slips适用于Linux和MacOS,提供图形和命令行界面,是一个功能全面的网络安全工具。系统能够检测目标攻击和命令控制通道,并可与外部平台集成,实现自动威胁情报更新。
FlowMeter - 实验性网络流量分类与分析工具
FlowMeter网络包分析流量分类机器学习安全分析Github开源项目
FlowMeter是一款实验性网络流量分析工具,通过检查数据包头部来分类和分析网络流量。它可将数据包和流量标记为良性或恶意,具有高准确率和低误报率。该工具还能将数据包归类为流,并提供详细的流量统计信息。FlowMeter主要面向需要在网络数据包上开发和应用机器学习模型的用户,同时作为Deepfence ThreatMapper的预过滤组件。
poseidon - 开源SDN网络态势感知系统
PoseidonSDN网络监控机器学习DockerGithub开源项目
Poseidon是一个开源的软件定义网络态势感知系统,通过机器学习自动分析网络流量。它能识别网络节点、理解行为模式,实现网络可视化和异常检测。Poseidon可与Faucet等SDN控制器集成,为网络管理提供全面的监控和安全能力。
ml4code.github.io - 机器学习在大规模代码和自然语言处理中的应用综述
机器学习大代码自然性开源项目文献综述Github
ml4code.github.io 是一个关于机器学习在大规模代码和自然语言处理研究领域的综合性资源网站。该项目提供最新研究综述,涵盖领域前沿发展。作为一个动态更新平台,它不仅提供静态研究回顾,还鼓励研究者通过创建 Markdown 文件贡献工作和分类法。这种开放协作模式使其成为该领域最新进展的实时反映。这个开源项目托管在GitHub上,旨在成为机器学习应用于代码分析和自然语言处理的权威参考资源。
markup - 基于机器学习的智能文档标注工具 提高NLP任务效率
Markup机器学习自然语言处理标注工具本体映射Github开源项目
Markup是一款基于机器学习的在线文档标注工具,专为自然语言处理任务设计。它通过预测性标注技术提供复杂标注建议,提高工作效率。工具集成常用和自定义本体库,支持概念映射。Markup界面友好,适合技术专家和新手使用,能快速将非结构化文档转化为结构化格式。
data-augmentation-review - 全面数据增强技术助力机器学习模型优化
数据增强计算机视觉机器学习GitHubPython库Github开源项目
该项目汇集了多领域数据增强资源,包括计算机视觉、自然语言处理、音频和时间序列分析。内容涵盖GitHub仓库、开源库、学术论文等,详细介绍了图像变换、文本生成、音频处理等增强技术。此外,还收录了自动增强和特定领域增强方法,为机器学习研究人员和实践者提供了全面的数据增强参考。
BayesianDeepLearning-Survey - 贝叶斯深度学习的不断更新综述
贝叶斯深度学习深度学习机器学习人工智能概率模型Github开源项目
本项目是贝叶斯深度学习(BDL)的持续更新综述,扩展自ACM Computing Surveys 2020年发表的论文。涵盖BDL在推荐系统、领域适应、医疗保健、自然语言处理、计算机视觉等领域的应用。通过定期更新,为研究人员提供BDL最新进展概述,展示这一框架在多个应用中的潜力。
covalent - 跨平台执行AI、ML和科研代码的统一框架
Covalent云计算人工智能机器学习科学研究Github开源项目
Covalent是一个面向AI/ML工程师、开发者和研究人员的Python库,用于简化跨平台计算任务的执行。通过更改单行代码,用户可在云平台或本地集群上运行LLM、生成式AI和科学研究等任务。该库抽象了基础设施管理,实现无服务器化,并提供实时监控。Covalent支持AWS、Azure、GCP和SLURM等多种执行环境,为用户提供统一的界面和灵活的资源管理。
SmartSim - 为高性能计算环境优化的机器学习集成框架
SmartSim机器学习高性能计算OrchestratorSmartRedisGithub开源项目
SmartSim是为高性能计算(HPC)环境设计的工作流库,简化了PyTorch和TensorFlow等机器学习库在HPC模拟和应用中的使用。该框架能在HPC系统上启动机器学习基础设施,与用户工作负载并行运行。通过基础设施库和SmartRedis客户端,SmartSim实现了HPC应用与机器学习模型间的高效数据交换和远程执行,支持Fortran、C、C++和Python等多种语言,无需MPI即可实现运行时数据交换。
batchflow - 高效灵活的大规模数据处理和机器学习框架
BatchFlow数据处理机器学习神经网络数据流水线Github开源项目
BatchFlow是一个专为大规模数据处理和复杂机器学习流程设计的Python库。它提供灵活的批处理生成、确定性和随机管道、数据集合并等功能。支持多种深度学习模型,并具有丰富的层和辅助函数,方便自定义模型。其懒加载机制和高效批处理策略适用于处理超出内存容量的大型数据集,是数据科学和机器学习项目的理想工具。
awesome-normalizing-flows - 归一化流 构建复杂概率分布的新兴统计工具
归一化流深度学习生成模型概率分布机器学习Github开源项目
这个项目汇集了归一化流相关的优质资源,包括论文、应用案例、视频讲解、软件包和代码库等。归一化流是一种新兴统计技术,能通过可训练的光滑可逆变换链将简单分布转化为复杂分布。该资源库为研究人员和实践者提供了全面的参考材料,有助于深入了解和应用这一强大工具。
vector-search-class-notes - 向量搜索和数据库在人工智能长期记忆中的应用
向量搜索AI机器学习数据库嵌入Github开源项目
该项目深入探讨人工智能长期记忆技术中的向量搜索和数据库应用。课程内容涵盖向量搜索的理论基础和实际实现,包括文本和图像嵌入、低维向量搜索、降维技术、近似最近邻搜索、聚类和量化等关键主题。由Pinecone创始人Edo Liberty和FAISS主要开发者Matthijs Douze等行业专家主讲,为学习者提供全面而专业的向量搜索知识。
hi-ml - 医疗和生命科学深度学习研究智能工具包
机器学习人工智能医疗健康深度学习AzureGithub开源项目
hi-ml是一个面向医疗和生命科学领域的机器学习工具包,提供经过测试的组件、深度学习模型和云集成工具。该项目包含hi-ml-azure用于AzureML集成、hi-ml提供ML组件,以及hi-ml-cpath用于处理组织病理学图像。这些工具旨在简化深度学习模型的开发流程,适用于该领域的研究人员和从业者。
ml_hacks - 机器学习实践与教程资源集锦
机器学习算法聚类深度学习数据分析Github开源项目
ml_hacks项目是一个机器学习资源库,收录了多种算法实现和教程。内容涵盖参数调优、集成学习、异常检测等实践示例,以及机器学习入门、数据分析等基础教程。项目还包括核方法、类别不平衡等专题研究,并提供深度学习和PyTorch相关材料,适合不同水平的学习者参考。
puffer - 免费开源直播电视平台 利用机器学习优化流媒体
Puffer直播电视开源机器学习视频流Github开源项目
Puffer是一个免费开源的直播电视流媒体网站和研究项目,由斯坦福大学开发。该项目利用机器学习技术改善视频流媒体质量,提供高质量直播电视服务,同时探索先进流媒体技术。Puffer在NSDI 2020会议上获得社区奖,体现了其学术和技术创新价值。用户可通过puffer.stanford.edu访问该项目网站,了解更多详情。
python - BigML Python库,简化机器学习模型创建与管理
BigML机器学习Python绑定API预测模型Github开源项目
BigML Python库为BigML.io API提供了简洁的接口,支持创建、检索、列出、更新和删除BigML资源。兼容Python 3,具备本地预测功能,该库简化了机器学习流程,便于快速构建和部署预测模型。适用于多种数据驱动的决策场景,使机器学习模型的开发和管理变得更加高效。
machine-learning - Ocademy开源AI学习平台 覆盖Python到MLOps全方位课程
OcademyAI学习开源教育机器学习深度学习Github开源项目
Ocademy是一个开源AI学习平台,涵盖Python、数据科学、机器学习、深度学习和MLOps等领域。平台提供AI课程清单、生成式AI工具和互动式教程,旨在为所有人创造平等的AI学习机会。项目采用开放协作模式,欢迎社区贡献,致力于帮助繁忙的成年人进入AI领域。
openmodelz - 开源平台简化机器学习模型的部署和扩展
OpenModelZ模型部署机器学习自动扩展开源Github开源项目
OpenModelZ是一个开源平台,简化了机器学习模型的部署和扩展过程。它支持将模型部署到任何集群,提供自动扩展、多框架兼容、Gradio/Streamlit/Jupyter集成等功能。用户可从单机起步,轻松扩展到集群,每个部署都有独立子域名。该平台自动处理基础设施,让开发者专注于模型本身。
相关文章
智能对话,语言飞跃
10 天前
Superlinked学习资料汇总 - 企业级AI应用的计算框架
2 个月前
sagify学习资料汇总 - 简化AWS SageMaker上的机器学习工作流程
2 个月前
Otto入门指南 - 智能机器学习助手让ML变得简单直观
2 个月前
VectorHub学习资料汇总 - 向量检索技术的开源学习平台
2 个月前
Open-Interface 入门学习资料 - 用 LLM 控制任何计算机的自动化工具
2 个月前
Neptune-client 入门指南 - 为基础模型训练打造的实验追踪工具
2 个月前
awesome-chatgpt学习资源汇总 - AI聊天机器人开发者必备工具箱
2 个月前
langup-ai学习资料汇总 - AGI社交网络Bot开发框架
2 个月前