#机器学习

featureform - 使数据科学家能够定义、管理并服务于机器学习模型的特征的虚拟特征库
Featureform数据科学特征存储机器学习开源Github开源项目
Featureform 是一个虚拟特征库,使数据科学家能够定义、管理并服务于机器学习模型的特征。它通过协调现有基础设施,将变换、特征、标签和训练集标准化,促进团队协作和资源共享。Featureform 支持从个人数据科学家到大型企业团队的多种应用场景,并提供内置合规支持,包括角色访问控制和审计日志。该开源项目兼容现有数据基础设施,适用于本地和云端部署。
rumale - 使用Ruby的机器学习库,提供类似Scikit-Learn的接口
Rumale机器学习Ruby支持向量机线性回归Github开源项目
Rumale是一个Ruby的机器学习库,提供类似Scikit-Learn的接口。支持向量机、逻辑回归、岭回归、Lasso、多层感知器、朴素贝叶斯、决策树、梯度树提升、随机森林、K均值、高斯混合模型、DBSCAN、谱聚类、多维缩放和t-SNE等多种算法。提供简单的安装过程和详细的文档,适合初学者和高级用户使用。
react-native-ml-kit - 使用 Google ML 套件的 React Native 设备端机器学习
React NativeML Kit机器学习文本识别条码扫描Github开源项目
本项目使用React Native和Google ML Kit,实现多种设备端机器学习功能,如图像标记、语言识别、人脸检测、文本识别和条形码扫描,并支持Android和iOS系统。部分高级功能如对象检测和智能回复尚不支持。
CommonLoopUtils - 简化机器学习训练循环的常用工具
CLU机器学习训练循环FlaxGoogleGithub开源项目
CommonLoopUtils (CLU) 提供实用的功能来简化机器学习训练循环,使代码更短、更可读,并保持研究的灵活性。通过Colab示例可以快速入门,Flax Github中的应用示例也提供了更多参考。目前项目不接受直接贡献,用户可自行fork库以进行扩展。
neural-engine - 如何利用Apple Neural Engine提升机器学习模型的性能以及其局限性的介绍
Neural Engine苹果机器学习NPUCore MLGithub开源项目
本页面全面介绍了如何利用Apple Neural Engine提升机器学习模型的性能,并指出其局限性。探讨NPU的工作原理,解答常见问题,解析部分Core ML模型为何无法充分利用ANE。还提供了具体设备支持列表和编程指南,帮助开发者优化模型,实现iPhone和iPad上的最佳计算性能。
ml - 含有CloudxLab课程的机器学习项目和笔记本的资源库
CloudxLab机器学习jupyter notebooksnbdime项目Github开源项目
此资源库含有CloudxLab课程的机器学习项目和笔记本,提供丰富的学习材料。用户可以自由查阅和探索,优化机器学习技能。通过安装nbdime解决Jupyter笔记本差异对比问题,使版本控制更加友好。访问CloudxLab网站了解更多信息。
hls4ml - FPGA中实现机器学习推理的高级综合语言工具
hls4mlFPGA机器学习高等级综合神经网络Github开源项目
hls4ml是一个专为FPGA上实现机器学习推理而设计的开源软件包。它利用高级综合语言(HLS)将传统开源机器学习模型转化为可配置的固件,从而实现高效推理。项目提供详尽的文档和教程,适用于快速入门和深入研究。用户可以通过GitHub平台参与讨论和贡献。该软件包特别适用于对高性能和低延迟推理要求高的应用场景,如粒子物理和自动驾驶领域。支持与Xilinx Vivado HLS工具的集成,并提供多种安装方式。
catboost - 梯度提升和分类特征支持的机器学习工具
CatBoost机器学习梯度提升决策树Apache SparkGithub开源项目
CatBoost是一种基于决策树的梯度提升算法,具有高准确性和速度优势,能够处理数值和分类特征。它提供快速的GPU训练、直观的可视化工具和与Apache Spark的分布式训练支持,适用于多种应用场景。通过官方文档和教程,用户可以快速上手,并通过参数调优和交叉验证进一步优化模型性能。
polyaxon - 深度学习应用的全面管理平台
Polyaxon深度学习机器学习分布式训练超参数调优Github开源项目
Polyaxon是一个旨在提升深度学习应用开发效率的平台,提供构建、训练和监控大规模深度学习应用的解决方案。兼容主流深度学习框架如Tensorflow、MXNet和Caffe等,并支持在数据中心、云提供商或由Polyaxon托管的环境中部署。Polyaxon通过智能容器和节点管理,使GPU服务器成为团队或组织的共享资源,提升工作效率。平台还提供详细的安装和快速入门指南,支持分布式训练和超参数优化等功能。
LongNet - 扩展Transformer到10亿标记的创新变体
LongNetTransformerDilated Attention长序列建模机器学习Github开源项目
LongNet是一个创新的Transformer变体,通过膨胀注意力机制扩展序列长度至超过10亿标记,同时保持对较短序列的高性能。该模型具有线性计算复杂度,适用于极长序列的分布式训练,并且其膨胀注意力可以无缝替代标准注意力。实验结果证明,LongNet在长序列建模和一般语言任务上表现出色,为处理整个语料库或互联网序列开辟了新路径。
Awesome-Diffusion-Models - 扩散模型资源与研究的全面综述
Diffusion Models机器学习图像生成自然语言处理数据生成Github开源项目
提供全面的扩散模型资源与研究论文,包括入门帖子、视频、讲座和教程笔记本。涵盖图像生成、分类、分割、音频处理和自然语言处理等应用领域,适用于机器学习和深度学习研究者。访问本页,获取更多详细信息与最新进展,提升对扩散模型的理解与应用。
machine-learning-list - 机器学习入门与语言模型学习指南
Elicit机器学习语言模型生产部署深度学习Github开源项目
这个指南旨在帮助员工掌握机器学习,尤其是语言模型的知识。内容涵盖从基础到高级,通过推荐阅读的论文和资源,了解生产部署与长期扩展的重要技术和方法。
vertex-ai-samples - Google Cloud Vertex AI的机器学习与生成式AI示例资源
Google CloudVertex AI机器学习生成式AI模型开发Github开源项目
此仓库包含用于演示如何使用、开发和管理Google Cloud Vertex AI平台的笔记本、代码示例和应用程序。无论是Vertex AI初学者,还是有经验的机器学习从业者,都可以在这里找到相关资源。用户可以探索、学习并贡献内容,以充分发挥机器学习的潜力。笔记本可以在Colab或Vertex AI Workbench中运行,方便用户详细了解每个服务的使用方法。
ChatGLM-Efficient-Tuning - 微调ChatGLM-6B模型,支持多种训练和量化方法
ChatGLM高效微调机器学习RLHF数据集Github开源项目
ChatGLM-Efficient-Tuning项目提供高效微调ChatGLM-6B模型的工具和方法,支持LoRA、P-Tuning V2等多种微调方式,适用于单GPU和多GPU训练。项目还提供Web UI和CLI操作,支持4-bit和8-bit量化训练。通过丰富的数据集和功能,如强化学习和模型评估,满足不同场景的微调需求。详情请参见项目Wiki。
Adala - 提供灵活可扩展运行时环境的自主数据标注框架
Adala数据标注人工智能机器学习自适应学习Github开源项目
Adala 是一个用于数据处理的自主数据标注框架,具备灵活的运行时环境和Python集成。通过迭代学习,系统内的智能体可以独立获取技能,适应不同的环境。Adala 提供可靠的数据处理结果和多种定制化选项,适合AI工程师、机器学习研究人员、数据科学家和教育工作者使用,并兼容OpenAI和VertexAI等大型语言模型。
LLM-PowerHouse-A-Curated-Guide-for-Large-Language-Models-with-Custom-Training-and-Inferencing - 大型语言模型的定制训练和推理指南
LLM PowerHouse自然语言处理机器学习深度学习PythonGithub开源项目
LLM-PowerHouse项目为开发人员、研究人员和爱好者提供一站式指南,通过定制化训练和推理优化大型语言模型(LLMs)。包括基础知识、先进技术、模型压缩、优化策略和实例代码,适用于高效智能的自然语言理解应用。
sagemaker-python-sdk - 使用常见深度学习框架和Amazon优化算法在SageMaker上训练和部署模型
SageMakerSageMaker Python SDK机器学习Apache MXNetTensorFlowGithub开源项目
SageMaker Python SDK是一个开源库,用于在Amazon SageMaker上训练和部署机器学习模型。支持包括Apache MXNet和TensorFlow在内的主流深度学习框架,并优化了适用于SageMaker和GPU训练的Amazon算法。还支持用户使用自定义的Docker容器进行模型的训练和托管。提供详细的文档和API参考指南,介绍如何安装、使用和配置该SDK。兼容操作系统包括Unix/Linux和Mac,并支持Python 3.8到3.11版本。
MovieChat - 高效长视频处理工具
MovieChat视频理解长视频机器学习AIGithub开源项目
MovieChat能够在24GB显卡上处理超过1万帧的视频,与其他方法相比,GPU显存成本平均减少10000倍(21.3KB/f到约200MB/f)。它集成了视频问答、情感分析和场景理解等功能,显著提高了长视频处理的效率和准确性,适用于大型视频数据集和复杂视频场景的智能问答系统。
diffusionbee-stable-diffusion-ui - 为Mac用户提供简便的Stable Diffusion本地运行工具,支持多模型和无依赖一键安装
Diffusion BeeStable DiffusionMacOS图像处理机器学习Github开源项目
Diffusion Bee在Mac上简便运行Stable Diffusion,支持Intel和M1/M2芯片,无需其他软件或技术知识,采用一键安装,确保数据隐私。主要功能涵盖图像生成、多模型支持、图像放大和历史记录,提供全面便捷的图像生成体验。
huggingface.js - 与现代浏览器和Node.js集成的Hugging Face机器学习JS库
Hugging FaceJavaScriptAPI机器学习Github开源项目
Huggingface.js是多个JS库的集合,用于与Hugging Face API交互,支持创建或删除仓库、上传下载文件及调用超过10万个机器学习模型。兼容现代浏览器和Node.js 18以上版本,并通过NPM或CDN静态托管进行安装。主要功能包括推理服务、自然语言界面和远程文件解析,适用于多种机器学习应用场景。
Emojinator - 基于机器学习的手势表情识别与分类
Emojinator手势识别机器学习表情符号电子信息Github开源项目
Emojinator项目通过机器学习技术提供不同手势表情的识别和分类解决方案。项目包含多个版本(如Emojinator 2.0和3.0),有详细的文件组织结构和创建手势及训练模型的代码。特别适合需处理电子消息和网页表情符号的应用场景,欢迎开发者们尝试使用。
dm_pix - 基于JAX的高性能图像处理库
PIXJAX图像处理机器学习平行优化Github开源项目
PIX是一个基于JAX的开源图像处理库,具备优化和并行化能力。支持通过jax.jit、jax.vmap和jax.pmap进行加速与并行处理,适用于高性能计算需求。安装便捷,只需通过pip安装后即可使用。提供丰富的示例代码,易于上手操作,同时配备完整的测试套件,确保开发环境的可靠性,并接受社区贡献。
God-Level-AI - 涵盖机器学习与个人品牌的视频课程
god level AIPython机器学习深度学习数据结构与算法Github开源项目
该项目旨在帮助成为顶尖1%数据与AI专家的个人,通过视频课程和文本内容进行科学方法、算法和系统构建训练。无论是领导者、专业人士还是学生,都需付出相应努力才能达到顶峰。项目内容涵盖Python、数据结构与算法、深度学习、MLOps和个人品牌塑造等,提供全面的知识和实用技巧。
ML-ProjectKart - 机器学习和人工智能的优质开源项目集合
ML-ProjectKart机器学习深度学习自然语言处理计算机视觉Github开源项目
这个平台展示了多种机器学习、深度学习、计算机视觉和自然语言处理项目,帮助不同水平的用户熟练掌握ML/AI算法。技术从业人员可以通过遵循贡献指南参与项目贡献,获取实践经验并提升技能,推动开源社区的持续发展。
weaviate - 高性能、扩展性强、多模块支持的开源向量数据库
Weaviate向量数据库机器学习开源快速搜索Github开源项目
Weaviate 是一个云原生的开源向量数据库,采用先进的机器学习模型将文本、图片等数据转化为可搜索的向量。它不仅速度快,还具备高度灵活性,支持在导入数据时进行向量化或上传现成的向量。此外,Weaviate 可通过多种模块与 OpenAI、Cohere、HuggingFace 等热门服务和模型库集成。其设计从快速原型开发到大规模生产部署均能应对,并具备推荐、摘要和神经搜索等功能。
SmartCropper - 智能图片裁剪库,适用于身份证、名片和文档
SmartCropper智能图片裁剪opencv机器学习TensorFlowGithub开源项目
SmartCropper 是一个智能图片裁剪库,适用于身份证、名片和文档等照片。它使用基于 OpenCV 的智能算法识别边框,提供拖动锚点手动调节选区和放大镜定位功能,并通过透视变换裁剪和矫正选区来还原正面图片。该库支持丰富的 UI 设置,包括辅助线、蒙版、锚点和放大镜等,通过使用 TensorFlow 的 HED 网络优化智能选区算法,提高识别率,尤其适用于大图片的高效裁剪。
deepchecks - 用于持续验证 ML 模型和数据的测试
Deepchecks机器学习AI测试监控Github开源项目
Deepchecks是一款开源工具,专为AI和机器学习模型的验证而设计。它提供从研究到生产的全面测试解决方案,包括数据和模型的测试、持续集成及监控。Deepchecks涵盖数据表格、自然语言处理和计算机视觉的验证需求,并提供详细文档和社区支持,助力提升模型的性能与准确性。用户可轻松安装使用这款工具,确保模型在生产环境中的表现稳定可靠。
menpo - 图像与网格数据的导入、操作和可视化工具
MenpoPython机器学习计算机视觉数据处理Github开源项目
Menpo项目提供了一套Python库,简化图像和网格数据的导入、操作和可视化。作为机器学习和计算机视觉常用工具,Menpo支持标注数据的操作,使图像遮罩、裁切和对齐等任务变得简单。支持多个Python版本,建议使用conda安装,以解决复杂的依赖问题。Menpo还包含menpofit、menpo3d和menpodetect等附加库,以扩展功能。用户可以通过Jupyter Notebooks学习并在线浏览示例笔记本。
coremltools - Core ML格式模型转换和优化工具
Core ML ToolsCore ML机器学习模型转换Python包Github开源项目
coremltools工具可以将TensorFlow、PyTorch、scikit-learn等机器学习模型转换为Core ML格式,并支持对这些模型的读写、优化和验证。这些模型可以无缝集成到Xcode项目中使用。
imageprocessing-labs - 实现计算机视觉与图像处理的开源项目
Image processing机器学习计算机视觉FFTWebGLGithub开源项目
该项目在网页和Node环境中实现了计算机视觉、图像处理和机器学习功能,包括FFT、立体匹配、Poisson图像编辑等。还支持决策树、K-Means++、逻辑回归等机器学习算法,并提供WebGL样例和ONNX Runtime支持。项目开源,采用MIT许可证。
pykale - 改进多模态机器学习的高效绿色解决方案
PyKale多模态学习迁移学习深度学习机器学习Github开源项目
PyKale通过简化数据、软件和用户之间的连接,使跨学科研究的机器学习更容易访问。它专注于多模态学习和迁移学习,支持图像、视频和图形的数据类型,涵盖深度学习和降维模型。PyKale遵循绿色机器学习理念,通过减少重复、再利用资源和回收学习模型,实现高效和可持续的研究。适用于生物信息学、图像和视频识别及医学成像,利用多源知识做出准确且可解释的预测。
Metalhead.jl - 标准视觉模型,基于Flux.jl的机器学习实现
Metalhead.jl机器学习图像分类Flux.jl模型构建Github开源项目
Metalhead.jl 提供与 Flux.jl 搭配使用的标准视觉模型,包括 ResNet、DenseNet、EfficientNet 等经典结构。模块采用纯 Flux 层实现,适合构建复杂模型。安装和使用指南简便易懂,丰富的模型库支持扩展及贡献,满足多样的视觉任务需求。
DLTA-AI - AI赋能的数据标注、追踪和注释工具
DLTA-AI数据标注目标跟踪分割模型机器学习Github开源项目
一款集成先进计算机视觉模型的工具,简化图像数据集创建,支持零样本分割和目标跟踪,提供多种模型选择与自定义导出格式,无缝结合Labelme,提升标注效率。
practicalAI-cn - PyTorch与Google Colab下的机器学习与深度学习实践
practicalAIPyTorchGoogle Colab机器学习深度学习Github开源项目
通过practicalAI-cn项目,任何水平的学习者都可以从基础到进阶掌握机器学习与深度学习技能。项目使用PyTorch实现核心算法,并提供多种notebooks,涵盖线性回归、卷积神经网络等多种模型。无需复杂的环境设置,可通过Google Colab直接运行,进行产品级的面向对象编程学习,助力从数据中获取有价值的见解。
amazon-bedrock-workshop - 实践教程助力掌握生成式AI应用
Amazon Bedrock基础模型生成式AI机器学习AWSGithub开源项目
Amazon Bedrock Workshop提供一系列实践实验,涵盖文本生成、知识库构建、模型定制、图像处理和智能代理等生成式AI应用。开发者通过动手实践,可以掌握Bedrock API和SDK的使用方法,学习如何将基础模型应用于实际场景,提升开发效率。本教程适合希望深入了解Amazon Bedrock功能并探索生成式AI潜力的技术人员。
cheatsheets-ai - 深度学习和机器学习工程师常用速查表
AI Cheatsheets机器学习深度学习TensorFlowKerasGithub开源项目
提供详尽的深度学习和机器学习速查表,包括Tensorflow、Keras、Numpy等热门工具,帮助工程师和研究人员快速掌握核心知识,提高工作效率。访问AI Cheatsheets获取更多资源和最新技术信息,适用于各水平从业者。