#机器学习

SDV - 使用机器学习生成高质量合成数据,提高隐私保护
Synthetic Data VaultSDVPython机器学习数据生成Github开源项目
SDV利用多种机器学习算法,提供生成表格合成数据的解决方案。主要功能包括生成单表、多表和序列数据,支持数据预处理、匿名化和逻辑约束定义。此外,SDV还提供数据评估和可视化工具,比较合成数据与真实数据,并生成质量报告。适合初学者和资深数据科学家,满足多样化需求。
AIAS - 专为图像识别和自然语言处理设计的高效SDK集合,提升开发效率
AIAS图像识别OCR自然语言处理机器学习Github开源项目
AIAS提供多种图像识别和自然语言处理SDK,包括OCR工具、动物分类、单目深度估计等图像处理功能,以及词向量、机器翻译、情感分析等自然语言处理应用。该项目旨在提升开发效率,满足多种业务需求。
Transfer-Learning-Library - 高效且易用的迁移学习库,支持多种算法和任务
Transfer LearningPyTorchTLlibAPI机器学习Github开源项目
Transfer Learning Library (TLlib) 是一个开源的迁移学习库,基于PyTorch设计,具备高性能和易用性。该库支持多种方法,如域对齐、域转换和半监督学习,适用于分类、回归、目标检测、分割和关键点检测等任务。提供丰富的示例代码和详细文档,并支持pip安装。这是研发新算法或应用现有算法的理想工具,适用于研究和工程实践。
grobid - 基于机器学习的高效文献数据解析工具
GROBID机器学习科学文献PDF处理Deep LearningGithub开源项目
GROBID 是一个将PDF等原始文档转换为结构化XML/TEI编码文档的机器学习库,专为技术和科学出版物设计。功能包括文献标题和参考文献的提取、全文结构化以及PDF坐标解析等。提供丰富的Web服务API、Docker镜像和批处理能力,适用于高效大规模的文献处理,适合生产环境。其深度学习模型显著提升解析精度,并已被众多科研机构和平台采用,支持Linux和macOS操作系统。
MEDIUM_NoteBook - 改进时间序列预测与机器学习技术的全面指南
时间序列预测机器学习数据科学Gradient BoostingMLOpsGithub开源项目
该存储库收录了作者在MEDIUM平台发布的时间序列预测及各种机器学习方法的笔记。内容包含从梯度提升和生存分析模型到使用Keras进行异常检测和特征选择等多个主题。每篇文章提供详细的实现代码,适用于数据科学家和机器学习工程师参考和学习。
voxelmorph - 学习驱动的图像配准和变形建模库
VoxelMorph图像配准合成形态空间变换机器学习Github开源项目
本页面介绍VoxelMorph,这是一个用于图像配准和变形建模的学习驱动库。页面提供教程展示无数据训练模型、图像配准和参数选择等操作步骤。VoxelMorph库支持下载预训练模型、图像到图像配准和Dice分数测量,并包含模板构建和变形字段可视化等高级功能。该项目适合那些需要高效图像配准解决方案的研究人员和开发者。
awesome-python-data-science - Python数据科学资源集合,详解机器学习与深度学习工具
Python数据科学机器学习深度学习工具库Github开源项目
该项目收集了全面的Python数据科学资源,包括机器学习、深度学习、自动化机器学习、自然语言处理、计算机视觉、时间序列分析和强化学习等领域的开源库。从通用型机器学习算法到深度学习框架(如PyTorch和TensorFlow),再到特征工程和数据可视化,用户可以找到适用于各种数据分析和建模需求的工具。项目旨在帮助数据科学家和工程师高效选择工具,以提高开发和分析效率。
zero-to-mastery-ml - 从零到精通的机器学习全面指南
Zero to Mastery Machine Learning机器学习数据科学Scikit-LearnTensorFlowGithub开源项目
本教程涵盖了机器学习从基础到高级的完整学习路径。内容包括代码示例、笔记本、图像和其他资料,均可通过Udemy和zerotomastery.io获取。课程内容包括六步机器学习建模框架、数据科学工具、结构化数据项目、神经网络及深度学习。最新的在线课程材料正在开发中,预计2024年发布更新。此外,还提供学生分享的学习笔记,丰富学习资源。
cv_note - 分享计算机视觉和模型压缩部署技术栈笔记
CV算法工程师机器学习深度学习计算机视觉Github开源项目
这个开源项目详细记录了计算机视觉算法工程师的成长路径,从基础编程知识到深度学习,再到模型部署。项目还提供了算法实习内推表、校招可投递公司汇总及技术栈笔记等实用资源,涵盖了编程开发、机器学习、图像识别、模型压缩等关键技术点,适合希望系统提升技术水平的工程师。
grenade - 高效的依赖类型递归神经网络库
GrenadeHaskell机器学习卷积神经网络递归神经网络Github开源项目
Grenade 是一个高效实用的递归神经网络库,专为 Haskell 语言设计,支持复杂网络的简洁精确定义。几行代码就能指定并初始化一个在 MNIST 数据集上达到约1.5%测试误差的神经网络。Grenade 支持卷积、池化、全连接、LSTM 等多种层类型,内置反向传播和梯度更新功能。基于纯函数设计,允许灵活组合训练函数,甚至实现生成对抗网络。性能依托 hmatrix、BLAS 和 LAPACK,支持并行处理。
kompute - 通用GPU计算框架,支持AMD、Qualcomm和NVIDIA显卡
KomputeGPU加速机器学习Linux基金会VulkanGithub开源项目
快速、移动友好且异步的通用GPU计算框架,专为高级GPU加速优化。支持Python和C++并兼容Vulkan,适用于机器学习、移动开发和游戏开发。由Linux基金会支持,社区活跃,示例丰富。
gpt-2 - GPT-2模型展现自然语言处理新境界
GPT-2语言模型自然语言处理机器学习OpenAIGithub开源项目
GPT-2是OpenAI开发的自然语言处理模型,展现了无监督学习在多任务处理中的卓越能力。项目开源了模型代码和预训练模型,便于研究人员探索其潜力。尽管性能出色,使用时仍需审慎评估其适用性,尤其是在安全关键领域。该项目也鼓励深入研究GPT-2的行为特征及其潜在影响。
axlearn - 支持构建大规模深度学习模型的高效工具库
AXLearnJAXXLA深度学习机器学习Github开源项目
AXLearn是一个基于JAX和XLA的深度学习库,支持大规模模型的构建、迭代和维护。该库允许用户通过配置系统从可重用模块中组合模型,并兼容Flax和Hugging Face transformers等库。AXLearn能够高效地在众多加速器上训练数百亿参数的模型,涵盖自然语言处理、计算机视觉和语音识别等领域,还支持在公共云上运行并提供作业和数据管理工具。了解更多详情,请参阅其核心组件和设计文档。
DirectML - 跨平台硬件加速机器学习库,支持多种GPU
DirectMLGPU加速机器学习DirectX 12硬件加速Github开源项目
DirectML是一款基于DirectX 12的高性能机器学习库,为常见机器学习任务提供GPU加速。它支持AMD、Intel、NVIDIA等多种DirectX 12兼容GPU,与Direct3D 12无缝集成,具有低开销和跨硬件一致性。DirectML适用于需要高性能和可靠性的机器学习应用,可集成到Windows ML、ONNX Runtime、PyTorch和TensorFlow等主流框架中。
nn-zero-to-hero - 神经网络与深度学习实践教程 从基础到GPT模型构建
神经网络深度学习GPT机器学习PyTorchGithub开源项目
该项目提供了一系列神经网络课程视频和实践代码,涵盖从基础概念到GPT模型构建的全过程。课程内容包括反向传播、语言建模、多层感知器和批量归一化等主题,每个讲座配有Jupyter笔记本和练习。适合具备Python基础的开发者深入学习神经网络和深度学习技术。
key-book - 深入理解机器学习理论的关键概念与应用
Key-book机器学习理论导引机器学习Datawhale参考笔记Github开源项目
《钥匙书》是《机器学习理论导引》的补充读物,帮助读者理解机器学习中的七大关键概念:可学性、复杂度、泛化界、稳定性、一致性、收敛率和遗憾界。通过详细的证明补充、案例解析和概念扩展,解决读者在学习中遇到的难题,提供实时更新的在线阅读资源,非常适合深入研究机器学习理论的读者。
DiCE - 机器学习模型的多样性反事实解释方法
DiCE机器学习反事实解释模型解释PythonGithub开源项目
DiCE提供机器学习模型的反事实(CF)解释,通过生成特征扰动版本帮助探索模型的假设情景。适用于财务、医疗、教育等领域,支持生成多样性和接近原始输入的解释。提供Python支持,随时可通过PyPI和Conda安装。其优化算法和简单约束功能确保对各种ML模型的广泛适应性。
QuantResearch - 定量分析、策略和回测
QuantResearch机器学习深度强化学习投资组合优化时间序列预测Github开源项目
该项目提供丰富的量化研究资源,涵盖策略回测、机器学习和深度强化学习应用,以及实盘交易演示。资源内容包括投资组合优化、风险值评估、线性回归(经典、贝叶斯、MCMC、卡尔曼滤波、Tensorflow)、均值回归、协整对冲交易、隐马尔科夫链、RNN股票预测、主成分分析、ARIMA和GARCH模型、Fama-French三因子模型等。此外,项目还提供在线资源和教程,帮助用户深入理解和应用量化研究技术。
PhiFlow - 注重物理模拟与机器学习的开源仿真工具
PhiFlow模拟工具包机器学习PythonGPU执行Github开源项目
PhiFlow 是一款开源仿真工具包,专为优化和机器学习应用设计。它主要用 Python 编写,与 NumPy、PyTorch、Jax 和 TensorFlow 深度集成,利用这些框架的自动微分功能,简化涉及学习模型和物理仿真的可微函数构建。PhiFlow 特别适用于流体现象的 PDE 操作,通过联网操作支持实时可视化和交互控制,并支持 GPU 执行,为用户提供简洁、灵活且可扩展的编码体验。
list_of_recommender_systems - 推荐系统全面对比,开源、商业和学术解决方案
推荐系统机器学习开源软件SaaS算法Github开源项目
该文章全面梳理了各领域推荐系统,包括SaaS、开源、商业和学术解决方案。详细分析了Peerius、Universal Recommender等系统的特点和应用场景,并介绍了基准测试工具和媒体推荐应用。内容涵盖广泛,为研究和选择推荐系统提供了客观参考。
awesome-jax - 自动微分与XLA在高性能机器学习中的应用
JAX机器学习自动微分XLA编译器加速器Github开源项目
该页面收录了JAX相关的优质库、项目和资源,旨在帮助机器学习研究人员在GPU和TPU等加速器上实现高性能计算。资源涵盖神经网络库、强化学习工具和概率编程等多个领域,并提供了详细的库介绍、学术论文和教程。用户可以找到如Flax、Haiku、Objax等知名库,以及新兴的FedJAX、BRAX等库,适用于机器学习和科研项目中使用JAX进行快速原型开发和高效计算。
SimpleTuner - AI模型训练优化脚本集 SimpleTuner
SimpleTuner训练优化机器学习深度学习AI模型Github开源项目
SimpleTuner是一个开源的AI模型训练优化脚本集。它以简单易用为设计理念,支持多GPU训练、方面比例分桶等功能。适用于Flux、PixArt Sigma和Stable Diffusion等多种AI模型的训练。项目提供详细教程和快速入门指南,适合各级用户。作为开源平台,SimpleTuner鼓励学术交流和代码贡献。
privacy - 用于机器学习模型差分隐私训练的 Python 库
TensorFlow Privacy差分隐私机器学习Python库梯度裁剪Github开源项目
TensorFlow Privacy 是一个用于机器学习模型差分隐私训练的 Python 库。它实现了 TensorFlow 优化器,并提供计算隐私保证的教程和分析工具。该库兼容 TensorFlow 2.x,支持基于 Keras 的估计器。TensorFlow Privacy 持续更新,最新版本分为两个 PyPI 包:用于差分隐私模型训练的 tensorflow-privacy 和用于经验隐私测试的 tensorflow-empirical-privacy。
transformers.js - 浏览器端运行先进机器学习模型的JavaScript库
Transformers.js机器学习ONNX Runtime自然语言处理计算机视觉Github开源项目
Transformers.js是一个JavaScript库,可在浏览器中直接运行Hugging Face的Transformers模型,无需服务器。该库支持自然语言处理、计算机视觉、音频处理和多模态任务,使用ONNX Runtime执行模型。它的设计与Python版Transformers功能相同,提供简单API运行预训练模型,并支持将自定义模型转换为ONNX格式。
causalml - Python因果推断与提升建模库:causalml
CausalML因果推断机器学习个性化推荐营销优化Github开源项目
causalml是一个Python库,集成了机器学习算法用于提升建模和因果推断。它提供标准接口,支持从实验或观察数据中估计条件平均处理效应和个体处理效应。该库适用于广告定向优化和个性化推荐等场景,有助于提高营销效果。causalml实现了多种因果推断方法,并配有详细文档和示例,便于开发者学习和应用。
BEPb - 多领域编程技能与开源贡献展示
GitHubPython机器学习数据科学开源项目Github
这个项目展示了作者在多个技术领域的专长,包括Python编程、机器学习和数据科学。通过GitHub统计数据、代码分析和可视化图表,直观地呈现了作者的技术水平和开源贡献。项目还提供了多种联系渠道,方便进行技术交流。
GLiNER - 通用轻量级命名实体识别模型
GLiNER命名实体识别自然语言处理机器学习BERTGithub开源项目
GLiNER是一个通用轻量级的命名实体识别模型,采用双向转换器编码器架构。它能识别任意类型的实体,填补了传统NER模型和大型语言模型之间的空白。GLiNER具有灵活性高、体积小、效率高的特点,适用于资源受限的场景。该模型支持自定义实体类型,可应用于信息提取、文本分类等多种自然语言处理任务。
seemore - PyTorch实现的开源视觉语言模型项目
Vision Language ModelPytorchAI机器学习图像处理Github开源项目
seemore是一个基于PyTorch的开源视觉语言模型(VLM)项目。它包括图像编码器、视觉-语言投影器和解码器三个核心组件,参考了CLIP和LLaVA等前沿VLM架构。项目提供完整代码实现和详细教程,有助于开发者理解VLM原理。seemore在Databricks平台开发,支持GPU加速,并集成MLFlow用于实验管理。
Alink - 阿里巴巴开源的Flink机器学习算法平台
Alink算法平台Flink机器学习阿里巴巴Github开源项目
Alink是阿里巴巴开发的基于Flink的开源算法平台,提供丰富的机器学习算法和工具。该平台支持Java和Python接口,具有高性能和可扩展性。Alink包含完整的教程、组件列表和算法库,适用于数据分析和机器学习领域。用户可在本地或集群环境中使用Alink进行数据处理和模型训练,满足不同应用场景的需求。
sd-scripts - Stable Diffusion模型训练与生成的综合脚本工具库
Stable Diffusion机器学习图像生成模型训练LoRAGithub开源项目
sd-scripts是一个专为Stable Diffusion模型开发的脚本库,集成了多种训练方法如DreamBooth、微调、LoRA和Textual Inversion。此外,它还提供了图像生成和模型转换功能。该项目包含训练脚本、数据准备工具和配置选项,有助于优化AI艺术创作流程。
gflownet - 基于图神经网络的离散对象生成框架
GFlowNet图生成机器学习组合优化神经网络Github开源项目
gflownet是一个实现Generative Flow Network的开源框架,专注于离散和组合对象的生成,尤其适用于图结构。该项目基于图神经网络,支持多种GFN算法,提供离线和在线训练功能。gflownet包含完整的训练环境、算法实现和示例代码,可用于分子设计等任务,是研究GFN在图生成领域应用的有力工具。
myosuite - 面向生物力学控制的肌肉骨骼仿真环境集合
MyoSuite肌肉骨骼环境机器学习生物力学控制MuJoCoGithub开源项目
MyoSuite是一个开源的肌肉骨骼仿真环境集合,基于MuJoCo物理引擎构建,并通过OpenAI gym API封装。该项目提供了多样化的仿真任务,涵盖手臂、手部和下肢等,为研究人员提供了应用机器学习解决生物力学控制问题的平台。MyoSuite支持Python 3.8及以上版本,安装便捷,并配有详细的教程和文档。这一工具集为生物力学和机器人学研究领域提供了有力支持。
scholar - Elixir语言的传统机器学习工具库
Scholar机器学习ElixirNx算法Github开源项目
Scholar是基于Nx构建的传统机器学习工具库,为Elixir语言设计。它实现了分类、回归、聚类、降维、评估指标和预处理等多种算法。该库提供简洁的API,方便开发者应用机器学习技术。Scholar兼容EXLA等Nx后端,支持JIT编译以优化性能。作为Elixir生态系统的一部分,Scholar为数据科学和人工智能项目提供了实用的机器学习工具。
Corrformer - 全球气象站统一深度模型的可解释天气预报系统
Corrformer机器学习天气预报时空建模深度学习Github开源项目
Corrformer是一种新型天气预报模型,通过多相关性机制实现了对数万个气象站的协作预报。该模型显著降低了时空建模复杂度,并能生成基于天气过程传播方向的可解释预测。在多个尺度的数据集上,Corrformer的预报性能超越了传统统计方法和最新深度学习模型,近地面预报能力可与数值方法相媲美。这项研究为气象科学引入了创新的数据驱动人工智能方法。
tf2jax - 实验性TensorFlow到JAX函数转换库
TF2JAXTensorFlowJAX函数转换机器学习Github开源项目
tf2jax是一个实验性库,用于将TensorFlow函数和计算图转换为JAX函数。它支持SavedModel和TensorFlow Hub格式,使现有TensorFlow模型能够在JAX环境中重用。该库提供透明的转换过程,便于调试和分析。tf2jax支持自定义梯度和随机性处理,并提供灵活的配置选项。尽管存在一些限制,tf2jax为JAX用户提供了一种集成TensorFlow功能的有效方法。
cheatsheets-ai - 深度学习和机器学习工程师常用速查表
AI Cheatsheets机器学习深度学习TensorFlowKerasGithub开源项目
提供详尽的深度学习和机器学习速查表,包括Tensorflow、Keras、Numpy等热门工具,帮助工程师和研究人员快速掌握核心知识,提高工作效率。访问AI Cheatsheets获取更多资源和最新技术信息,适用于各水平从业者。