#优化器

learning-to-learn - TensorFlow和Sonnet在深度学习中的训练和评估优化指南

TensorFlowSonnet训练评估优化器Github开源项目

了解如何使用TensorFlow和Sonnet在MNIST和CIFAR10等数据集上进行模型训练和评估。本文详细说明了命令行参数，涵盖了训练和评估的步骤，并介绍了从简单二次函数到复杂卷积神经网络的不同问题解决方案。掌握这些方法，可以实现自定义优化器并提高模型性能。

optimizer - 一个通过预包装的优化通道对ONNX模型进行优化的C++库

ONNX优化器模型优化命令行安装Github开源项目

ONNX提供了一个C++库，通过预包装的优化通道对ONNX模型进行优化。主要目标是促进各ONNX后端实现共享工作，并支持多种直接在ONNX图上实现的优化。用户可以通过简单的函数调用使用这些通道，或添加新的优化通道。安装方式包括通过PyPI或从源代码构建。

dl-for-emo-tts - 通过深度学习实现情感语音合成

Tacotron深度学习情感语音合成数据集优化器Github开源项目

项目通过深度学习实现情感语音合成，包括Tacotron和DCTTS模型的应用。详细介绍了使用的数据集、相关文献和多种模型微调策略，如调整学习率和冻结网络层。尽管面临情感数据集有限的问题，但实验验证了改进方案对低资源情感TTS传递学习的有效性。

fsrs4anki - 间隔重复调度器与优化方案

FSRS4AnkiAnki间隔重复优化器学习算法Github开源项目

FSRS4Anki 是一个基于Free Spaced Repetition Scheduler算法的间隔重复调度器与优化工具，旨在提升Anki卡片的记忆效率。系统包含调度器和优化器，通过机器学习理解用户记忆模式并优化复习参数。同时，该工具兼容多种Anki插件并适用于最新版Anki，提供详细教程和优化机制说明，且支持社区贡献和数据共享。

lion-pytorch - Google Brain团队研发的优化器，可提升语言模型和文本生成效果

LionPytorch谷歌大脑AdamW优化器Github开源项目

Lion是一种由Google Brain团队开发的新型优化器，部分效果优于Adam(w)。本文介绍了Lion在Pytorch中的实现和使用方法。通过调整学习率、权重衰减和参数β1、β2，Lion在语言建模和文本生成等任务中表现良好。其安装与使用简单，适合各种大型模型的训练。

learned_optimization - 基于JAX的元学习优化器研究框架

learned_optimization元学习优化器JAX机器学习Github开源项目

learned_optimization是一个研究代码库，主要用于学习型优化器的训练、设计、评估和应用。该项目实现了多种优化器和训练算法，包括手工设计的优化器、学习型优化器、元训练任务以及ES、PES和截断反向传播等外部训练方法。项目提供了详细的文档和教程，包括Colab笔记本，方便用户快速入门。learned_optimization适用于元学习和动态系统训练的研究，为相关领域提供了功能丰富的工具。

jaxopt - JAX驱动的高性能优化器库

JAXopt优化器硬件加速批处理可微分Github开源项目

JAXopt是基于JAX的优化器库，提供硬件加速、批处理和可微分的优化算法。支持GPU和TPU，可自动向量化多个优化问题实例，并支持优化解的微分。目前正与Optax合并，处于维护模式。适用于机器学习和科学计算领域的优化任务。

pytorch-lr-finder - PyTorch学习率范围测试工具

PyTorch学习率深度学习神经网络优化器Github开源项目

pytorch-lr-finder是一个基于PyTorch的学习率范围测试工具，实现了Leslie N. Smith论文中的方法和fastai的改进版本。通过在预训练阶段调整学习率，帮助用户确定最佳学习率。工具支持梯度累积和混合精度训练，适用于多种深度学习任务。简洁的API和可视化功能便于优化神经网络训练过程。

Adan - 快速优化深度学习模型的新方法

Adan优化器深度学习梯度下降PyTorchGithub开源项目

Adan是一种新型优化算法,结合适应性学习率和Nesterov动量,旨在加速深度学习模型训练。它在计算机视觉、自然语言处理和大规模语言模型等多个领域表现优异。相比Adam和AdamW,Adan通常能使用更大的学习率,训练速度提升5-10倍,同时保持或提高模型精度。目前,Adan已被NVIDIA NeMo、Meta AI D-Adaptation等多个知名深度学习框架和项目采用。

bitsandbytes - 高效CUDA优化库支持多位量化和矩阵运算

bitsandbytesCUDA量化优化器硬件后端Github开源项目

bitsandbytes是一个轻量级Python库，为CUDA自定义函数提供封装。该库主要提供8位优化器、矩阵乘法(LLM.int8())以及8位和4位量化功能。通过bitsandbytes.nn模块实现多位线性层，bitsandbytes.optim模块提供优化器。目前正在拓展对更多硬件后端的支持，包括Intel CPU+GPU、AMD GPU和Apple Silicon，Windows平台的支持也在开发中。

LOMO - 大规模语言模型的低内存全参数微调技术

LOMOAdaLomo大语言模型优化器低内存优化Github开源项目

LOMO和AdaLomo是为大规模语言模型训练设计的低内存优化算法。通过融合梯度计算和参数更新，这些技术显著减少内存使用，使单GPU设备能实现全参数微调。AdaLomo提供自适应学习率和分组更新归一化，在内存效率和性能上与AdamW相当。这些算法已集成至多个主流深度学习框架，为资源受限环境中的大模型训练提供高效方案。

tuning_playbook - 深度学习模型性能调优指南

深度学习超参数调优模型性能优化器批量大小Github开源项目

该项目提供深度学习模型调优的全面指南,涵盖项目启动、架构选择、优化器配置、批量大小设置等关键环节。它介绍了科学的性能提升方法,以及训练流程优化和实验追踪等实用技巧,旨在帮助提高深度学习模型的性能。

Adam-mini - 减少内存消耗并提升模型效能的高效优化器

Adam-mini优化器内存效率深度学习分布式训练Github开源项目

Adam-mini是一种新型优化器，通过创新的参数分块和学习率分配方法，将内存占用比AdamW降低45%到50%，同时维持或提高模型性能。它支持多种分布式框架，可用于预训练、监督微调和RLHF等任务。Adam-mini基于Hessian结构相关原则，为大规模模型训练提供了高效解决方案。

schedule_free - 自适应训练优化器，无需预设停止时间

Schedule-Free Learning优化器PyTorch梯度下降动量Github开源项目

Schedule-Free Learning是一种新型PyTorch优化器，无需预设训练停止时间。该方法通过结合插值和平均技术取代传统动量，提高训练效率。不依赖学习率递减调度，却能达到或超越先进调度方法的效果。支持AdamW和SGD版本，并提供实验性包装器，可与各种基础优化器兼容。这种灵活的优化方法为深度学习模型训练提供了新的可能性。

Sophia - 随机二阶优化器提升语言模型预训练效率

Sophia优化器机器学习语言模型预训练Github开源项目

Sophia是一种为大规模语言模型预训练设计的随机二阶优化器。它通过支持更大学习率，提高了训练速度和模型性能。该项目提供Sophia-G优化器的实现，包含超参数调优指南和GPT-2训练脚本，方便研究人员应用这一优化技术。Sophia适用于GPT-2等不同规模的模型，展现了良好的扩展性。

LLM-Optimizers-Papers - 大语言模型作为优化器与自动提示词优化的前沿研究

LLM优化器自动优化提示工程强化学习Github开源项目

该项目整理了大语言模型(LLM)作为优化器和LLM自动提示词优化领域的关键论文。内容涉及强化学习、进化算法等多种优化方法，呈现了LLM在自我优化和解决复杂任务方面的能力。这一资源库为人工智能、自然语言处理和优化算法研究者提供了重要参考。

optax - JAX生态系统中的高效梯度处理与优化框架

OptaxJAX优化器梯度处理深度学习Github开源项目

Optax是JAX生态系统中的梯度处理和优化框架。它提供了经过严格测试的高效核心组件，支持研究人员灵活组合低级模块以构建自定义优化器。该库强调模块化设计，重视代码可读性和结构化，便于匹配标准优化方程。Optax实现了多种主流优化算法和损失函数，为机器学习研究和快速原型开发提供了有力支持。

Sophia - 高效的二阶随机优化算法

Sophia优化器机器学习训练加速二阶优化Github开源项目

Sophia是一种新型二阶随机优化算法，利用Hessian矩阵对角线的低成本随机估计和裁剪机制来优化模型训练。相比Adam算法，Sophia在预训练损失、计算量和训练时间方面表现更优，可将训练成本降低50%。此算法易于集成，无需特殊模型架构或基础设施，适用于各类机器学习项目。

bart-large-cnn-samsum-ChatGPT_v3 - 通过优化模型训练参数探索自然语言处理性能提升

超参数训练模型Github开源项目bart-large-cnn-samsum-ChatGPT_v3优化器Huggingface

项目展示了如何通过优化训练参数如学习率和批量大小，提升自然语言处理模型的性能。项目使用了BART模型的微调，结合Adam优化器和线性学习率调度，以改善文本摘要效果。整体着重于训练过程中各参数的细致调校，基于Pytorch和Transformers框架深入改进模型表现。

相关文章

Article Cover

学习如何学习：深度学习中的元学习技术

Article Cover

ONNX Optimizer: 优化ONNX模型的强大工具

Article Cover

FSRS4Anki：革新Anki记忆算法的新时代工具

Article Cover

Lion优化器: Google Brain发现的新型神经网络优化算法

Article Cover

bitsandbytes: 让大型语言模型更易接近的量化工具

Article Cover

JAXopt: 硬件加速、可批处理和可微分的JAX优化器

Article Cover

PyTorch学习率查找器:自动寻找最佳学习率的强大工具

Article Cover

Adan:一种更快速优化深度模型的自适应Nesterov动量算法

Article Cover

LOMO: 突破内存限制的大语言模型全参数微调优化器

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号