#梯度下降
EffectiveTensorflow
本指南深入讲解 TensorFlow 2,包括基本概念、广播机制、符号计算和控制流操作等。探讨如何通过重载操作符和控制流来提升代码效率,与 NumPy 的兼容性增强了代码的可读性。同时,介绍了广播机制的优势与潜在缺点,并展示了如何在多设备上使用 TensorFlow 2 的新 API 高效地处理和优化大型神经网络。
CAGrad
CAGrad是一种多任务学习算法,专注于解决梯度冲突问题。该方法通过冲突避免策略平衡各任务目标,在图像预测和强化学习领域表现出色。CAGrad实现简洁,适用于复杂的多任务场景,为相关研究提供新思路。该项目已被NeurIPS 2021接收,并提供了完整的源代码和实验指南。
grokfast
Grokfast是一种创新的机器学习优化方法,通过放大参数梯度的低频成分来加速模型泛化。该方法可将原本需数万次迭代的泛化过程缩短50倍以上,仅需添加几行代码即可实现。Grokfast适用于图像、语言和图形等多种任务,为研究突然泛化现象提供了实用工具。项目开源了代码实现,并提供了详细的使用说明和实验复现指南。
Adan
Adan是一种新型优化算法,结合适应性学习率和Nesterov动量,旨在加速深度学习模型训练。它在计算机视觉、自然语言处理和大规模语言模型等多个领域表现优异。相比Adam和AdamW,Adan通常能使用更大的学习率,训练速度提升5-10倍,同时保持或提高模型精度。目前,Adan已被NVIDIA NeMo、Meta AI D-Adaptation等多个知名深度学习框架和项目采用。
schedule_free
Schedule-Free Learning是一种新型PyTorch优化器,无需预设训练停止时间。该方法通过结合插值和平均技术取代传统动量,提高训练效率。不依赖学习率递减调度,却能达到或超越先进调度方法的效果。支持AdamW和SGD版本,并提供实验性包装器,可与各种基础优化器兼容。这种灵活的优化方法为深度学习模型训练提供了新的可能性。
deepdow
deepdow是一个Python开源项目,致力于连接投资组合优化和深度学习。它通过构建完全可微分的层级管道,实现市场预测和优化问题设计的融合。该框架支持单次前向传递完成权重分配,集成可微凸优化技术,并提供多种数据加载策略。deepdow适用于CPU和GPU环境,为研究人员提供了灵活的实验平台。
textgrad
TextGrad是一个基于大语言模型文本反馈实现自动'微分'的框架。它提供简洁API用于定义损失函数和基于文本反馈的优化。该框架与PyTorch接口相似,可优化文本、代码等非结构化变量,为自然语言处理和人工智能开发提供新思路。