#训练循环

CommonLoopUtils - 简化机器学习训练循环的常用工具
CLU机器学习训练循环FlaxGoogleGithub开源项目
CommonLoopUtils (CLU) 提供实用的功能来简化机器学习训练循环,使代码更短、更可读,并保持研究的灵活性。通过Colab示例可以快速入门,Flax Github中的应用示例也提供了更多参考。目前项目不接受直接贡献,用户可自行fork库以进行扩展。
GPT-2 - 开源语言模型训练与实现探索
GPT-2模型架构训练循环数据预处理代码复现Github开源项目
本项目是基于Andrej Karpathy代码的GPT-2开源实现。通过详细注释解释模型架构和训练过程,包含核心文件如模型结构、训练循环和数据预处理。计划添加KV-Cache、RoPE等功能。虽然Hellaswag测试性能略低,但为学习大型语言模型提供了重要资源。项目展示了模型训练过程中的各种考虑因素,如权重初始化、学习率调整等技术细节。
mlx-gpt2 - MLX框架实现GPT-2模型:从零开始的深度学习之旅
GPT-2MLX自注意力嵌入层训练循环Github开源项目
本项目展示了使用MLX框架从零实现GPT-2模型的完整过程。内容涵盖数据准备、词汇表创建和模型架构设计等核心步骤。该实现仅依赖MLX和NumPy库,可在MacBook上快速训练出能生成莎士比亚风格文本的模型。项目借鉴了Karpathy的GPT教程思路,并通过MLX框架重新实现,为深度学习爱好者提供了实践指南。