#神经网络训练

alpa - 一个用于训练和服务大规模神经网络的系统

AlpaXLA神经网络训练自动并行化深度学习Github开源项目

Alpa系统旨在简化大规模神经网络的训练与服务，能够将用户的单设备代码自动并行化到分布式集群。其主要特点包括自动并行化、卓越性能以及与现有机器学习生态系统的紧密集成。虽然目前不再积极维护，Alpa的核心算法已并入XLA并继续得到支持。通过Alpa，用户可以实现数据并行、操作并行和流水线并行，从而在线性扩展分布式集群上训练数十亿参数的模型。

low-bit-optimizers - 4位优化器技术减少内存占用提升大规模模型训练能力

4位优化器内存效率神经网络训练量化AdamWGithub开源项目

Low-bit Optimizers项目实现了一种4位优化器技术，可将优化器状态从32位压缩至4位，有效降低神经网络训练的内存使用。通过分析一阶和二阶动量，该项目提出了改进的量化方法，克服了现有技术的限制。在多项基准测试中，4位优化器实现了与全精度版本相当的准确率，同时提高了内存效率，为大规模模型训练开辟了新途径。

lbann - 多层次并行化的高性能深度学习框架

LBANN深度学习框架神经网络训练高性能计算并行计算Github开源项目

LBANN是一个开源的高性能深度学习训练框架，专注于多层次并行优化。它结合模型并行、数据并行和集成训练方法，高效处理大规模神经网络和海量数据。LBANN充分利用先进硬件资源，支持多种训练算法，包括监督、无监督、自监督和对抗性训练。该框架适用于需要高度可扩展性的深度学习研究和应用。

gpt2-small-spanish - 基于GPT-2的西班牙语自然语言处理模型

西班牙语模型GPT-2迁移学习神经网络训练自然语言处理HuggingfaceGithub开源项目模型

GPT2-small-spanish是一个基于GPT-2 small架构的西班牙语语言模型，通过在西班牙语维基百科数据集上进行迁移学习和微调而成。该模型耗时70小时训练完成，支持文本生成等自然语言处理任务。模型由Datificate团队基于Pierre Guillou的GPorTuguese-2项目开发，在庆熙大学IAI实验室完成训练。作为开源项目，该模型为西班牙语NLP应用提供了重要的基础支持。

llama-3-youko-8b-instruct - Llama 3架构日英双语指令模型集成多种优化技术

语言模型日英双语神经网络训练Llama3模型Github开源项目自然语言处理Huggingface

Llama-3架构的8B参数指令模型通过监督微调(SFT)、Chat Vector与直接偏好优化(DPO)技术训练而成。模型整合OpenAssistant、MetaMathQA等数据集，支持日英双语交互，采用32层4096隐藏层transformer架构。通过参数合并和DPO优化增强了指令理解能力，可应用于自然语言交互场景。

相关文章

Article Cover

ALPA: 自动并行化大规模神经网络训练和服务的开源框架

Article Cover

4位优化器：推动内存效率的新境界

Article Cover

LBANN: 利物莫尔大型人工神经网络工具包

Article Cover

Alpa入门指南 - 自动并行化大规模神经网络训练与部署系统

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号