#RedPajama
MobileLLaMA-1.4B-Base - 简化的1.4B参数Transformer模型,支持快速部署
Github开源项目模型LLaMATransformersHuggingface自然语言理解RedPajamaMobileLLaMA
MobileLLaMA-1.4B-Base是一款以1.3T tokens训练的1.4B参数Transformer模型,旨在降低LLaMA的参数数量以实现快速部署。通过标准语言理解和常识推理基准测试,展示其性能与最新开源模型相媲美。详细信息请参考GitHub和相关论文。
mpt-1b-redpajama-200b - 适应性强的1.3B参数解码器模型
Github开源项目模型架构模型Huggingface训练数据变压器RedPajamaMPT-1b-RedPajama-200b
MPT-1b-RedPajama-200b是一个1.3B参数的解码器模型,由MosaicML在2023年4月使用RedPajama数据集训练。该模型采用改良的解码器架构,使用ALiBi和QK LayerNorm提升训练效率,不依赖位置嵌入。训练中使用了67% Common Crawl和15% C4数据,目标是复刻Llama系列的训练集。部署模型时需要启用信任远程代码,并支持优化的FlashAttention实现,助力自然语言处理研究的发展。
bitnet_b1_58-3B - 开源的RedPajama语言模型再现
Github开源项目开源模型训练模型HuggingfaceBitNet结果评估RedPajama
该项目再现了BitNet b1.58的研究,通过使用RedPajama数据集训练100B个token,实现了两阶段学习率和权重衰减。模型代码可在开源平台获取。初步结果表明,模型在PPL和零样本准确率方面表现优异,计划在资源允许时进一步扩大训练规模和模型容量。