#RedPajama

MobileLLaMA-1.4B-Base - 简化的1.4B参数Transformer模型，支持快速部署

Github开源项目模型LLaMATransformersHuggingface自然语言理解RedPajamaMobileLLaMA

MobileLLaMA-1.4B-Base是一款以1.3T tokens训练的1.4B参数Transformer模型，旨在降低LLaMA的参数数量以实现快速部署。通过标准语言理解和常识推理基准测试，展示其性能与最新开源模型相媲美。详细信息请参考GitHub和相关论文。

mpt-1b-redpajama-200b - 适应性强的1.3B参数解码器模型

Github开源项目模型架构模型Huggingface训练数据变压器RedPajamaMPT-1b-RedPajama-200b

MPT-1b-RedPajama-200b是一个1.3B参数的解码器模型，由MosaicML在2023年4月使用RedPajama数据集训练。该模型采用改良的解码器架构，使用ALiBi和QK LayerNorm提升训练效率，不依赖位置嵌入。训练中使用了67% Common Crawl和15% C4数据，目标是复刻Llama系列的训练集。部署模型时需要启用信任远程代码，并支持优化的FlashAttention实现，助力自然语言处理研究的发展。

bitnet_b1_58-3B - 开源的RedPajama语言模型再现

Github开源项目开源模型训练模型HuggingfaceBitNet结果评估RedPajama

该项目再现了BitNet b1.58的研究，通过使用RedPajama数据集训练100B个token，实现了两阶段学习率和权重衰减。模型代码可在开源平台获取。初步结果表明，模型在PPL和零样本准确率方面表现优异，计划在资源允许时进一步扩大训练规模和模型容量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号