#GLUE
LoRA - 大型语言模型的低秩适配方法与参数节省
Github开源项目RoBERTaLoRAGLUEDeBERTaGPT-2
LoRA通过低秩分解矩阵实现大型语言模型的低秩适配,减少了训练参数数量,实现高效的任务切换和存储节省。它在GLUE基准测试中的表现与完全微调相当或更好,同时显著降低了参数需求。LoRA支持RoBERTa、DeBERTa和GPT-2等模型,并已集成到Hugging Face的PEFT库中,提供了便捷的适配解决方案。
cramming - 探索单GPU一天内训练BERT语言模型的极限
Github开源项目PyTorchBERTGLUECramming Language ModelTransformer-based language model
本项目探索在单GPU上用一天时间预训练BERT语言模型的性能表现,旨在挑战当前以高算力为核心的趋势。通过调整预训练流程,展示了在严格计算限制下依然接近BERT性能,并分析不同改进对性能的影响。最新版本框架需要PyTorch 2.0,改善了数据预处理并提升了1-2% GLUE性能,提供了详细的代码运行和数据处理指南供研究和应用参考。
bert_uncased_L-4_H-512_A-8 - BERT小型模型为资源受限环境提供高效自然语言处理解决方案
Github开源项目自然语言处理BERT模型模型压缩知识蒸馏GLUEHuggingface
BERT小型模型是为计算资源受限环境设计的自然语言处理工具。它保留了标准BERT架构和训练目标,但模型规模更小,适用于多种应用场景。这种模型在知识蒸馏中表现出色,可利用更大、更精确的模型生成微调标签。其目标是促进资源有限机构的研究工作,并鼓励学术界探索模型创新的新方向,而非仅仅增加模型容量。
bert_uncased_L-2_H-512_A-8 - 小型BERT模型在资源受限环境中的表现及应用策略
Github开源项目模型训练BERT模型知识蒸馏计算资源GLUEHuggingface
24款小型BERT模型在低计算资源环境中通过知识蒸馏实现有效性能,支持与BERT-Base和BERT-Large相同的微调模式。这些模型为中小型机构的研究提供了创新支持,尤其是在GLUE测试中通过优化批大小和学习率等微调参数。这些模型为探索非传统扩容的创新应用提供了可能性。