#GLUE

LoRA入门指南 - 低秩适配大型语言模型的高效微调方法

2 个月前

LoRA GLUE RoBERTa DeBERTa GPT-2 Github 开源项目

2 个月前

LoRA: 大型语言模型的低秩适应技术

3 个月前

LoRA GLUE RoBERTa DeBERTa GPT-2 Github 开源项目

3 个月前

相关项目

LoRA

LoRA通过低秩分解矩阵实现大型语言模型的低秩适配，减少了训练参数数量，实现高效的任务切换和存储节省。它在GLUE基准测试中的表现与完全微调相当或更好，同时显著降低了参数需求。LoRA支持RoBERTa、DeBERTa和GPT-2等模型，并已集成到Hugging Face的PEFT库中，提供了便捷的适配解决方案。

cramming

本项目探索在单GPU上用一天时间预训练BERT语言模型的性能表现，旨在挑战当前以高算力为核心的趋势。通过调整预训练流程，展示了在严格计算限制下依然接近BERT性能，并分析不同改进对性能的影响。最新版本框架需要PyTorch 2.0，改善了数据预处理并提升了1-2% GLUE性能，提供了详细的代码运行和数据处理指南供研究和应用参考。

bert_uncased_L-2_H-512_A-8

24款小型BERT模型在低计算资源环境中通过知识蒸馏实现有效性能，支持与BERT-Base和BERT-Large相同的微调模式。这些模型为中小型机构的研究提供了创新支持，尤其是在GLUE测试中通过优化批大小和学习率等微调参数。这些模型为探索非传统扩容的创新应用提供了可能性。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com