项目介绍:DeBERTa-v3-large-tasksource-nli
DeBERTa-v3-large-tasksource-nli是一个经过多任务学习精调的语言模型,专注于自然语言推理(NLI)和文本分类任务。这个模型是基于DeBERTa-v3的,经过调优后,能够在多种任务上表现出色,包括非监督的零样本学习。
主要特点
- 多任务学习:模型在超过600项任务上进行了训练,这些任务来自多种数据集,包括GLUE、Super GLUE、SNLI、ANLI等。
- 零样本能力:这个模型在诸多任务上表现出强大的零样本验证能力,例如在WNLI任务中达到77%的准确率。
- 良好的嵌入性能:模型的未微调CLS嵌入在MNLI上的线性探测性能达到了90%,这归功于其多任务训练。
模型训练
- 共享编码器:模型的编码器经过多种数据集的训练,包括bigbench、Anthropic rlhf和多个NLI与分类任务。
- 特定CLS嵌入:每个任务都有特定的CLS嵌入,该嵌入在10%的情况下会被删除,以便于模型在没有它的情况下使用。
- 统一分类层:对于多项选择问题的模型,使用相同的分类层,而具有相同标签的任务共享权重。
- 训练数据限制:每项任务上的样本数量上限为64k。
- 训练参数:训练进行了80k步,批量大小为384,学习率达到2e-5的峰值。
软件与资源
- 训练代码和相关资源可通过以下链接访问:
- 硬件:训练在Nvidia A100 40GB GPU上耗时6天。
如何使用
对于特定任务的分类器,用户可以访问这里获取所有可用任务的分类器。
进一步阅读
项目的详细信息可以在此文章中找到。如需引用,请参考以下文献格式:
@article{sileo2023tasksource,
title={tasksource: Structured Dataset Preprocessing Annotations for Frictionless Extreme Multi-Task Learning and Evaluation},
author={Sileo, Damien},
url= {https://arxiv.org/abs/2301.05948},
journal={arXiv preprint arXiv:2301.05948},
year={2023}
}
联系方式
对于更多信息,可以通过电子邮件联系:damien.sileo@inria.fr。