ByT5:迈向无词元化的未来 - 预训练字节到字节模型
ByT5是mT5模型的无词元化扩展版本。与大多数其他预训练语言模型(如BERT、XLM-R、T5、GPT-3)使用子词词汇表不同,我们的ByT5模型直接在UTF-8字节上运行,无需任何文本预处理。除了降低系统复杂度之外,我们发现在多项任务中参数匹配的ByT5模型与mT5不相上下,并在涉及噪声文本或对拼写和发音敏感的任务上表现优于mT5。本仓库可用于重现ByT5论文中的实验。
使用方法
训练
要运行此代码,您需要安装t5库。有关训练、微调、评估和导出模型以进行推理的一般说明,请参阅t5仓库。为了在t5_mesh_transformer命令中使用此库提供的额外ByT5任务,请从此目录运行并添加标志--module_import="byt5.tasks"。
要按照论文中所述从头开始在mc4任务上训练ByT5-Large模型:
[此处省略了训练命令的代码块]
微调
以下示例展示了如何在XNLI零样本任务上微调ByT5-Large模型。
[此处省略了微调命令的代码块]
其余实验在tasks.py文件中显示。
发布的模型检查点
我们发布了论文中描述的以下预训练模型检查点:
- ByT5-Small (3亿参数)
- ByT5-Base (5.8亿参数)
- ByT5-Large (12亿参数)
- ByT5-XL (37亿参数)
- ByT5-XXL (130亿参数)
如何引用
如果您扩展或使用本工作,请引用介绍它的论文:
[此处省略了引用格式]
这不是谷歌官方支持的产品。