#CANINE
canine-c - 字符级多语言自然语言处理模型
模型CANINEGithub自然语言处理预训练模型字符级编码Huggingface开源项目多语言模型
CANINE-c是一款预训练于104种语言的多语言模型,直接在字符级别处理文本,无需专门的分词器。该模型通过掩码语言建模和下一句预测方法训练,可生成适用于序列分类、标记分类和问答等下游任务的特征表示。CANINE-c为自然语言处理领域提供了一种新颖的、高效的处理方法。
canine-s - 无显式分词的多语言字符级模型
CANINE变换器模型模型Github字符级别操作开源项目多语言处理掩码语言模型Huggingface
CANINE-s模型通过字符级建模无需显式分词,为104种语言提供高效的预训练语言表示。采用遮盖语言建模和下一个句子预测进行自监督训练,适合处理多语言语料库。与BERT不同,CANINE-s直接利用Unicode码点,简化输入处理。该模型旨在通过微调支持标记分类、序列分类和问答等任务,并能生成标准分类器需要的特征。在多语言Wikipedia数据集的支持下,CANINE-s展示了其在语言表示任务中的广泛应用潜力。