electra-ko-en-small - 提升韩英双语自然语言处理模型性能

electra-ko-en-small项目介绍

electra-ko-en-small项目是TUNiB公司发布的一个新版本的ELECTRA模型。这个项目有两个主要动机：首先，当前已有的韩文预训练编码器模型大多是单语种的，只具备韩语的知识。而electra-ko-en-small是一个韩英双语模型，基于平衡的韩语和英语语料库进行训练。这意味着它不仅能处理韩语，还能够理解和生成英语内容。其次，TUNiB希望推出新型的现成模型，这些模型经过更大规模文本的训练。为此，他们从博客、评论、新闻、网络小说等多个来源收集了大量韩文文本，总计达到100GB。

如何使用

用户可以直接利用transformers库来应用这个模型。以下是加载模型和分词器的示例代码：

from transformers import AutoModel, AutoTokenizer

# 小型模型（韩英双语模型）
tokenizer = AutoTokenizer.from_pretrained('tunib/electra-ko-en-small')
model = AutoModel.from_pretrained('tunib/electra-ko-en-small')

分词器示例

下面是一个分词器的使用示例，通过它可以将英文和韩文句子分成词片段：

>>> from transformers import AutoTokenizer
>>> tokenizer = AutoTokenizer.from_pretrained('tunib/electra-ko-en-small')
>>> tokenizer.tokenize("tunib is a natural language processing tech startup.")
['tun', '##ib', 'is', 'a', 'natural', 'language', 'processing', 'tech', 'startup', '.']
>>> tokenizer.tokenize("튜닙은 자연어처리 테크 스타트업입니다.")
['튜', '##닙', '##은', '자연', '##어', '##처리', '테크', '스타트업', '##입니다', '.']

韩语任务表现

electra-ko-en-small在多个韩语下游任务上表现良好，包括NSMC情感分析、Naver命名实体识别、PAWS对抗性句对、KorNLI自然语言推理、KorSTS句子相似度、问题对匹配及KorQuaD阅读理解等。与其他版本的ELECTRA模型对比，该模型在多个指标上表现突出。

英语任务表现

在英语下游任务上，electra-ko-en-small同样展示了其优越性，在CoLA语法可接受性检查、SST情感分类、MRPC语料库句子关联性、STS句子相似性、QQP问句对、MNLI多领域自然语言推理、QNLI问答自然语言推理及RTE文本蕴涵识别等任务中，表现出不俗成绩。该模型在参数量稍大的情况下，与其他小型模型相比，在多个任务上的精度略有提升。

electra-ko-en-small是一个实力强大的工具，无论是在处理英韩双语文本还是在执行各类自然语言处理任务中，都能够提供强大的支持和较高的准确性，适合研究人员和开发者在不同语言和领域的应用场景中使用。