项目介绍
translation-en-pt-t5项目是一个利用T5模型进行英葡(英语与葡萄牙语)互译任务的实现,通过一些创新方法,在硬件要求不高的条件下,优化了翻译效果。这一项目特别针对tokenizator(分词器)和后期处理(post-processing)进行了改进,同时使用了一个经过预训练的葡萄牙语模型,显著提升了翻译质量。
数据集
该项目使用了多种数据集提供训练数据,包括:
- EMEA:主要用于医学领域的翻译
- ParaCrawl 99k:一套包含99000句子对的通用数据
- CAPES:一组教育和学术相关的双语数据集
- Scielo:一个涵盖科学论文的多语种数据集
- JRC-Acquis:与法律文本相关的数据
- Biomedical Domain Corpora(生物医学领域语料库):用于处理与生物学和医学相关的翻译任务
评估指标
项目采用了常用的机器翻译评估指标BLEU(Bilingual Evaluation Understudy)来评估翻译效果。
使用方法
用户可以通过“Use in Transformers”指南来应用该项目。在使用时需要在翻译任务前加入一些指令,定义任务为英葡翻译。还可以创建一个翻译pipeline来处理文本。例如,想要翻译“我喜欢吃米饭”这样的语句,可以按照如下方法实现:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
tokenizer = AutoTokenizer.from_pretrained("unicamp-dl/translation-en-pt-t5")
model = AutoModelForSeq2SeqLM.from_pretrained("unicamp-dl/translation-en-pt-t5")
enpt_pipeline = pipeline('text2text-generation', model=model, tokenizer=tokenizer)
enpt_pipeline("translate English to Portuguese: I like to eat rice.")
参考文献
本项目的研究基于以下论文:
@inproceedings{lopes-etal-2020-lite,
title = "Lite Training Strategies for {P}ortuguese-{E}nglish and {E}nglish-{P}ortuguese Translation",
author = "Lopes, Alexandre and
Nogueira, Rodrigo and
Lotufo, Roberto and
Pedrini, Helio",
booktitle = "Proceedings of the Fifth Conference on Machine Translation",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.wmt-1.90",
pages = "833--840",
}