简介
opus-mt-tc-big-fr-en
是一个专用于法语(fr)到英语(en)翻译的神经机器翻译模型。这个模型是 OPUS-MT 项目 的一部分,该项目旨在为世界上多种语言提供广泛可用的神经机器翻译模型。所有模型最初都是通过高效的 Marian NMT 框架训练的,该框架是用纯 C++ 编写的。然后,这些模型使用 Hugging Face 的 transformers 库被转换为 PyTorch。训练数据来自 OPUS,训练管道则使用 OPUS-MT-train 的相关程序。
模型信息
- 语言对:法语(fra)到英语(eng)
- 模型类型:transformer-big
- 训练数据:opusTCv20210807+bt
- 分词工具:SentencePiece (spm32k, spm32k)
- 模型发布日期:2022年3月9日
使用指南
示例代码
用户可以通过以下简单的 Python 代码来使用此模型进行翻译:
from transformers import MarianMTModel, MarianTokenizer
src_text = [
"J'ai adoré l'Angleterre.",
"C'était la seule chose à faire."
]
model_name = "pytorch-models/opus-mt-tc-big-fr-en"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))
for t in translated:
print(tokenizer.decode(t, skip_special_tokens=True))
# 预期输出:
# I loved England.
# It was the only thing to do.
用户还可以通过 transformers 的 pipelines 使用 OPUS-MT 模型:
from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-fr-en")
print(pipe("J'ai adoré l'Angleterre."))
# 预期输出: I loved England.
基准测试
模型在多种数据集上的 BLEU 分数展示了其翻译性能:
- 新的 BLEU 分数如 flores101-devtest(46.0)、multi30k_test_2017_flickr(52.0)等。
- 各种新闻数据集上的 BLEU 分数从 26.5 到 39.4 不等。
致谢
该项目得到了 European Language Grid 的支持,是 pilot 项目 2866 的一部分。此外,还得到了 FoTran 项目 和 MeMAD 项目 的支持,均由欧盟的 Horizon 2020 研究和创新计划资助。同时,也感谢芬兰的 CSC -- IT Center for Science 提供的计算资源和 IT 基础设施。
模型转换信息
- transformers 版本:4.16.2
- OPUS-MT git hash: 3405783
- 转换时间:2022年4月13日
通过这些详细信息,用户可以在多种场景中应用此翻译模型,使法英翻译任务更方便和高效。