训练Opus-MT模型
本包含用于使用MarianNMT和OPUS数据训练OPUS-MT的NMT模型的脚本。更多细节在Makefile中给出,但文档需要改进。此外,这些目标需要特定的环境,目前只在芬兰的CSC HPC集群上运行良好。
预训练模型
子目录models包含可从本项目下载的预训练模型信息。它们以CC-BY 4.0许可证分发。使用OPUS-MT训练管道训练的更多预训练模型可从Tatoeba翻译挑战获得,同样采用CC-BY 4.0许可证。
快速入门
设置:
git clone https://github.com/Helsinki-NLP/OPUS-MT-train.git
git submodule update --init --recursive --remote
make install
查看lib/env.mk
并调整您环境中需要的任何设置。
对于CSC用户:调整lib/env/puhti.mk
和lib/env/mahti.mk
以匹配您的设置(特别是Marian-NMT和其他工具的安装位置以及您使用的CSC项目)。
训练多语言NMT模型(芬兰语和爱沙尼亚语到丹麦语、瑞典语和英语):
make SRCLANGS="fi et" TRGLANGS="da sv en" train
make SRCLANGS="fi et" TRGLANGS="da sv en" eval
make SRCLANGS="fi et" TRGLANGS="da sv en" release
更多信息可在下面链接的文档中找到。
文档
教程
参考文献
如果您使用OPUS-MT软件和模型,请引用以下论文:
@article{tiedemann2023democratizing,
title={Democratizing neural machine translation with {OPUS-MT}},
author={Tiedemann, J{\"o}rg and Aulamo, Mikko and Bakshandaeva, Daria and Boggia, Michele and Gr{\"o}nroos, Stig-Arne and Nieminen, Tommi and Raganato, Alessandro and Scherrer, Yves and Vazquez, Raul and Virpioja, Sami},
journal={Language Resources and Evaluation},
number={58},
pages={713--755},
year={2023},
publisher={Springer Nature},
issn={1574-0218},
doi={10.1007/s10579-023-09704-w}
}
@InProceedings{TiedemannThottingal:EAMT2020,
author = {J{\"o}rg Tiedemann and Santhosh Thottingal},
title = {{OPUS-MT} — {B}uilding open translation services for the {W}orld},
booktitle = {Proceedings of the 22nd Annual Conferenec of the European Association for Machine Translation (EAMT)},
year = {2020},
address = {Lisbon, Portugal}
}
致谢
如果没有所有这些优秀的开源软件,这一切都是不可能的,包括:
- GNU/Linux工具
- Marian-NMT
- eflomal
...以及许多其他工具,如terashuf、pigz、jq、Moses SMT、fast_align、sacrebleu等...
我们还要感谢赫尔辛基大学、科学IT中心CSC的支持,通过欧盟Horizon 2020框架项目(FoTran、MeMAD、ELG)提供的资金,以及OPUS开放平行语料库收集的贡献者们。