开放翻译服务的工具和资源
- 基于 Marian-NMT
- 使用 OPUS-MT-train 在 OPUS 数据上训练(新:排行榜)
- 主要基于 SentencePiece 分词
- 大多使用基于 eflomal 词对齐的引导对齐进行训练
- 预训练可下载翻译模型(矩阵视图),CC-BY 4.0 许可
- 来自 Tatoeba 翻译挑战 的更多自由可用翻译模型,CC-BY 4.0 许可
- 543 个语言变体的在线演示 API 可在 Tiyaro.ai 上使用。例如,英语到德语的微调翻译器
本仓库包含两种设置:
- 设置 1:基于 Tornado 的 Web 应用程序,提供 Web 界面和 API 以支持多语言对(由维基媒体基金会的 Santhosh Thottingal 及其团队开发)
- 设置 2:一个带有一些实验性 API 扩展的简单 WebSocket 服务设置
还有用于训练模型的脚本,但目前这些脚本仅适用于赫尔辛基大学和 CSC 作为 IT 服务提供商所使用的计算环境。
如果使用 OPUS-MT 软件和模型,请引用以下论文:
@article{tiedemann2023democratizing,
title={Democratizing neural machine translation with {OPUS-MT}},
author={Tiedemann, J{\"o}rg and Aulamo, Mikko and Bakshandaeva, Daria and Boggia, Michele and Gr{\"o}nroos, Stig-Arne and Nieminen, Tommi and Raganato, Alessandro and Scherrer, Yves and Vazquez, Raul and Virpioja, Sami},
journal={Language Resources and Evaluation},
number={58},
pages={713--755},
year={2023},
publisher={Springer Nature},
issn={1574-0218},
doi={10.1007/s10579-023-09704-w}
}
@InProceedings{TiedemannThottingal:EAMT2020,
author = {J{\"o}rg Tiedemann and Santhosh Thottingal},
title = {{OPUS-MT} — {B}uilding open translation services for the {W}orld},
booktitle = {Proceedings of the 22nd Annual Conferenec of the European Association for Machine Translation (EAMT)},
year = {2020},
address = {Lisbon, Portugal}
}
基于 Tornado 的 Web 应用安装
从 GitHub 下载最新版本:
git clone https://github.com/Helsinki-NLP/Opus-MT.git
选项 1:手动设置
安装 Marian MT。按照 https://marian-nmt.github.io/docs/ 的文档进行操作(别忘了包含用于编译服务器二进制文件的 cmake 选项 -DCOMPILE_SERVER=ON
)
安装后,marian-server 应该在路径中。如果不在,请将其放在 /usr/local/bin
中
安装先决条件。 建议使用虚拟环境。
pip install -r requirements.txt
从 https://github.com/Helsinki-NLP/Opus-MT-train/tree/master/models 下载翻译模型并将它们放在 models 目录中。
然后编辑 services.json 以指向这些模型。
最后启动 Web 服务器。
python server.py
默认情况下,它将使用 8888 端口。在浏览器中打开 localhost:8888 以获取 Web 界面。services.json 中配置的语言将可用。
选项 2:使用 Docker
docker-compose up
或
docker build . -t opus-mt
docker run -p 8888:8888 opus-mt:latest
然后在浏览器中打开 localhost:8888
选项 2.1:使用带 CUDA GPU 的 Docker
docker build -f Dockerfile.gpu . -t opus-mt-gpu
nvidia-docker run -p 8888:8888 opus-mt-gpu:latest
然后在浏览器中打开 localhost:8888
配置
server.py 程序接受 JSON 格式的配置文件。默认情况下,它会尝试使用当前目录中的 services.json
。但你可以使用 -c
标志提供自定义配置文件。
一个示例配置文件如下所示:
{
"en": {
"es": {
"configuration": "./models/en-es/decoder.yml",
"host": "localhost",
"port": "10001"
},
"fi": {
"configuration": "./models/en-fi/decoder.yml",
"host": "localhost",
"port": "10002"
},
}
}
这个示例配置可以为 en->es 和 en->fi 语言对提供 MT 服务。
configuration
指向包含marian-server
可用的解码器配置的 yaml 文件。如果未提供此值,Opus-MT 将假定服务已在远程主机上运行,并根据其他选项进行发布。如果提供了值,将使用marian-server
创建一个新的子进程host
:服务器运行的主机。port
:marian-server
监听的端口。
在 Ubuntu 上安装 WebSocket 服务
还有一个选项是使用WebSockets和Linux服务设置翻译服务。详细信息可从doc/WebSocketServer.md获取。
公共机器翻译模型
我们在https://github.com/Helsinki-NLP/Opus-MT-train/tree/master/models存储公共模型(CC-BY 4.0许可证)。它们都应该与OPUS-MT服务兼容,您可以通过指定语言对来安装它们。安装脚本会选择该目录中的最新模型。如需额外定制,您需要调整安装程序(在Makefile或其他地方)。
还有一些开发版模型,通常更具实验性且质量较低。但它们包含额外的语言对,可以从https://github.com/Helsinki-NLP/Opus-MT-train/tree/master/work-spm/models下载。
训练机器翻译模型
Opus-MT-train仓库中有一个用于从OPUS数据训练新模型的Makefile,但这是针对CSC和赫尔辛基大学项目的工作环境高度定制的。希望将来这能变得更通用,以便在不同环境和设置中运行。
已知问题
- 大多数自动评估是在Tatoeba数据集的简单短句上进行的;这些分数在使用其他更真实的数据集时会过于乐观
- 一些(较旧的)测试结果不可靠,因为它们使用软件本地化数据(即GNOME系统消息),与包含在训练数据中的其他本地化数据(即Ubuntu系统消息)有很大重叠
- 所有当前模型都是在没有过滤、数据增强(如反向翻译)和领域适应以及其他优化程序的情况下训练的;除了基于自动选择的测试集的自动评估外,没有质量控制;对于某些语言对,至少还有来自官方WMT测试集的基准分数
- 大多数模型在1或4个GPU上最多训练72小时;并非所有模型都在此时间限制内收敛
- 验证和早停基于自动选择的验证数据,通常来自Tatoeba;验证数据对许多应用来说并不具有代表性
待办事项和愿望清单
- 更多语言和语言对
- 更好和更多语言的模型
- 优化翻译性能
- 添加反向翻译数据
- 特定领域模型
- 支持GPU的容器
- 容器化微调
- 文档级模型
- 负载均衡和其他服务优化
- 公共机器翻译服务网络
- 反馈循环和个性化
链接和相关工作
- OPUS-translator:简单在线翻译界面的实现
- OPUS-CAT:可运行OPUS-MT模型的Trados Studio NMT插件实现
- fiskmö:开发芬兰语和瑞典语之间翻译资源和工具的项目
- The Tatoeba MT Challenge,包含大量预训练NMT模型
- The NMT map:在地图上绘制Tatoeba NMT模型状态
- The OPUS-MT leaderboard
- 使用zero工具包在OPUS-100上训练的预训练多语言模型
致谢
这项工作得到了European Language Grid的支持,作为试点项目2866,由欧洲研究理事会(ERC)在欧盟Horizon 2020研究创新计划下资助的FoTran项目(拨款协议编号771113),以及由欧盟Horizon 2020研究创新计划资助的MeMAD项目(拨款协议编号780069)。我们也感谢CSC -- IT Center for Science,芬兰提供的慷慨计算资源和IT基础设施。