项目概述
这是一个名为opus-mt-tc-big-zls-en的神经机器翻译模型,专门用于将南斯拉夫语系(zls)翻译成英语(en)。该项目是OPUS-MT计划的重要组成部分,旨在为全球多种语言提供广泛可用的神经机器翻译模型。
技术特点
该模型采用了先进的transformer-big架构,使用Marian NMT框架开发,后经转换成PyTorch版本。它支持多种南斯拉夫语系的语言翻译,包括波斯尼亚语、保加利亚语、克罗地亚语、马其顿语、斯洛文尼亚语以及塞尔维亚语的西里尔字母和拉丁字母版本。
数据来源与训练
模型使用OPUS数据集进行训练,采用了opusTCv20210807+bt数据集。训练过程遵循OPUS-MT-train的标准流程,使用SentencePiece进行分词处理,词汇量为32k。该模型于2022年3月17日发布。
性能表现
在多个测试集上展现出优秀的翻译性能:
- 在波斯尼亚语到英语的翻译中,BLEU分数达到66.5
- 保加利亚语到英语的翻译BLEU分数为59.3
- 克罗地亚语到英语的翻译BLEU分数为59.2
- 其他语言对也都展现出良好的翻译效果
使用方法
模型的使用非常简便,支持通过transformers库直接调用。用户可以使用MarianMTModel和MarianTokenizer来加载模型,也可以通过pipeline方式快速实现翻译功能。支持批量翻译和单句翻译。
项目支持
该项目得到了多个重要机构的支持:
- 欧洲语言网格(European Language Grid)
- FoTran项目(由欧盟地平线2020计划资助)
- MeMAD项目
- 芬兰CSC-IT科学中心提供计算资源支持
技术规格
- 源语言:包括波斯尼亚语、保加利亚语等南斯拉夫语系
- 目标语言:英语
- 分词方式:SentencePiece (spm32k)
- 模型架构:transformer-big
- 框架支持:PyTorch (通过transformers库)