项目介绍:opus-mt-tc-base-en-sh
模型详情
opus-mt-tc-base-en-sh 是一个用于将英语(en)翻译成塞尔维亚-克罗地亚语(sh)的神经机器翻译模型。该模型属于 OPUS-MT 项目,这是一个致力于为世界多种语言提供神经机器翻译模型的项目。所有模型最初使用 Marian NMT 框架训练,该框架是用纯 C++ 编写的高效 NMT 实现。随后,这些模型被转换为可在 PyTorch 中使用的格式,采用的是 Hugging Face 的 Transformers 库。训练数据来源于 OPUS,并使用 OPUS-MT-train 相关的训练流程。
模型描述:
- 开发者:赫尔辛基大学的语言技术研究小组
- 模型类型:翻译(transformer-align)
- 发布时间:2021年4月20日
- 许可证:CC-BY-4.0
- 源语言:英语(eng)
- 目标语言:波斯尼亚语(拉丁字母)、塞尔维亚-克罗地亚语、克罗地亚语、塞尔维亚语(西里尔字母)、塞尔维亚语(拉丁字母)
- 语言对:eng-bos_Latn, eng-hbs, eng-hrv, eng-srp_Cyrl, eng-srp_Latn
- 更多信息:OPUS-MT-train GitHub 库、OPUS-MT 英文-塞尔维亚-克罗地亚语 README
这是一个多语言翻译模型,支持多种目标语言。在使用时,需要在句首添加一个特定的语言标记,形如 >>id<<
(id = 所需的目标语言 ID),例如 >>bos_Latn<<
。
用途
该模型可用于翻译和文本生成任务。
风险、局限性和偏见
内容警告:模型是基于各种公共数据集进行训练的,其中可能包含令人不安、冒犯性内容,并且可能传播历史和当前的刻板印象。
已有大量研究探讨了语言模型的偏见和公平性问题。
如何开始使用模型
一个简单的代码示例:
from transformers import MarianMTModel, MarianTokenizer
src_text = [
">>hrv<< You're about to make a very serious mistake.",
">>hbs<< I've just been too busy."
]
model_name = "pytorch-models/opus-mt-tc-base-en-sh"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))
for t in translated:
print( tokenizer.decode(t, skip_special_tokens=True) )
# 预期输出:
# Ti si o tome napraviti vrlo ozbiljnu pogrešku.
# [4]
还可以通过Transformers管道来使用OPUS-MT模型,例如:
from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-base-en-sh")
print(pipe(">>hrv<< You're about to make a very serious mistake."))
# 预期输出: Ti si o tome napraviti vrlo ozbiljnu pogrešku.
训练
- 数据:opus+bt
- 预处理:SentencePiece (spm32k,spm32k)
- 模型类型:transformer-align
- 原始模型:opus+bt-2021-04-20.zip
- 训练脚本:GitHub 库
评估
评价模型在多种数据集上的表现,包括 flores200-dev、flores200-devtest 和 flores101-devtest 等,评估指标涉及 BLEU 和 chr-F 分数。具体结果请查看测试集翻译文件以及相关评分。
引用信息
如果使用此模型,请引用以下文章:
- OPUS-MT – Building open translation services for the World
- The Tatoeba Translation Challenge – Realistic Data Sets for Low Resource and Multilingual MT
致谢
本项目由多个组织支持,包括欧洲语言网格、FoTran 项目和 MeMAD 项目,并得到了芬兰 CSC -- IT 科学中心提供的计算资源和 IT 基础设施。