项目概述
banglat5_nmt_en_bn 是一个基于 BanglaT5 模型在英语-孟加拉语翻译数据集上微调的机器翻译模型。该项目由 csebuetnlp 团队开发,旨在提高低资源语言孟加拉语的机器翻译性能。
模型特点
- 该模型是在 BanglaNMT 英语-孟加拉语数据集上微调的 BanglaT5 检查点。
- 模型使用了特定的规范化流程,以确保输入文本的一致性。
- 在 BanglaNMT 测试集上,该模型达到了 25.2 的 SacreBLEU 分数,优于其他基准模型。
使用方法
研究人员可以通过 Hugging Face Transformers 库轻松使用该模型。使用时需注意以下几点:
- 安装所需的 normalizer 库。
- 使用 AutoModelForSeq2SeqLM 和 AutoTokenizer 加载模型和分词器。
- 对输入文本进行规范化处理。
- 使用模型生成翻译结果。
性能对比
在 BanglaNMT 测试集上,banglat5_nmt_en_bn 模型的表现如下:
- BanglaT5 (247M 参数): 25.2 SacreBLEU
- mT5 (base, 582M 参数): 22.5 SacreBLEU
- XLM-ProphetNet (616M 参数): 16.4 SacreBLEU
- mBART-50 (611M 参数): 16.7 SacreBLEU
- IndicBART (244M 参数): 13.1 SacreBLEU
可以看出,banglat5_nmt_en_bn 在参数量较少的情况下,翻译性能优于其他模型。
项目贡献
该项目为低资源语言孟加拉语的机器翻译研究做出了重要贡献:
- 提供了一个高质量的英语-孟加拉语平行语料库,包含 275 万对句子。
- 开发了专门的孟加拉语句子分割器。
- 提出了两种新方法用于低资源设置下的平行语料库创建:对齐器集成和批量过滤。
- 发布了经过严格质量控制的 1000 对句子的新测试集。
这些贡献大大提升了孟加拉语机器翻译的研究水平,为其他低资源语言的研究提供了宝贵经验。