#SentencePiece

SentencePiece: 革新自然语言处理的无监督文本分词利器

3 个月前
Cover of SentencePiece: 革新自然语言处理的无监督文本分词利器
相关项目
Project Cover

sentencepiece

SentencePiece是一种用于神经网络文本生成系统的无监督分词工具。它支持多种子词算法,如BPE和unigram语言模型,可直接从原始文本训练。这个工具具有语言无关性,实现了子词正则化,运行速度快,占用资源少。SentencePiece能直接生成词汇ID序列,执行NFKC标准化,是一个完全端到端的系统,无需依赖特定语言的预处理或后处理。

Project Cover

opus-mt-en-az

该开源项目提供了一种从英语到阿塞拜疆语的翻译工具,使用transformer-align模型进行语言转换。其运用了规范化与SentencePiece技术,确保翻译的准确性。根据Tatoeba测试集评估,该模型取得了18.6的BLEU分数及0.477的chr-F分数。用户可以通过链接下载模型权重和翻译测试结果,项目遵循Apache 2.0协议,适用于多个应用场景。

Project Cover

opus-mt-de-it

该开源项目使用transformer-align模型,提供德语到意大利语的高效翻译。通过Normalization和SentencePiece进行预处理,确保翻译的精准性和流畅性。用户可下载模型原始权重和测试集进行评估。模型在Tatoeba数据集上的评估显示,BLEU得分为45.3,chr-F得分为0.671,表现出良好的翻译性能。

Project Cover

opus-mt-de-ca

该项目基于transformer-align模型,将德语文本转为加泰罗尼亚语,采用正常化及SentencePiece (spm12k) 进行预处理。模型在Tatoeba测试集上的BLEU评分为37.4,chr-F值为0.582,显示了优秀的翻译性能。用户可以下载原始模型权重和相应测试集数据,查看详细的转化结果。

Project Cover

opus-mt-en-el

项目提供从英语到希腊语的翻译模型,使用OPUS数据集和transformer-align模型进行训练,并包含预处理步骤如规范化和SentencePiece。用户可以下载原始模型权重和测试集合译文,模型在BLEU评分中取得56.4的成绩,强调翻译的准确性和流畅性。

Project Cover

opus-mt-et-en

此项目是一个开源的爱沙尼亚语到英语翻译模型,采用transformer-align架构和SentencePiece技术进行预处理。基于opus数据集进行训练,提供模型权重和测试集文件的下载链接。在多种测试集上表现出色,例如在Tatoeba测试集上取得了59.9的BLEU得分。该模型适合处理需要高质量翻译的爱沙尼亚语到英语文本。

Project Cover

opus-mt-en-grk

项目提供基于transformer架构的英语到希腊语翻译模型,使用SentencePiece进行预处理,支持多语言目标,并提供测试集翻译、评估及模型权重下载。评估显示其在现代希腊语翻译中具有较高BLEU分数。相关资源含性能基准及原始代码链接。

Project Cover

opus-mt-eu-en

该开源项目提供欧-英翻译,基于transformer-align模型和SentencePiece预处理,BLEU评分为46.1,chr-F评分为0.638,适用于Tatoeba数据集。用户可下载模型权重和测试集翻译,满足多种高质量应用需求。

Project Cover

opus-mt-en-af

该项目提供了英语到南非荷兰语的机器翻译模型,基于transformer-align算法和OPUS数据集,并采用了标准化和SentencePiece预处理。用户可以获取模型的原始权重和翻译测试结果,Tatoeba测试集的BLEU得分为56.1,显示出较高的翻译准确度。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号