项目概述
t5_translate_en_ru_zh_small_1024
项目是一种多任务处理的T5转换器模型,专为多语言机器翻译而设计。这个模型能在俄语、中文和英语之间进行直接翻译,覆盖六种语言对:俄语-中文,中文-俄语,英语-中文,中文-英语,英语-俄语,俄语-英语。
功能特点
这个项目的主要功能是实现跨语言的直接翻译,用户只需在输入文本前加上目标语言标识(例如:translate to zh:
),即可将文本翻译成目标语言。值得注意的是,源语言未必需要明确指定,甚至可以是多语言的。这使得模型在处理多语言文本时,具有较高的灵活性和实用性。
使用方法示例
下文展示了如何使用t5_translate_en_ru_zh_small_1024
模型进行翻译的一些简单示例:
示例:从俄语翻译到中文
from transformers import T5ForConditionalGeneration, T5Tokenizer
device = 'cuda' #或者是'cpu',用于在CPU上进行翻译
model_name = 'utrobinmv/t5_translate_en_ru_zh_small_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)
prefix = 'translate to zh: '
src_text = prefix + "Цель разработки — предоставить пользователям личного синхронного переводчика."
# 从俄语翻译到中文
input_ids = tokenizer(src_text, return_tensors="pt")
generated_tokens = model.generate(**input_ids.to(device))
result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
# 开发的目的就是向用户提供个性化的同步翻译。
示例:从中文翻译到俄语
from transformers import T5ForConditionalGeneration, T5Tokenizer
device = 'cuda' #或者是'cpu',用于在CPU上进行翻译
model_name = 'utrobinmv/t5_translate_en_ru_zh_small_1024'
model = T5ForConditionalGeneration.from_pretrained(model_name)
model.to(device)
tokenizer = T5Tokenizer.from_pretrained(model_name)
prefix = 'translate to ru: '
src_text = prefix + "开发的目的就是向用户提供个性化的同步翻译。"
# 从中文翻译到俄语
input_ids = tokenizer(src_text, return_tensors="pt")
generated_tokens = model.generate(**input_ids.to(device))
result = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
print(result)
# Цель разработки - предоставить персонализированный синхронный перевод для пользователей.
支持的语言
此模型支持的语言包括:
- 俄语(ru_RU)
- 中文(zh_CN)
- 英语(en_US)
相关信息
项目采用Apache-2.0许可证,使用的数据集为CCMatrix,且可通过SacreBLEU指标进行效果评估。模型提供多种示例,帮助用户快速了解如何在实际应用中实现多语言间的文本翻译。
这个项目为需要跨语言交流的用户提供了一个强大工具,使得语言障碍不再成为问题。