#机器翻译

opus-mt-en-he - 基于OPUS数据集的英语-希伯来语机器翻译模型
开源项目机器翻译模型GithubOPUS-MT模型评估英语希伯来语翻译数据集Huggingface
这是一个基于transformer-align架构的英语-希伯来语翻译模型,采用Apache-2.0开源协议。模型在OPUS数据集上训练,使用规范化和SentencePiece进行预处理,在Tatoeba测试集上获得40.1 BLEU分和0.609 chr-F分。模型提供训练权重下载,可用于英语和希伯来语之间的翻译任务。
opus-mt-es-fr - 开源西班牙语-法语神经机器翻译模型
开源项目机器翻译模型GithubOPUS-MT西班牙语法语transformer模型Huggingface
opus-mt-es-fr是基于transformer-align架构开发的西班牙语-法语机器翻译模型。模型在新闻测试集上实现32-35的BLEU评分,在Tatoeba测试集达到58.4分。项目采用OPUS数据集训练,使用normalization和SentencePiece技术预处理数据。
opus-mt-tc-big-sh-en - 高效多语言神经机器翻译模型,支持塞尔维亚-克罗地亚语到英语的翻译
语言模型开源项目机器翻译模型OPUS-MTMarian NMTGithub文本翻译Huggingface
opus-mt-tc-big-sh-en是OPUS-MT项目开发的神经机器翻译模型,专门用于塞尔维亚-克罗地亚语(sh)到英语(en)的翻译。该模型采用Marian NMT框架训练,并转换为PyTorch格式以便于使用。在多个基准测试中,模型展现了优秀的性能,BLEU评分范围从37.1到66.5不等,证明了其在不同测试集上的翻译能力。作为OPUS-MT项目的一部分,该模型旨在为全球多语言翻译需求提供高质量、易用的解决方案。
mt0-small - 支持百种语言的神经网络文本生成器
自然语言处理多语言模型机器翻译mt0-smallGithub模型语言推理Huggingface开源项目
mt0-small是一个支持百种语言的文本生成模型,主要应用于自然语言推理、指代消解和句子补全等任务。模型可实现跨语言情感分析、问答系统和故事生成等功能,适用于自然语言处理研究与开发。
opus-mt-en-et - 英语至爱沙尼亚语神经机器翻译模型
opus-mt模型评估Github语言模型Huggingface数据集开源项目模型机器翻译
该英语至爱沙尼亚语(en-et)翻译模型基于transformer-align架构构建,使用OPUS数据集训练。模型采用normalization和SentencePiece预处理技术,在Tatoeba、newsdev2018和newstest2018等测试集上分别获得了54.0、21.8和23.3的BLEU评分。模型提供预训练权重及相关评估数据下载。
opus-mt-th-en - 开源泰英机器翻译模型实现48.1 BLEU评分
Thai模型Tatoeba机器翻译GithubOPUSHuggingfaceEnglish开源项目
基于transformer-align架构开发的泰语到英语机器翻译模型,通过SentencePiece技术预处理数据,模型在Tatoeba测试集上达到48.1 BLEU评分和0.644 chrF值。项目支持泰语到英语的单向翻译,采用Apache-2.0许可证发布。
opus-mt-fr-de - transformer-align架构的法德翻译模型,适用于新闻政治等多领域
opus-mt-fr-de机器翻译语言模型神经网络Github模型数据集Huggingface开源项目
该法德翻译模型基于transformer-align架构,使用OPUS数据集训练。模型在多个测试集上表现出色,Tatoeba测试集达49.1 BLEU分,新闻领域测试集普遍达22-28 BLEU分,在euelections_dev2019测试集上达26.4 BLEU分。采用normalization和SentencePiece预处理,适用于新闻、政治等多领域翻译。模型权重和测试集翻译结果可供下载使用。
EuroLLM-1.7B-Instruct - 支持35种语言的欧洲开源大语言模型
神经网络多语言模型开源项目机器翻译模型EuroLLMGithub自然语言处理Huggingface
EuroLLM-1.7B-Instruct是一个欧盟支持开发的大语言模型,具备17亿参数规模,可处理包括欧盟在内的35种语言。模型在机器翻译性能方面超越同规模的Gemma-2B模型,接近更大规模的Gemma-7B水平。采用transformer架构和分组查询机制,实现高效推理。这是欧盟首个面向多语言处理的开源语言模型项目。
mbart-large-50 - 面向多语言翻译的序列到序列神经网络模型
机器翻译开源项目mBART-50预训练模型模型GithubHuggingface序列到序列模型多语言翻译
mBART-50模型支持50种语言间的互译,基于序列到序列架构开发。该模型通过降噪预训练方法提升性能,包含句子重排和文本掩码等创新技术。作为mBART的扩展版本,覆盖英语、中文、日语在内的主要语言,可用于各类多语言自然语言处理任务。
opus-mt-en-cs - 基于Transformer的英捷机器翻译模型在Tatoeba测试集获得46.1 BLEU分数
语言模型开源项目机器翻译BLEU评分模型数据集评估Githubopus-mtHuggingface
这是OPUS项目开发的基于transformer-align架构的英捷翻译模型。模型使用normalization和SentencePiece预处理方法,在newstest2013-2019等多个新闻测试集上获得20-26的BLEU评分,在Tatoeba测试集达到46.1 BLEU分数。模型开放测试评估数据和原始权重下载,支持英语到捷克语的机器翻译任务。
opus-mt-en-eu - 基于Transformer的英语-巴斯克语机器翻译模型 Tatoeba测试集BLEU 31.8
机器翻译开源项目模型英语transformer-alignGithubHuggingface巴斯克语Tatoeba-Challenge
opus-mt-en-eu是一个英语到巴斯克语的机器翻译模型,基于transformer-align架构构建。模型使用SentencePiece进行预处理,在Tatoeba测试集上达到31.8 BLEU分数和0.590 chr-F分数。由Helsinki-NLP开发并以Apache-2.0许可发布,适用于英语到巴斯克语的翻译任务。模型支持单向翻译,可应用于需要高质量英巴翻译的场景。
bart-paraphrase - BART大型语言模型文本释义转换工具
开源项目自然语言处理模型文本生成模型微调HuggingfaceBART机器翻译Github
BART文本释义模型基于序列到序列架构开发,整合了BERT双向编码器与GPT单向解码器技术,通过Quora、PAWS和MSR数据集训练,实现文本的变换与释义功能。模型提供简洁的API接口,便于集成到自然语言处理应用中。
faster-whisper-medium - CTranslate2优化的Whisper medium模型支持多语言音频处理
Github模型转换CTranslate2开源项目模型HuggingfaceWhisper机器翻译语音识别
这是OpenAI Whisper medium模型的CTranslate2优化版本,支持100多种语言的音频转录和识别。模型采用float16量化,通过faster-whisper库易于集成。它具有高效的推理速度和较小的内存占用,适合快速、准确处理多语言音频的应用场景。用户可根据需求调整计算类型,平衡性能和资源消耗。该模型为开发者提供了灵活、高效的多语言音频处理解决方案。
wmt19-en-de - Facebook FSMT英德双向机器翻译模型
机器翻译FSMTWMT19BLEUGithub开源项目TransformerHuggingface模型
Facebook AI Research团队开发的FSMT英德双向翻译模型,基于Transformer架构,在WMT19新闻翻译任务中BLEU分数达到42.83。模型支持通过Hugging Face Transformers库实现英德互译功能。该模型在WMT19数据集上训练,但在处理包含重复短语的输入时存在一定局限性。
iris-7b - 韩英双向翻译模型展现商业级性能
韩英翻译开源项目Iris模型Mistral-7B深度学习Huggingface机器翻译Github
Iris-7B是一个基于Mistral-7B-v0.2的韩英双向翻译模型,经346K多领域数据集训练。其BLEU评分达0.40,与Google、Azure等商业服务comparable。模型支持韩英互译,精准把握语法、词汇和语境,适用于多种翻译场景。作为开源项目,Iris-7B为研究者和开发者提供了一个高性能的翻译工具选择。
opus-mt-hu-en - 基于OPUS数据集的匈牙利语-英语机器翻译模型
BLEU评分开源项目自然语言处理模型Huggingface机器翻译数据集Githubopus-mt-hu-en
此项目为基于transformer-align架构的匈牙利语到英语机器翻译模型,采用OPUS数据集训练。模型使用normalization和SentencePiece进行预处理,在Tatoeba测试集上获得52.9的BLEU分数和0.683的chr-F分数。项目提供模型权重、测试集翻译结果及评估数据下载。
jais-family-13b-chat - Jais系列模型助力阿拉伯语与英语双语处理
大语言模型开源项目自然语言处理模型Huggingface双语机器翻译Jais FamilyGithub
Jais项目发布双语大模型系列,旨在提升阿拉伯语与英语的语言处理能力。该项目包括20个模型,参数规模从590M到70B,利用海量阿拉伯语、英语和代码数据进行训练,具备增强的对话功能,有助于推进阿拉伯语自然语言处理的研究与应用。Jais模型在Llama-2的基础上进行适应性预训练,显著提高计算效率,适用于低资源语言环境,专注于提升模型的上下文理解与推理能力。
X-ALMA-13B-Pretrain - 支持50种语言的模块化翻译架构
机器翻译模块化Github开源项目多语言X-ALMAHuggingface模型训练模型
X-ALMA扩展支持50种语言,采用模块化架构进行多语言翻译,并通过合并模型、基础模型与语言特定模块或全语言模块的加载方式,应对不同应用场景。其增强的语言适应性在多语言问答中表现出色。
opus-mt-tc-big-zls-en - 南斯拉夫语系至英语的机器翻译开源模型
Github神经网络模型开源项目OPUS-MTHuggingface机器翻译自然语言处理Marian NMT
opus-mt-tc-big-zls-en是一个基于神经网络的机器翻译模型,用于南斯拉夫语系(zls)到英语(en)的翻译任务。作为OPUS-MT项目的组成部分,该模型采用Marian NMT框架开发,并已转换为PyTorch格式。模型支持包括保加利亚语、波斯尼亚语、克罗地亚语、马其顿语、斯洛文尼亚语和塞尔维亚语在内的多种南斯拉夫语言,可应用于相关语言的翻译工作。
nllb-200-1.3B - 支持200种语言互译的机器翻译开源模型
开源项目算法训练模型GithubHuggingface人工智能研究机器翻译多语言模型NLLB-200
nllb-200-1.3B是一个1.3B参数规模的开源机器翻译模型,支持200种语言之间的互相翻译。模型基于Flores-200数据集训练,特别关注低资源语言的翻译效果,支持最大512个token的单句翻译。经BLEU、spBLEU和chrF++等指标评估,该模型主要用于机器翻译研究,不适用于医疗、法律等专业领域的生产环境。
AraT5-MSAizer - 先进AI模型实现多种阿拉伯方言到标准阿拉伯语的转换
语言模型现代标准阿拉伯语AraT5-MSAizer阿拉伯语方言模型Github开源项目机器翻译Huggingface
AraT5-MSAizer是一款基于UBC-NLP/AraT5v2-base-1024模型优化的语言转换工具,致力于将五种主要阿拉伯方言转换为现代标准阿拉伯语(MSA)。该模型利用MADAR、North Levantine Corpus和PADIC等高质量语料库进行训练,并通过OPUS数据集的反向翻译扩充了训练数据。在官方评估中,AraT5-MSAizer在BLEU和Comet DA指标上分别达到0.2179和0.0016,展示了其在阿拉伯方言标准化方面的实用价值。
opus-mt-no-de - 挪威语至德语双向机器翻译模型 实现29.6 BLEU评分
德语机器翻译HuggingfaceGithub开源项目模型Tatoeba-Challenge挪威语transformer-align
opus-mt-no-de是一个开源的挪威语-德语神经机器翻译模型。该模型采用transformer-align架构,支持从挪威语的两种书面变体(Nynorsk和Bokmål)到德语的转换。模型使用SentencePiece进行文本预处理,在Tatoeba评测集上取得29.6 BLEU分数。项目开源于2020年6月,提供完整的模型文件及测试数据。
opus-mt-gmw-gmw - 开源的西日耳曼语系互译转换模型
开源项目OPUS模型西日耳曼语BLEUHuggingface机器翻译翻译评测Github
opus-mt-gmw-gmw是基于transformer架构的西日耳曼语系翻译模型,支持德语、英语、荷兰语等18种语言间的互译转换。该模型在德英互译新闻测试中表现优异,BLEU评分达25-35分。模型使用SentencePiece分词技术,需添加目标语言标识才可运行。
opus-mt-tc-big-ar-en - 高效的阿拉伯语到英语神经机器翻译模型,实现精准的跨语言转换
HuggingfaceOPUS-MT阿拉伯语翻译开源项目模型Github机器翻译语言模型自然语言处理
OPUS-MT项目开发的opus-mt-tc-big-ar-en是一款阿拉伯语到英语的神经机器翻译模型。该模型使用Marian NMT框架训练,支持现代标准阿拉伯语及其方言。在多个测试集上,模型展现出优秀性能,BLEU评分介于42.6至47.3之间。模型已转换为PyTorch格式,可通过Hugging Face的transformers库轻松使用。
opus-mt-tc-base-en-sh - 多语言神经机器翻译模型,支持英-塞尔维亚-克罗地亚语转换
语言模型神经网络OPUS-MTMarianNMTGithub模型开源项目机器翻译Huggingface
该项目提供的神经机器翻译模型,支持从英语到塞尔维亚-克罗地亚语及其他语言的翻译。采用Marian NMT框架训练,使用transformers库转换为pyTorch格式。此模型由赫尔辛基大学开发,数据集来自OPUS项目,并采用SentencePiece进行预处理。适用于文本翻译和生成,包含代码示例与评估细节,遵循CC-BY-4.0许可。
madlad400-3b-mt - 多语言翻译模型,支持450+种语言的实时翻译
语言模型HuggingfaceMADLAD-400模型Github开源项目T5模型机器翻译多语言
MADLAD-400-3B-MT是基于T5架构的多语言机器翻译模型,在1万亿个涵盖450多种语言的标记上训练而成。模型采用32层3B参数的共享架构,使用256k标记的Sentence Piece模型进行编解码。尽管规模较小,其翻译性能可媲美大型模型,特别适合处理低资源语言的自然语言任务。
opus-mt-fi-de - 基于Transformer架构的芬兰语德语机器翻译模型在Tatoeba测试集达到45.2 BLEU分数
语言模型Huggingface芬德翻译BLEU评分Github模型开源项目机器翻译opus-mt
Helsinki-NLP基于transformer-align架构开发的芬兰语德语机器翻译模型,在OPUS数据集训练完成。模型使用normalization和SentencePiece预处理方法,在Tatoeba测试集获得45.2 BLEU分数和0.637 chr-F值。模型权重与测试数据已通过OPUS-MT-models平台开放获取
nllb-200-3.3B - Facebook Research开发的200语言互译机器翻译模型
机器翻译Github人工智能研究开源项目NLLB-200低资源语言Huggingface多语言模型模型
nllb-200-3.3B是Facebook Research开发的多语言机器翻译模型,支持200种语言互译。该模型专注于低资源语言翻译研究,采用先进算法和数据平衡策略,在BLEU等指标表现优异。使用Flores-200数据集评估,基于CC-BY-NC许可开源。主要面向翻译研究群体,适用单句翻译,最大输入长度512个tokens。模型在通用领域文本上训练,不适用于特定专业领域或长文档翻译。
indictrans2-en-indic-1B - 支持22种印度官方语言双向翻译的开源机器翻译模型
Github模型开源项目印度语言IndicTrans2多语言模型Huggingface机器翻译人工智能
IndicTrans2是一个开源机器翻译模型,专注于英语和22种印度官方语言之间的翻译。该模型基于Transformer架构,拥有11亿参数,支持多种印度文字系统,包括印地文、泰米尔文和泰卢固文等。IndicTrans2提供HuggingFace接口,便于开发者集成使用。模型在多个翻译基准测试中表现出色,适用于各种印度语言翻译场景。
wmt19-ru-en - Facebook开源的WMT19俄英双向机器翻译模型
俄英翻译机器翻译FSMTHuggingfaceWMT19Github开源项目模型transformers
Facebook AI研究团队基于WMT19新闻翻译任务开发了这个俄英双向机器翻译模型。它采用Transformer架构,支持俄语到英语和英语到俄语的翻译。该模型在BLEU评分上表现优异,是自然语言处理领域的重要工具。模型已开源,研究人员和开发者可以方便地使用它进行俄英文本翻译。值得注意的是,该模型在处理包含重复短语的输入时可能存在一些局限性。
banglat5_nmt_en_bn - BanglaT5英孟双向神经机器翻译模型
文本处理Huggingface开源项目模型Github机器翻译数据集BanglaT5神经网络模型
BanglaT5是一个专注于英语和孟加拉语双向翻译的神经网络模型。通过在BanglaNMT数据集上训练,模型达到25.2 BLEU分数的翻译表现。项目开源了模型代码与文本标准化工具,支持研究人员进行低资源语言的机器翻译研究与应用开发。
opus-mt-da-de - 基于Transformer架构的丹麦语-德语机器翻译模型
Huggingface开源项目模型Github机器翻译语言模型数据集模型评估opus-mt-da-de
opus-mt-da-de是一个开源的丹麦语到德语机器翻译模型,基于Transformer架构设计。该模型使用OPUS数据集训练,经过规范化和SentencePiece预处理。在Tatoeba测试集上,模型取得57.4的BLEU分数和0.740的chr-F分数,显示出良好的翻译效果。模型提供预训练权重下载,并附有测试集翻译结果供评估参考。
opus-mt-en-vi - 基于Transformer架构的英越翻译模型 实现37.2 BLEU评分
HuggingfaceOPUSTatoeba开源项目模型英语越南语Github机器翻译
基于transformer-align架构开发的英语到越南语机器翻译模型,在Tatoeba测试集上达到37.2 BLEU分和0.542 chrF评分。模型使用SentencePiece技术进行分词预处理,支持英语到越南语(含喃字)的翻译功能。作为OPUS项目的组成部分,该模型于2020年6月发布,并提供完整的模型权重与测试数据集。
opus-mt-bg-en - 保加利亚语至英语的开源神经机器翻译模型
BLEU评分机器翻译HuggingfaceGithub开源项目模型模型评估数据集opus-mt-bg-en
opus-mt-bg-en是一个开源的保加利亚语到英语机器翻译模型,采用Transformer架构。该模型在OPUS数据集上训练,使用normalization和SentencePiece进行预处理。在Tatoeba测试集上,模型获得59.4的BLEU分数和0.727的chr-F分数。项目提供预训练权重、测试集翻译结果和评估分数,便于研究人员和开发者使用或进行性能评估。
opus-mt-ca-en - 基于Transformer架构的加泰罗尼亚语-英语机器翻译模型
机器翻译opus-mt-ca-enGithub开源项目英语Huggingface模型评估加泰罗尼亚语模型
该模型采用transformer-align架构,实现加泰罗尼亚语到英语的翻译功能。模型使用normalization和SentencePiece进行预处理,在Tatoeba测试集达到51.4 BLEU评分。作为OPUS项目的组成部分,模型开放训练权重下载及测试评估数据,可用于加泰罗尼亚语-英语的自动翻译场景。
opus-mt-ca-pt - 加泰罗尼亚语到葡萄牙语神经机器翻译模型实现44.9 BLEU评分
PortugueseTatoebaCatalan开源项目神经网络模型模型Huggingface机器翻译Github
opus-mt-ca-pt是一个专门用于加泰罗尼亚语到葡萄牙语翻译的神经机器翻译模型。该模型采用transformer-align架构,使用SentencePiece进行分词预处理,在Tatoeba测试集上达到44.9的BLEU分数和0.658的chrF值。这个由赫尔辛基大学NLP团队于2020年发布的开源模型,提供单向翻译功能。