#多语言模型
mt0-small - 支持百种语言的神经网络文本生成器
自然语言处理多语言模型机器翻译mt0-smallGithub模型语言推理Huggingface开源项目
mt0-small是一个支持百种语言的文本生成模型,主要应用于自然语言推理、指代消解和句子补全等任务。模型可实现跨语言情感分析、问答系统和故事生成等功能,适用于自然语言处理研究与开发。
xlm-roberta-base-language-detection-onnx - 基于XLM-RoBERTa的多语言文本识别系统
多语言模型开源项目XLM-RoBERTa模型文本分类GithubONNX转换语言检测Huggingface
这是一个将xlm-roberta-base转换为ONNX格式的语言检测模型,支持阿拉伯语、中文、英语等20种语言识别。模型通过序列分类技术实现语言检测,并结合Optimum库确保高效运行,适合多语言文本分析场景。
bilingual-embedding-large - 基于Transformer架构的法英双语文本向量模型
文本嵌入多语言模型开源项目sentence-transformers模型语义相似度Github自然语言处理Huggingface
bilingual-embedding-large是一个基于Transformer的法英双语句向量模型,支持聚类、重排序和检索等文本相似度任务。模型通过MTEB基准测试验证,在跨语言文本语义理解方面展现了稳定性能。该模型主要应用于法语和英语文本的语义分析与对比场景。
EuroLLM-1.7B-Instruct - 支持35种语言的欧洲开源大语言模型
神经网络多语言模型开源项目机器翻译模型EuroLLMGithub自然语言处理Huggingface
EuroLLM-1.7B-Instruct是一个欧盟支持开发的大语言模型,具备17亿参数规模,可处理包括欧盟在内的35种语言。模型在机器翻译性能方面超越同规模的Gemma-2B模型,接近更大规模的Gemma-7B水平。采用transformer架构和分组查询机制,实现高效推理。这是欧盟首个面向多语言处理的开源语言模型项目。
mt5-xxl - 基于mC4语料库的大规模多语言文本转换模型
Github开源项目自然语言处理模型Huggingface多语言模型mT5机器学习预训练语言模型
这款由Google研发的大规模多语言预训练文本转换模型基于mC4语料库训练,覆盖101种语言。模型采用统一的文本到文本格式,在多语言自然语言处理任务中展现出优异性能。经过下游任务微调后可投入实际应用,其完整代码和模型检查点已开源,为多语言NLP研究和应用奠定基础。
mGPT - 基于GPT架构的大规模多语种自然语言处理模型
GPTMegatron开源项目自然语言处理模型Huggingface多语言模型深度学习Github
作为一个基于GPT-3架构的多语言处理模型,mGPT具备13亿参数量,覆盖25个语系的61种语言。模型采用Wikipedia和Colossal Clean Crawled Corpus作为训练数据,结合Deepspeed与Megatron框架实现并行计算,在低资源语言处理领域达到与XGLM相当的性能水平。模型训练过程中处理了488亿UTF字符,借助256个NVIDIA V100 GPU完成了为期14天的训练。
bloomz-7b1 - 突破性的多语言开源预训练语言模型
开源项目bloomz语言生成自然语言处理模型人工智能多语言模型HuggingfaceGithub
bloomz-7b1是一个开源的多语言预训练模型,拥有70亿参数,集成了40余种自然语言和13种编程语言的处理能力。该模型基于text-generation技术,可用于自然语言推理、程序合成和句子完成等任务,在跨语言处理领域具有广泛应用价值。作为一个功能强大的多语言NLP工具,bloomz-7b1为研究人员和开发者提供了丰富的语言处理资源。
bert-base-multilingual-cased-finetuned-langtok - 基于多语言BERT的语言识别模型实现99.03%准确率
BERT语言识别Github开源项目微调自然语言处理Huggingface多语言模型模型
这是一个基于bert-base-multilingual-cased的语言识别微调模型。模型在评估集上的准确率为99.03%,F1分数达到0.9087。模型采用Adam优化器和线性学习率调度器,经过3轮训练完成。开发框架使用Transformers 4.44.2和PyTorch 2.4.1,可应用于语言识别相关任务。
wav2vec2-xls-r-1b - 大规模多语言语音预训练模型支持128种语言处理
语音处理预训练Github开源项目模型Huggingface多语言模型XLS-R语音识别
Wav2Vec2-XLS-R-1B是Facebook AI开发的大规模多语言语音预训练模型,拥有10亿参数。该模型在436K小时的公开语音数据上训练,涵盖128种语言。在CoVoST-2语音翻译基准测试中平均提升7.4 BLEU分,BABEL等语音识别任务错误率降低20%-33%。适用于语音识别、翻译和分类等任务,需要16kHz采样率的语音输入进行微调。
e5-base-sts-en-de - 基于E5微调的德语文本语义相似度模型
e5-base语义文本相似度开源项目模型Huggingface多语言模型微调数据集Github
这是一个基于多语言E5基础模型开发的德语语义相似度模型。模型通过德语释义语料库、PAWS-X和STSB多语言数据集进行训练,结合多负例排序和余弦相似度两种损失函数。模型在STSB测试集达到0.904的相关性分数,能够有效完成德语文本相似度计算任务。
suzume-llama-3-8B-multilingual - Llama 3模型的多语言微调版本 提升跨语言对话性能
Llama 3Github开源项目模型人工智能多语言模型Huggingface语言训练机器学习
Suzume-llama-3-8B-multilingual是基于Llama 3的多语言微调模型,经过近9万条多语言对话训练。该模型保持了Llama 3的英语能力,同时显著提升了多语言对话表现,涵盖德语、法语、日语、俄语和中文等语言。在MT-Bench多语言评测中,其成绩与顶级7B模型相当,展现了强大的跨语言对话能力。
mdeberta-v3-base-squad2 - 基于DeBERTa V3架构的多语言问答模型
HuggingfaceDeBERTa开源项目模型问答系统Github多语言模型自然语言处理SQuAD
这是一个支持100多种语言的问答模型,基于DeBERTa V3架构开发。模型在SQuAD2.0数据集上经过微调,F1评分达到84.01%,可实现高质量的文本抽取式问答。采用ELECTRA预训练方法和优化的嵌入技术,适用于多语言自然语言处理任务。
nllb-200-1.3B - 支持200种语言互译的机器翻译开源模型
开源项目算法训练模型GithubHuggingface人工智能研究机器翻译多语言模型NLLB-200
nllb-200-1.3B是一个1.3B参数规模的开源机器翻译模型,支持200种语言之间的互相翻译。模型基于Flores-200数据集训练,特别关注低资源语言的翻译效果,支持最大512个token的单句翻译。经BLEU、spBLEU和chrF++等指标评估,该模型主要用于机器翻译研究,不适用于医疗、法律等专业领域的生产环境。
JaColBERTv2.5 - 优化资源应用的日语信息检索模型
数据集开源项目模型Github日本语检索器HuggingfaceJaColBERTv2.5多语言模型模型权重
该模型使用全新的训练方法,基于40%的数据成功创建了高效的日语信息检索系统。在多个数据集上表现优异,特别是改进的多向量检索方法,在资源受限的情况下提供卓越性能,优于包括BGE-M3在内的多语言模型,适合资源有限的应用场景。
nllb-200-3.3B - Facebook Research开发的200语言互译机器翻译模型
机器翻译Github人工智能研究开源项目NLLB-200低资源语言Huggingface多语言模型模型
nllb-200-3.3B是Facebook Research开发的多语言机器翻译模型,支持200种语言互译。该模型专注于低资源语言翻译研究,采用先进算法和数据平衡策略,在BLEU等指标表现优异。使用Flores-200数据集评估,基于CC-BY-NC许可开源。主要面向翻译研究群体,适用单句翻译,最大输入长度512个tokens。模型在通用领域文本上训练,不适用于特定专业领域或长文档翻译。
NuNER-multilingual-v0.1 - 支持九种以上语言的高性能多语言实体识别系统
GithubNLP开源项目Multilingual BERTNuMindHuggingface实体识别多语言模型模型
NuNER-multilingual-v0.1作为一个多语言实体识别系统,通过对多语言BERT模型进行优化,实现了对英语、法语等9种以上语言的支持。系统基于Oscar数据集训练,具备跨领域和跨语言的实体识别能力。在性能测评中,其F1宏观指标相比基础mBERT有明显提升,单层嵌入达到0.5892,双层嵌入达到0.6231的水平。该系统可直接使用或根据具体需求进行定制化训练。
xlm-roberta-xxl - 基于2.5TB数据训练的100语言自然语言处理模型
XLM-RoBERTa-XLGithub开源项目自然语言处理Huggingface机器学习预训练模型多语言模型模型
XLM-RoBERTa-XXL是一个基于2.5TB CommonCrawl数据预训练的多语言Transformer模型,支持100种语言的自然语言处理任务。通过掩码语言建模技术实现句子的双向表示学习,适用于序列分类、标记分类、问答等下游任务的微调,可应用于多语言文本分析和跨语言任务场景。
Multilingual-MiniLM-L12-H384 - 紧凑高效的多语言预训练模型助力跨语言自然语言处理
Github模型模型压缩开源项目多语言模型MiniLMHuggingface跨语言任务自然语言处理
Multilingual-MiniLM-L12-H384是一款小型多语言预训练模型,采用12层结构和384维隐藏单元,transformer参数仅2100万。该模型在XNLI和MLQA等跨语言任务中表现出色,支持15种语言,同时保持了较小的模型规模。它融合了BERT的架构设计和XLM-R的分词技术,适用于各类需要高效多语言处理的应用场景。
indictrans2-en-indic-1B - 支持22种印度官方语言双向翻译的开源机器翻译模型
Github模型开源项目印度语言IndicTrans2多语言模型Huggingface机器翻译人工智能
IndicTrans2是一个开源机器翻译模型,专注于英语和22种印度官方语言之间的翻译。该模型基于Transformer架构,拥有11亿参数,支持多种印度文字系统,包括印地文、泰米尔文和泰卢固文等。IndicTrans2提供HuggingFace接口,便于开发者集成使用。模型在多个翻译基准测试中表现出色,适用于各种印度语言翻译场景。
xphonebert-base - 基于BERT的多语言语音合成音素表示预训练模型
语音合成开源项目预训练模型XPhoneBERTGithub模型Huggingface多语言模型音素表示
XPhoneBERT是一个面向文本转语音的多语言音素表示预训练模型。它基于BERT-base架构,利用RoBERTa预训练方法在近100种语言的3.3亿音素级句子上进行训练。实验结果显示,将XPhoneBERT作为输入音素编码器能够显著提高神经网络TTS模型的自然度和韵律表现。此外,该模型还能在有限的训练数据条件下生成高质量语音。XPhoneBERT支持多语言文本到音素序列的转换,为跨语言语音合成提供了有力支持。
bge-m3-zeroshot-v2.0 - BGE-M3基于零样本学习的多语言文本分类模型
HuggingfaceGithub文本分类自然语言推理开源项目zeroshot分类模型商业友好数据多语言模型
bge-m3-zeroshot-v2.0模型基于BAAI/bge-m3-retromae开发,是一款高效的零样本文本分类器。该模型支持多语言处理,可接受长达8192个tokens的输入。通过自然语言推理训练,无需微调即可执行各类分类任务。模型分为商业友好版(-c)和学术研究版,在28个分类任务中表现优异。适用于需要灵活文本分类解决方案的场景,支持GPU和CPU部署。
bloom-3b - 开源多语言文本生成模型Bloom支持46种语言处理与生成
Huggingface文本生成机器学习开源项目模型BLOOMGithub多语言模型自然语言处理
Bloom-3b作为开源多语言文本生成模型,实现了英语、法语、中文等46种语言的自然语言处理功能。经arc_challenge、boolq等基准测试验证,在文本生成和代码生成任务中具备稳定表现。这一多语言模型的开发扩展了自然语言处理技术的应用范围。
aya-23-8B - 支持23种语言的开源多语言大模型
机器学习Aya-23-8B自然语言处理HuggingfaceGithub开源项目模型人工智能多语言模型
Aya-23-8B是由Cohere For AI开发的开源多语言大模型,基于Command系列模型架构,通过Aya Collection数据集进行指令微调。该模型包含80亿参数,支持阿拉伯语、中文、英语在内的23种语言,具有8192的上下文长度。模型采用优化的Transformer架构,主要面向学术研究和非商业应用场景。
sentence-bert-swedish-cased - 瑞典句子变换模型,多语言句子嵌入优化
Githubsentence-transformers开源项目特征提取语义相似性Huggingface知识蒸馏多语言模型模型
该项目利用知识蒸馏技术,使单语言瑞典语与英语句子嵌入具备多语言能力,适用于聚类、语义搜索等任务。最新的v2.0版本在更强教师模型指导下训练,支持处理更长段落,并在SweParaphrase和SweFAQ等测试集中表现出色。
occiglot-7b-it-en-instruct - 支持英语和意大利语的多语言生成语言模型
Huggingface机器学习文本生成开源项目模型Occiglot-7B-it-en-InstructGithubApache许可证多语言模型
Occiglot-7B-it-en-Instruct是一款多语言生成模型,具备70亿参数,覆盖欧盟五大语言,如英语和意大利语。其通过160M多语言和代码指令进行训练,由Occiglot Research Collective开发。项目未进行安全对齐,可能生成有问题的内容,欢迎多语言模型研究者参与合作。
xlm-roberta-large-finetuned-conll03-german - 基于XLM-RoBERTa的大型多语言模型优化德国文本的命名实体识别
模型训练命名实体识别自然语言处理HuggingfaceGithub开源项目模型XLM-RoBERTa多语言模型
该项目展示了一种基于大规模多语言数据训练的XLM-RoBERTa模型,专注于德语文本的命名实体识别和词性标注,能够高效解析德语文本,并通过内置管道进行自然语言理解任务的方便集成。
LLaMAntino-3-ANITA-8B-Inst-DPO-ITA - LLaMAntino-3意大利语文本生成模型
意大利语Github开源项目LLaMAntino自然语言处理Huggingface模型评估多语言模型模型
基于Meta Llama 3技术的LLaMAntino-3模型特别为意大利NLP研究开发,通过AI2推理挑战、HellaSwag和TruthfulQA等任务的微调与评估,实现卓越的文本生成和准确性表现。支持多语言输入,尤其是在意大利语环境中高效处理文本生成任务。
相关文章