#多语言模型

fastembed - 轻量且高速的Python文本嵌入式生成库，面向多模态支持

FastEmbed文本嵌入QdrantONNX Runtime多语言模型Github开源项目

FastEmbed，一个为速度和效率优化的Python库，支持多语言且易于扩展的嵌入式模型生成工具，适用于服务器和GPU环境。简化高效编码，无需依赖庞大的数据下载，适用于多种数据类型和复杂任务，是开发精确嵌入系统的理想工具。

WhisperLive - 基于OpenAI Whisper模型开发的实时音频转写应用

WhisperLive实时语音识别OpenAI Whisper多语言模型TensorRTGithub开源项目

WhisperLive是基于OpenAI Whisper模型开发的实时音频转写应用，能高效地将直播或预录音频转换成文本。支持多语言和自定义设置，适用于个人、教育及商业场景。项目还提供Docker部署，简化安装和服务部署过程。

XPhoneBERT - 多语言音素表示模型助力TTS性能提升

XPhoneBERT语音合成多语言模型音素表示预训练模型Github开源项目

XPhoneBERT是一种创新的多语言音素表示预训练模型，专为文本转语音(TTS)系统设计。基于BERT-base架构，该模型利用RoBERTa方法对近100种语言的3.3亿音素级句子进行训练。研究显示，将XPhoneBERT用作输入音素编码器能够显著增强神经TTS模型的自然度和韵律表现，同时在训练数据有限的情况下也能生成高质量语音。这一模型支持广泛的语言，并可通过transformers库便捷集成。

CodeGeeX4 - 开源多语言代码生成模型的新突破

CodeGeeX4代码生成多语言模型AI编程开源Github开源项目

CodeGeeX4-ALL-9B是一个基于GLM-4-9B训练的多语言代码生成模型。它提供代码补全、生成、解释等多项功能，并支持网络搜索、函数调用和仓库级代码问答。作为参数量低于10B的代码生成模型中性能最佳的一款，CodeGeeX4-ALL-9B在多个公开基准测试中表现优异，在某些方面甚至超越了参数量更大的通用模型，体现了其在推理速度和模型性能之间的出色平衡。

AssemblyAI - 语音AI技术平台提供语音识别和深度分析服务

AI工具语音AIAssemblyAIUniversal-1语音转文本多语言模型

AssemblyAI是一个专业的语音AI技术平台，提供语音识别和理解服务。其功能包括语音转文本、说话人识别、情感分析、章节检测和个人信息编辑。该平台具有易集成、灵活定价、技术持续更新等特点，并提供全天候支持。AssemblyAI帮助企业利用语音数据开发创新AI产品。

simalign - 基于嵌入的多语言词对齐工具无需平行训练数据

SimAlign词语对齐自然语言处理上下文嵌入多语言模型Github开源项目

SimAlign是一种创新的词对齐工具，利用静态和上下文嵌入技术实现高质量对齐，无需平行训练数据。该工具支持ArgMax、IterMax和Match等多种对齐算法，覆盖104种语言。相较于传统统计模型，SimAlign在多个语言对的对齐任务中表现优异。工具基于Python开发，安装和使用便捷，并提供在线演示平台。SimAlign可应用于机器翻译、多语言模型训练等跨语言自然语言处理任务中。

mgpt - 支持61种语言的多语言生成式预训练模型

mGPT多语言模型预训练自然语言处理深度学习Github开源项目

mGPT是一个基于GPT-3的多语言模型，覆盖25个语系的61种语言。该模型使用维基百科和C4语料库进行预训练，包含低资源语言。mGPT在语言建模、跨语言自然语言理解和世界知识探测等方面表现出色，上下文学习能力与同期模型相当。项目代码和模型以MIT许可证开源。

paraphrase-multilingual-mpnet-base-v2 - 跨语言句子向量化模型支持聚类和语义检索

模型Github多语言模型开源项目文本嵌入Huggingface语义搜索sentence-transformers自然语言处理

paraphrase-multilingual-mpnet-base-v2是一个基于sentence-transformers的多语言句子嵌入模型，支持50多种语言。它将句子和段落映射为768维向量，适用于聚类和语义搜索。模型易于使用，通过pip安装即可快速集成。在Sentence Embeddings Benchmark上表现出色，采用XLMRobertaModel和平均池化层结构，可有效处理不同长度的文本输入。

llama-3.2-Korean-Bllossom-3B-GGUF - 韩英双语模型llama-3.2性能增强

指令微调多语言模型商业用途韩语BllossomGithub模型开源项目Huggingface

Bllossom团队推出的这是一个全新的韩英双语语言模型，旨在增强Meta-Llama-3.2-3B的韩语能力。通过150GB高质量韩语数据的调优，该模型在不影响英语表现的同时，对韩语支持进行了强化。在LogicKor测试中表现突出，并允许多种性能优化方法。该项目在AAAI2024等会议上获得了口头报告机会，旨在进一步推动韩语语言能力的提升。

byt5-xl - 基于原始字节的多语言自然语言处理模型

模型Github多语言模型开源项目Huggingface字节级处理Transformer架构自然语言处理ByT5

ByT5-xl是一种基于原始UTF-8字节的多语言预训练模型，无需使用分词器。该模型在mC4数据集上进行预训练，采用标准Transformer架构，在处理噪声文本数据方面表现出色。与传统基于token的模型相比，ByT5-xl在参数数量、训练效率和推理速度上保持竞争力，同时在拼写和发音敏感任务中展现出更优异的性能。这使得ByT5-xl成为多语言自然语言处理任务的有力工具。

sat-12l-sm - 先进的多语言文本句子分割模型

模型Github多语言模型开源项目Huggingface句子分割自然语言处理深度学习wtpsplit

sat-12l-sm是一个基于12层Transformer架构的句子分割模型，支持80种语言的文本分割。作为wtpsplit库的核心组件，它采用'Segment any Text'技术，为自然语言处理提供基础支持。该模型可用于提高文本分析和处理的准确性，适用于研究和开发领域。

Orion-14B-Base - 卓越的多语言处理和长文本理解能力

模型Github大语言模型模型评估Orion-14B模型下载Huggingface开源项目多语言模型

Orion-14B是OrionStarAI开发的开源多语言大语言模型系列。该系列在2.5T多语言语料上训练,包含基础模型、对话模型和长文本模型等多个版本。Orion-14B展现出卓越的多语言处理能力,尤其在中英日韩等语言上表现突出。此外,它还具备出色的长文本理解和高效的量化推理能力。在多项权威基准测试中,Orion-14B系列模型均展现出优异的综合性能。

sentence-transformers-multilingual-e5-large - 多语言句子嵌入模型适用于语义搜索和文本相似度分析

模型Github多语言模型开源项目Huggingface语义相似度嵌入向量sentence-transformers自然语言处理

sentence-transformers-multilingual-e5-large是一个多语言句子嵌入模型，将句子和段落映射到1024维向量空间。该模型基于sentence-transformers库构建，适用于聚类、语义搜索等任务。支持多语言处理，可通过Python代码轻松调用。模型在Sentence Embeddings Benchmark上进行了评估，为自然语言处理应用提供了有效的文本表示方法。

llmlingua-2-xlm-roberta-large-meetingbank - 高效的多语言提示压缩模型

模型LLMLingua-2Github效率优化提示压缩多语言模型Huggingface开源项目自然语言处理

LLMLingua-2-xlm-roberta-large-meetingbank是一个基于XLM-RoBERTa的多语言提示压缩模型。该模型通过对MeetingBank数据集进行微调，实现了高效且忠实的任务无关提示压缩。它能够在保留关键信息的同时显著缩短提示长度，适用于多种自然语言处理任务。该模型可以轻松集成，有助于优化大语言模型的输入，提高处理效率并降低运算成本。

mt5-base - 多语言预训练文本转换模型覆盖101种语言的强大NLP工具

Huggingface模型机器学习预训练mT5Github开源项目自然语言处理多语言模型

mt5-base是Google开发的基于T5架构的多语言预训练模型，涵盖101种语言。该模型在mC4语料库上进行预训练，适用于多种跨语言NLP任务。使用时需针对特定任务进行微调。mt5-base在多语言基准测试中表现出色，为自然语言处理领域提供了有力支持。

bert-base-multilingual-cased-ner-hrl - 基于mBERT的多语言命名实体识别模型覆盖10种主要语言

bert-base-multilingual-cased模型命名实体识别GithubHugging Face多语言模型Huggingface开源项目自然语言处理

bert-base-multilingual-cased-ner-hrl是一个多语言命名实体识别模型，基于mBERT微调而来。该模型支持阿拉伯语、德语等10种主要语言，能够识别地点、组织和人名。模型通过聚合多语种新闻数据集训练，适用于广泛的NER任务，但在特定领域可能存在局限性。使用简单，可通过Transformers库快速部署。模型可通过Hugging Face的Transformers库轻松集成到各种NLP项目中，适用于多语言文本分析、信息提取等任务。然而，由于训练数据限制，在非新闻领域的表现可能需要进一步评估。

mt5-small - 跨101种语言的预训练文本转换模型

Huggingface模型机器学习mT5Github预训练模型开源项目自然语言处理多语言模型

mt5-small是一个基于T5架构的多语言预训练模型，涵盖101种语言。该模型在mC4数据集上预训练，可应用于多种自然语言处理任务。mt5-small为多语言NLP研究提供了坚实基础，但需要针对特定任务进行微调才能发挥其全部潜力。这个开源项目为跨语言AI应用开发提供了重要工具。

twitter-xlm-roberta-base-sentiment-finetunned - XLM-RoBERTa微调的多语言Twitter情感分析模型

模型模型微调多语言模型XLM-Roberta开源项目Huggingface情感分类Github文本分类

该模型是Citizen Lab团队基于XLM-RoBERTa架构微调的多语言Twitter情感分类器。支持英语、荷兰语、法语等10种语言，可准确识别文本的正面、负面和中性情感。模型在F1分数和准确率方面表现出色，使用简单，适用于多种社交媒体情感分析场景。

xlm-roberta-xl - 基于2.5TB数据训练的100语种自然语言处理模型

模型Github多语言模型预训练模型XLM-RoBERTa-XL开源项目Huggingface机器学习自然语言处理

XLM-RoBERTa-XL是基于2.5TB CommonCrawl数据训练的大规模多语言模型，支持100种语言的自然语言处理。该模型采用掩码语言建模进行自监督学习，适用于序列分类、标记分类和问答等需要理解整句上下文的任务。XLM-RoBERTa-XL为多语言NLP研究和应用提供了强大的基础，但不适合文本生成类任务。

opus-mt-mul-en - Transformer架构的多语种英语神经机器翻译模型

模型BLEU评分机器翻译Github语言对开源项目HuggingfaceOPUS多语言模型

opus-mt-mul-en是基于Transformer架构的多语种到英语神经机器翻译模型。该模型支持200多种语言翻译为英语,覆盖范围广泛。在多个标准测试集上表现优异,尤其擅长欧洲语言翻译。模型采用SentencePiece分词技术,能够处理低资源语言,是一款功能强大的通用多语言翻译工具。

mMiniLMv2-L12-H384-distilled-from-XLMR-Large - 轻量级多语言自然语言处理模型

MiniLMv2Huggingface模型机器学习GithubMicrosoft开源项目自然语言处理多语言模型

mMiniLMv2-L12-H384-distilled-from-XLMR-Large是一个基于Microsoft UniLM项目的多语言自然语言处理模型。该模型通过知识蒸馏技术从XLM-R大型模型中提取知识，在维持高性能的同时大幅缩小了模型体积。作为一个轻量级模型，它能够适应文本分类、问答系统和序列标注等多种NLP任务，尤其适合在计算资源有限的环境中使用。

xlm-roberta-base-ner-silvanus - 基于XLM-RoBERTa的多语言命名实体识别模型

模型命名实体识别XLM-RoBERTaGithub零样本迁移学习NERHuggingface开源项目多语言模型

该模型基于xlm-roberta-base在印尼NER数据集上微调而来，可从社交媒体文本中提取位置、日期和时间信息。虽然训练数据为印尼语，但通过零样本迁移学习，模型支持英语、西班牙语、意大利语和斯洛伐克语的信息提取。在验证集上，模型展现出91.89%的精确率、92.73%的召回率和92.31%的F1分数，显示了其在多语言命名实体识别任务中的有效性。

gliner_multi - 灵活识别多语言实体的开源NER模型

模型命名实体识别GithubGLiNER多语言模型开源项目Huggingface机器学习自然语言处理

GLiNER-multi是一个基于双向Transformer架构的开源多语言命名实体识别模型。它能够灵活识别各种实体类型，填补了传统NER模型与大型语言模型之间的空白。该模型在Pile-NER数据集上训练，支持多语言处理，易于集成到不同的自然语言处理应用中。GLiNER-multi在保证性能的同时优化了模型规模，适用于计算资源有限的场景。

IndicBERTv2-MLM-only - 支持23种印度语言和英语的大规模多语言预训练模型

模型Github多语言模型印度语言开源项目Huggingface机器学习IndicBERT自然语言处理

IndicBERTv2-MLM-only是一个支持23种印度语言和英语的大规模多语言预训练模型。该模型基于IndicCorp v2数据集训练，包含2.78亿参数，采用掩码语言模型（MLM）目标。在IndicXTREME基准测试中，模型展现出优秀的多语言和零样本迁移能力。作为印度语言自然语言处理的重要资源，IndicBERTv2-MLM-only有望推动相关研究，缩小印度语言在NLP领域的差距。

paraphrase-xlm-r-multilingual-v1 - 多语言句子嵌入模型生成768维向量用于相似度计算

模型向量嵌入Github多语言模型开源项目Huggingface语义相似度sentence-transformers自然语言处理

这是一个基于sentence-transformers的多语言句子嵌入模型。该模型将句子和段落映射到768维向量空间，适用于聚类和语义搜索等任务。模型支持多语言输入，可通过简单的Python代码调用。它基于XLM-RoBERTa架构，采用平均池化方法生成句子嵌入。模型性能可在Sentence Embeddings Benchmark网站查看评估结果。

IndicNER - 面向11种印度语言的多语言命名实体识别模型

模型IndicNERGithub多语言模型印度语言开源项目Huggingface命名实体识别自然语言处理

IndicNER是一个针对11种印度语言开发的命名实体识别模型。该模型通过数百万句子的微调训练，并在人工标注测试集和多个公开数据集上进行了性能评估。IndicNER支持阿萨姆语、孟加拉语、古吉拉特语等多种印度语言，能够有效识别句子中的命名实体。作为一个基于最新深度学习技术的工具，IndicNER为印度语言的自然语言处理研究和应用提供了有力支持。

mrebel-large - 基于序列到序列学习的多语言关系抽取模型

模型Github多语言模型开源项目HuggingfaceREBEL序列到序列学习关系抽取自然语言处理

mREBEL-large模型是基于REBEL架构的多语言关系抽取工具，支持18种语言。它将关系抽取重新定义为序列到序列任务，可作为独立系统使用或作为预训练模型进行微调。该模型在RED^{FM}数据集上训练，擅长从文本中提取实体关系三元组，为多语言自然语言处理领域提供了实用的解决方案。

CLIP-ViT-H-14-frozen-xlm-roberta-large-laion5B-s13B-b90k - CLIP架构多语言视觉语言模型实现高效零样本图像分类与检索

LAION-5B零样本学习图像分类Huggingface模型Github开源项目CLIP多语言模型

这是一个基于CLIP架构的多语言视觉语言模型,在LAION-5B数据集上训练。模型结合了冻结的ViT-H/14视觉结构和XLM-RoBERTa大型文本模型,在多语言零样本图像分类和检索任务中表现优异。适用于零样本图像分类、图文检索等应用,也支持下游任务微调。该模型在英语及其他语言中均展现出强大性能,为跨语言视觉AI应用提供了有力支持。

ClinicalNER - 多语言临床命名实体识别模型提取医疗文本中的药物和用药信息

MedNERFGithub开源项目多语言模型临床命名实体识别医疗文本分析Huggingface模型XLM-R

ClinicalNER是一个基于XLM-R Base的多语言临床命名实体识别模型，通过英语n2c2数据集微调。该模型能从医疗文本中提取药物、剂量、频率、持续时间、用量和剂型等实体信息。在法语评估测试集MedNERF上，ClinicalNER展现了优异的零样本跨语言迁移能力，micro-F1分数达0.804。支持英、法、德、西、意等多种语言，ClinicalNER为临床文本分析提供了实用的工具。

mDeBERTa-v3-base-finetuned-nli-jnli - 基于多语言NLI和JGLUE数据集微调的日语NLP模型

Huggingface零样本分类模型Github开源项目mDeBERTa-v3微调多语言模型自然语言推理

该模型基于微软mdeberta-v3-base在多语言NLI和JGLUE数据集上微调而来。它支持日语零样本文本分类和跨语言自然语言推理任务，在评估集上达到68.08%准确率和67.42% F1分数。模型可应用于日语主题分类、跨语言蕴含关系判断等自然语言处理任务，为日语NLP应用提供了有力支持。

distiluse-base-multilingual-cased - 多语言句子嵌入模型支持语义搜索和文本相似度分析

Huggingface模型Github开源项目sentence-transformers向量嵌入多语言模型语义搜索句子相似度

distiluse-base-multilingual-cased是基于sentence-transformers的多语言句子嵌入模型，将句子和段落映射至512维向量空间。该模型支持多语言处理，适用于聚类、语义搜索和跨语言文本相似度分析。它提供高质量的句子嵌入，并可通过简洁的Python代码实现句子编码，为自然语言处理任务提供有力支持。

codegen-350M-multi - 支持多种编程语言的程序合成模型

训练数据行业应用CodeGen开源项目模型Huggingface多语言模型Github程序合成

CodeGen-Multi 350M是一种程序合成模型，旨在生成可执行代码。其预训练数据来自GitHub的多语言代码库，包括C、C++、Go、Java、JavaScript和Python等。模型具备350M个参数，可以高效生成和补全代码。适用于HumanEval和MTPB等基准测试，为程序合成任务提供了良好的支持。

distilbert-base-multilingual-cased-ner-hrl - DistilBERT微调的10语种命名实体识别模型

模型Github多语言模型开源项目HuggingfaceHugging Face命名实体识别自然语言处理DistilBERT

这是一个基于DistilBERT微调的多语言命名实体识别模型，支持10种高资源语言。模型能够识别位置、组织和人名实体，适用于阿拉伯语、德语、英语等多种语言。它使用各语言的标准数据集训练，可通过Transformers库轻松调用。尽管在多语言NER任务中表现优秀，但在特定领域应用时可能存在局限性。

suzume-llama-3-8B-multilingual-orpo-borda-half - 多语言性能优化，基于lightblue模型的ORPO改进

评估结果数据集开源项目模型GithubHuggingface多语言模型模型优化Suzume ORPO

该项目通过ORPO方法对lightblue基础模型进行微调，提升多种语言的自然语言处理能力。模型优化使用了lightblue/mitsu数据集的重要响应。在MT-Bench测试中，这些ORPO模型比基础模型在多个语言中表现更好，预计将来会有商用版本推出。

indic-bert - 专注印度12种语言的轻量级ALBERT预训练模型

IndicBERT多语言模型开源项目预训练模型Github模型自然语言处理Huggingface印度语言

IndicBERT是一个基于ALBERT架构的多语言预训练模型，支持包括印地语、泰米尔语在内的12种印度主要语言。模型使用90亿规模的语料库训练，具有参数量小、性能优异的特点。在多项NLP评估任务中，其表现优于或持平于mBERT、XLM-R等主流多语言模型。

gliner_multi-v2.1 - 多语言命名实体识别模型兼顾灵活性与资源效率

多语言模型Huggingface开源项目模型Github机器学习GLiNER自然语言处理命名实体识别

GLiNER是一种基于双向Transformer编码器的多语言命名实体识别模型，能够识别任意类型的实体。与传统NER模型和大型语言模型相比，GLiNER在保持性能的同时提高了资源效率。该模型提供多个版本，参数量介于166M至459M之间，支持英语和多语言处理，并采用Apache-2.0开源许可。GLiNER为资源受限的应用场景提供了一个实用的NER解决方案。

相关文章

Article Cover

FastEmbed: 快速、准确、轻量级的Python嵌入式向量生成库

Article Cover

WhisperLive: 实时语音转文字的革新之作

Article Cover

XPhoneBERT: 突破性的多语言语音合成预训练模型

Article Cover

CodeGeeX4: 开源多语言代码生成模型的新突破

Article Cover

SimAlign: 基于预训练语言模型的高质量词对齐技术

Article Cover

mGPT: 突破语言障碍的多语言生成预训练模型

Article Cover

FastEmbed学习资料汇总 - 快速、准确、轻量级的Python嵌入生成库

Article Cover

WhisperLive学习资料汇总 - 实时语音转文本的开源项目

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号