#多语言模型

fastembed - 轻量且高速的Python文本嵌入式生成库,面向多模态支持
FastEmbed文本嵌入QdrantONNX Runtime多语言模型Github开源项目
FastEmbed,一个为速度和效率优化的Python库,支持多语言且易于扩展的嵌入式模型生成工具,适用于服务器和GPU环境。简化高效编码,无需依赖庞大的数据下载,适用于多种数据类型和复杂任务,是开发精确嵌入系统的理想工具。
WhisperLive - 基于OpenAI Whisper模型开发的实时音频转写应用
WhisperLive实时语音识别OpenAI Whisper多语言模型TensorRTGithub开源项目
WhisperLive是基于OpenAI Whisper模型开发的实时音频转写应用,能高效地将直播或预录音频转换成文本。支持多语言和自定义设置,适用于个人、教育及商业场景。项目还提供Docker部署,简化安装和服务部署过程。
XPhoneBERT - 多语言音素表示模型助力TTS性能提升
XPhoneBERT语音合成多语言模型音素表示预训练模型Github开源项目
XPhoneBERT是一种创新的多语言音素表示预训练模型,专为文本转语音(TTS)系统设计。基于BERT-base架构,该模型利用RoBERTa方法对近100种语言的3.3亿音素级句子进行训练。研究显示,将XPhoneBERT用作输入音素编码器能够显著增强神经TTS模型的自然度和韵律表现,同时在训练数据有限的情况下也能生成高质量语音。这一模型支持广泛的语言,并可通过transformers库便捷集成。
CodeGeeX4 - 开源多语言代码生成模型的新突破
CodeGeeX4代码生成多语言模型AI编程开源Github开源项目
CodeGeeX4-ALL-9B是一个基于GLM-4-9B训练的多语言代码生成模型。它提供代码补全、生成、解释等多项功能,并支持网络搜索、函数调用和仓库级代码问答。作为参数量低于10B的代码生成模型中性能最佳的一款,CodeGeeX4-ALL-9B在多个公开基准测试中表现优异,在某些方面甚至超越了参数量更大的通用模型,体现了其在推理速度和模型性能之间的出色平衡。
AssemblyAI - 语音AI技术平台 提供语音识别和深度分析服务
AI工具语音AIAssemblyAIUniversal-1语音转文本多语言模型
AssemblyAI是一个专业的语音AI技术平台,提供语音识别和理解服务。其功能包括语音转文本、说话人识别、情感分析、章节检测和个人信息编辑。该平台具有易集成、灵活定价、技术持续更新等特点,并提供全天候支持。AssemblyAI帮助企业利用语音数据开发创新AI产品。
simalign - 基于嵌入的多语言词对齐工具无需平行训练数据
SimAlign词语对齐自然语言处理上下文嵌入多语言模型Github开源项目
SimAlign是一种创新的词对齐工具,利用静态和上下文嵌入技术实现高质量对齐,无需平行训练数据。该工具支持ArgMax、IterMax和Match等多种对齐算法,覆盖104种语言。相较于传统统计模型,SimAlign在多个语言对的对齐任务中表现优异。工具基于Python开发,安装和使用便捷,并提供在线演示平台。SimAlign可应用于机器翻译、多语言模型训练等跨语言自然语言处理任务中。
mgpt - 支持61种语言的多语言生成式预训练模型
mGPT多语言模型预训练自然语言处理深度学习Github开源项目
mGPT是一个基于GPT-3的多语言模型,覆盖25个语系的61种语言。该模型使用维基百科和C4语料库进行预训练,包含低资源语言。mGPT在语言建模、跨语言自然语言理解和世界知识探测等方面表现出色,上下文学习能力与同期模型相当。项目代码和模型以MIT许可证开源。
paraphrase-multilingual-mpnet-base-v2 - 跨语言句子向量化模型支持聚类和语义检索
模型Github多语言模型开源项目文本嵌入Huggingface语义搜索sentence-transformers自然语言处理
paraphrase-multilingual-mpnet-base-v2是一个基于sentence-transformers的多语言句子嵌入模型,支持50多种语言。它将句子和段落映射为768维向量,适用于聚类和语义搜索。模型易于使用,通过pip安装即可快速集成。在Sentence Embeddings Benchmark上表现出色,采用XLMRobertaModel和平均池化层结构,可有效处理不同长度的文本输入。
llama-3.2-Korean-Bllossom-3B-GGUF - 韩英双语模型llama-3.2性能增强
指令微调多语言模型商业用途韩语BllossomGithub模型开源项目Huggingface
Bllossom团队推出的这是一个全新的韩英双语语言模型,旨在增强Meta-Llama-3.2-3B的韩语能力。通过150GB高质量韩语数据的调优,该模型在不影响英语表现的同时,对韩语支持进行了强化。在LogicKor测试中表现突出,并允许多种性能优化方法。该项目在AAAI2024等会议上获得了口头报告机会,旨在进一步推动韩语语言能力的提升。
byt5-xl - 基于原始字节的多语言自然语言处理模型
模型Github多语言模型开源项目Huggingface字节级处理Transformer架构自然语言处理ByT5
ByT5-xl是一种基于原始UTF-8字节的多语言预训练模型,无需使用分词器。该模型在mC4数据集上进行预训练,采用标准Transformer架构,在处理噪声文本数据方面表现出色。与传统基于token的模型相比,ByT5-xl在参数数量、训练效率和推理速度上保持竞争力,同时在拼写和发音敏感任务中展现出更优异的性能。这使得ByT5-xl成为多语言自然语言处理任务的有力工具。
sat-12l-sm - 先进的多语言文本句子分割模型
模型Github多语言模型开源项目Huggingface句子分割自然语言处理深度学习wtpsplit
sat-12l-sm是一个基于12层Transformer架构的句子分割模型,支持80种语言的文本分割。作为wtpsplit库的核心组件,它采用'Segment any Text'技术,为自然语言处理提供基础支持。该模型可用于提高文本分析和处理的准确性,适用于研究和开发领域。
Orion-14B-Base - 卓越的多语言处理和长文本理解能力
模型Github大语言模型模型评估Orion-14B模型下载Huggingface开源项目多语言模型
Orion-14B是OrionStarAI开发的开源多语言大语言模型系列。该系列在2.5T多语言语料上训练,包含基础模型、对话模型和长文本模型等多个版本。Orion-14B展现出卓越的多语言处理能力,尤其在中英日韩等语言上表现突出。此外,它还具备出色的长文本理解和高效的量化推理能力。在多项权威基准测试中,Orion-14B系列模型均展现出优异的综合性能。
sentence-transformers-multilingual-e5-large - 多语言句子嵌入模型适用于语义搜索和文本相似度分析
模型Github多语言模型开源项目Huggingface语义相似度嵌入向量sentence-transformers自然语言处理
sentence-transformers-multilingual-e5-large是一个多语言句子嵌入模型,将句子和段落映射到1024维向量空间。该模型基于sentence-transformers库构建,适用于聚类、语义搜索等任务。支持多语言处理,可通过Python代码轻松调用。模型在Sentence Embeddings Benchmark上进行了评估,为自然语言处理应用提供了有效的文本表示方法。
llmlingua-2-xlm-roberta-large-meetingbank - 高效的多语言提示压缩模型
模型LLMLingua-2Github效率优化提示压缩多语言模型Huggingface开源项目自然语言处理
LLMLingua-2-xlm-roberta-large-meetingbank是一个基于XLM-RoBERTa的多语言提示压缩模型。该模型通过对MeetingBank数据集进行微调,实现了高效且忠实的任务无关提示压缩。它能够在保留关键信息的同时显著缩短提示长度,适用于多种自然语言处理任务。该模型可以轻松集成,有助于优化大语言模型的输入,提高处理效率并降低运算成本。
mt5-base - 多语言预训练文本转换模型 覆盖101种语言的强大NLP工具
Huggingface模型机器学习预训练mT5Github开源项目自然语言处理多语言模型
mt5-base是Google开发的基于T5架构的多语言预训练模型,涵盖101种语言。该模型在mC4语料库上进行预训练,适用于多种跨语言NLP任务。使用时需针对特定任务进行微调。mt5-base在多语言基准测试中表现出色,为自然语言处理领域提供了有力支持。
bert-base-multilingual-cased-ner-hrl - 基于mBERT的多语言命名实体识别模型覆盖10种主要语言
bert-base-multilingual-cased模型命名实体识别GithubHugging Face多语言模型Huggingface开源项目自然语言处理
bert-base-multilingual-cased-ner-hrl是一个多语言命名实体识别模型,基于mBERT微调而来。该模型支持阿拉伯语、德语等10种主要语言,能够识别地点、组织和人名。模型通过聚合多语种新闻数据集训练,适用于广泛的NER任务,但在特定领域可能存在局限性。使用简单,可通过Transformers库快速部署。模型可通过Hugging Face的Transformers库轻松集成到各种NLP项目中,适用于多语言文本分析、信息提取等任务。然而,由于训练数据限制,在非新闻领域的表现可能需要进一步评估。
mt5-small - 跨101种语言的预训练文本转换模型
Huggingface模型机器学习mT5Github预训练模型开源项目自然语言处理多语言模型
mt5-small是一个基于T5架构的多语言预训练模型,涵盖101种语言。该模型在mC4数据集上预训练,可应用于多种自然语言处理任务。mt5-small为多语言NLP研究提供了坚实基础,但需要针对特定任务进行微调才能发挥其全部潜力。这个开源项目为跨语言AI应用开发提供了重要工具。
twitter-xlm-roberta-base-sentiment-finetunned - XLM-RoBERTa微调的多语言Twitter情感分析模型
模型模型微调多语言模型XLM-Roberta开源项目Huggingface情感分类Github文本分类
该模型是Citizen Lab团队基于XLM-RoBERTa架构微调的多语言Twitter情感分类器。支持英语、荷兰语、法语等10种语言,可准确识别文本的正面、负面和中性情感。模型在F1分数和准确率方面表现出色,使用简单,适用于多种社交媒体情感分析场景。
xlm-roberta-xl - 基于2.5TB数据训练的100语种自然语言处理模型
模型Github多语言模型预训练模型XLM-RoBERTa-XL开源项目Huggingface机器学习自然语言处理
XLM-RoBERTa-XL是基于2.5TB CommonCrawl数据训练的大规模多语言模型,支持100种语言的自然语言处理。该模型采用掩码语言建模进行自监督学习,适用于序列分类、标记分类和问答等需要理解整句上下文的任务。XLM-RoBERTa-XL为多语言NLP研究和应用提供了强大的基础,但不适合文本生成类任务。
opus-mt-mul-en - Transformer架构的多语种英语神经机器翻译模型
模型BLEU评分机器翻译Github语言对开源项目HuggingfaceOPUS多语言模型
opus-mt-mul-en是基于Transformer架构的多语种到英语神经机器翻译模型。该模型支持200多种语言翻译为英语,覆盖范围广泛。在多个标准测试集上表现优异,尤其擅长欧洲语言翻译。模型采用SentencePiece分词技术,能够处理低资源语言,是一款功能强大的通用多语言翻译工具。
mMiniLMv2-L12-H384-distilled-from-XLMR-Large - 轻量级多语言自然语言处理模型
MiniLMv2Huggingface模型机器学习GithubMicrosoft开源项目自然语言处理多语言模型
mMiniLMv2-L12-H384-distilled-from-XLMR-Large是一个基于Microsoft UniLM项目的多语言自然语言处理模型。该模型通过知识蒸馏技术从XLM-R大型模型中提取知识,在维持高性能的同时大幅缩小了模型体积。作为一个轻量级模型,它能够适应文本分类、问答系统和序列标注等多种NLP任务,尤其适合在计算资源有限的环境中使用。
xlm-roberta-base-ner-silvanus - 基于XLM-RoBERTa的多语言命名实体识别模型
模型命名实体识别XLM-RoBERTaGithub零样本迁移学习NERHuggingface开源项目多语言模型
该模型基于xlm-roberta-base在印尼NER数据集上微调而来,可从社交媒体文本中提取位置、日期和时间信息。虽然训练数据为印尼语,但通过零样本迁移学习,模型支持英语、西班牙语、意大利语和斯洛伐克语的信息提取。在验证集上,模型展现出91.89%的精确率、92.73%的召回率和92.31%的F1分数,显示了其在多语言命名实体识别任务中的有效性。
gliner_multi - 灵活识别多语言实体的开源NER模型
模型命名实体识别GithubGLiNER多语言模型开源项目Huggingface机器学习自然语言处理
GLiNER-multi是一个基于双向Transformer架构的开源多语言命名实体识别模型。它能够灵活识别各种实体类型,填补了传统NER模型与大型语言模型之间的空白。该模型在Pile-NER数据集上训练,支持多语言处理,易于集成到不同的自然语言处理应用中。GLiNER-multi在保证性能的同时优化了模型规模,适用于计算资源有限的场景。
IndicBERTv2-MLM-only - 支持23种印度语言和英语的大规模多语言预训练模型
模型Github多语言模型印度语言开源项目Huggingface机器学习IndicBERT自然语言处理
IndicBERTv2-MLM-only是一个支持23种印度语言和英语的大规模多语言预训练模型。该模型基于IndicCorp v2数据集训练,包含2.78亿参数,采用掩码语言模型(MLM)目标。在IndicXTREME基准测试中,模型展现出优秀的多语言和零样本迁移能力。作为印度语言自然语言处理的重要资源,IndicBERTv2-MLM-only有望推动相关研究,缩小印度语言在NLP领域的差距。
paraphrase-xlm-r-multilingual-v1 - 多语言句子嵌入模型 生成768维向量用于相似度计算
模型向量嵌入Github多语言模型开源项目Huggingface语义相似度sentence-transformers自然语言处理
这是一个基于sentence-transformers的多语言句子嵌入模型。该模型将句子和段落映射到768维向量空间,适用于聚类和语义搜索等任务。模型支持多语言输入,可通过简单的Python代码调用。它基于XLM-RoBERTa架构,采用平均池化方法生成句子嵌入。模型性能可在Sentence Embeddings Benchmark网站查看评估结果。
IndicNER - 面向11种印度语言的多语言命名实体识别模型
模型IndicNERGithub多语言模型印度语言开源项目Huggingface命名实体识别自然语言处理
IndicNER是一个针对11种印度语言开发的命名实体识别模型。该模型通过数百万句子的微调训练,并在人工标注测试集和多个公开数据集上进行了性能评估。IndicNER支持阿萨姆语、孟加拉语、古吉拉特语等多种印度语言,能够有效识别句子中的命名实体。作为一个基于最新深度学习技术的工具,IndicNER为印度语言的自然语言处理研究和应用提供了有力支持。
mrebel-large - 基于序列到序列学习的多语言关系抽取模型
模型Github多语言模型开源项目HuggingfaceREBEL序列到序列学习关系抽取自然语言处理
mREBEL-large模型是基于REBEL架构的多语言关系抽取工具,支持18种语言。它将关系抽取重新定义为序列到序列任务,可作为独立系统使用或作为预训练模型进行微调。该模型在RED^{FM}数据集上训练,擅长从文本中提取实体关系三元组,为多语言自然语言处理领域提供了实用的解决方案。
CLIP-ViT-H-14-frozen-xlm-roberta-large-laion5B-s13B-b90k - CLIP架构多语言视觉语言模型实现高效零样本图像分类与检索
LAION-5B零样本学习图像分类Huggingface模型Github开源项目CLIP多语言模型
这是一个基于CLIP架构的多语言视觉语言模型,在LAION-5B数据集上训练。模型结合了冻结的ViT-H/14视觉结构和XLM-RoBERTa大型文本模型,在多语言零样本图像分类和检索任务中表现优异。适用于零样本图像分类、图文检索等应用,也支持下游任务微调。该模型在英语及其他语言中均展现出强大性能,为跨语言视觉AI应用提供了有力支持。
ClinicalNER - 多语言临床命名实体识别模型 提取医疗文本中的药物和用药信息
MedNERFGithub开源项目多语言模型临床命名实体识别医疗文本分析Huggingface模型XLM-R
ClinicalNER是一个基于XLM-R Base的多语言临床命名实体识别模型,通过英语n2c2数据集微调。该模型能从医疗文本中提取药物、剂量、频率、持续时间、用量和剂型等实体信息。在法语评估测试集MedNERF上,ClinicalNER展现了优异的零样本跨语言迁移能力,micro-F1分数达0.804。支持英、法、德、西、意等多种语言,ClinicalNER为临床文本分析提供了实用的工具。
mDeBERTa-v3-base-finetuned-nli-jnli - 基于多语言NLI和JGLUE数据集微调的日语NLP模型
Huggingface零样本分类模型Github开源项目mDeBERTa-v3微调多语言模型自然语言推理
该模型基于微软mdeberta-v3-base在多语言NLI和JGLUE数据集上微调而来。它支持日语零样本文本分类和跨语言自然语言推理任务,在评估集上达到68.08%准确率和67.42% F1分数。模型可应用于日语主题分类、跨语言蕴含关系判断等自然语言处理任务,为日语NLP应用提供了有力支持。
distiluse-base-multilingual-cased - 多语言句子嵌入模型支持语义搜索和文本相似度分析
Huggingface模型Github开源项目sentence-transformers向量嵌入多语言模型语义搜索句子相似度
distiluse-base-multilingual-cased是基于sentence-transformers的多语言句子嵌入模型,将句子和段落映射至512维向量空间。该模型支持多语言处理,适用于聚类、语义搜索和跨语言文本相似度分析。它提供高质量的句子嵌入,并可通过简洁的Python代码实现句子编码,为自然语言处理任务提供有力支持。
codegen-350M-multi - 支持多种编程语言的程序合成模型
训练数据行业应用CodeGen开源项目模型Huggingface多语言模型Github程序合成
CodeGen-Multi 350M是一种程序合成模型,旨在生成可执行代码。其预训练数据来自GitHub的多语言代码库,包括C、C++、Go、Java、JavaScript和Python等。模型具备350M个参数,可以高效生成和补全代码。适用于HumanEval和MTPB等基准测试,为程序合成任务提供了良好的支持。
distilbert-base-multilingual-cased-ner-hrl - DistilBERT微调的10语种命名实体识别模型
模型Github多语言模型开源项目HuggingfaceHugging Face命名实体识别自然语言处理DistilBERT
这是一个基于DistilBERT微调的多语言命名实体识别模型,支持10种高资源语言。模型能够识别位置、组织和人名实体,适用于阿拉伯语、德语、英语等多种语言。它使用各语言的标准数据集训练,可通过Transformers库轻松调用。尽管在多语言NER任务中表现优秀,但在特定领域应用时可能存在局限性。
suzume-llama-3-8B-multilingual-orpo-borda-half - 多语言性能优化,基于lightblue模型的ORPO改进
评估结果数据集开源项目模型GithubHuggingface多语言模型模型优化Suzume ORPO
该项目通过ORPO方法对lightblue基础模型进行微调,提升多种语言的自然语言处理能力。模型优化使用了lightblue/mitsu数据集的重要响应。在MT-Bench测试中,这些ORPO模型比基础模型在多个语言中表现更好,预计将来会有商用版本推出。
indic-bert - 专注印度12种语言的轻量级ALBERT预训练模型
IndicBERT多语言模型开源项目预训练模型Github模型自然语言处理Huggingface印度语言
IndicBERT是一个基于ALBERT架构的多语言预训练模型,支持包括印地语、泰米尔语在内的12种印度主要语言。模型使用90亿规模的语料库训练,具有参数量小、性能优异的特点。在多项NLP评估任务中,其表现优于或持平于mBERT、XLM-R等主流多语言模型。
gliner_multi-v2.1 - 多语言命名实体识别模型兼顾灵活性与资源效率
多语言模型Huggingface开源项目模型Github机器学习GLiNER自然语言处理命名实体识别
GLiNER是一种基于双向Transformer编码器的多语言命名实体识别模型,能够识别任意类型的实体。与传统NER模型和大型语言模型相比,GLiNER在保持性能的同时提高了资源效率。该模型提供多个版本,参数量介于166M至459M之间,支持英语和多语言处理,并采用Apache-2.0开源许可。GLiNER为资源受限的应用场景提供了一个实用的NER解决方案。