#多语言
hatespeechdata - 多语言仇恨言论数据集汇总与研究资源
Github开源项目多语言数据集社交媒体仇恨言论在线辱骂
该项目汇集了涵盖多种语言的仇恨言论、在线辱骂和攻击性语言数据集。收录内容包括来自不同平台的文本、图像和音频数据。项目旨在为自然语言处理系统提供训练资源,以提升有害内容检测能力。此外,项目还提供关键词列表和贡献指南,为研究人员和开发者改进在线内容审核和仇恨言论检测技术提供支持。
Opus-MT - 多语言神经机器翻译的开源框架
Github开源项目开源多语言机器翻译OPUS-MTMarian-NMT
Opus-MT是一个开源的神经机器翻译项目,基于Marian-NMT框架开发。该项目利用OPUS数据集训练模型,结合SentencePiece分词和eflomal词对齐技术,提供多语言翻译功能。Opus-MT支持基于Tornado的Web应用和WebSocket服务两种部署方式,并提供大量预训练模型供用户下载。在Tiyaro.ai平台上,Opus-MT部署了543个在线演示API,方便用户体验。这个项目致力于为全球用户提供开放、便捷的翻译服务。
retvec - 多语言文本向量化的高效解决方案
Github开源项目TensorFlow多语言文本向量化RETVec对抗性弹性
RETVec是一种创新的文本向量化工具,为高效处理多语言文本而开发。它具有内置的抗干扰能力,可应对各种字符级修改。该工具支持超过100种语言,无需额外的词汇表。RETVec作为一个轻量级组件,可无缝集成到TensorFlow模型中。它同时提供TensorFlow Lite和JavaScript版本,适用于移动设备和网页应用。RETVec在提升模型稳定性的同时,保证了计算效率,是文本处理任务的理想选择。
aos-AVP - 功能丰富的Android开源视频播放器
Github开源项目开源多语言视频播放器安卓NOVA
NOVA是一款功能丰富的Android开源视频播放器。它支持多种视频格式,具备媒体库和文件管理功能。NOVA界面直观,提供字幕和音轨切换等高级特性。该项目持续更新,不断增加新功能,并支持多种语言。用户可通过Google Play、F-Droid等渠道安装。NOVA作为开源项目,为Android视频播放提供了多样化的选择。
instruction-datasets - 大语言模型指令微调数据集汇总
Github开源项目大语言模型多语言数据集NLPInstruction Tuning
该项目整理了大语言模型指令微调所需的多种数据集,包括金标准、银标准/LM生成和偏好数据集。内容涵盖多语言和多模态任务,提供指令-响应对和人类偏好评分等资源。这些数据集有助于提升模型的指令跟随、对话和任务执行能力,为NLP研究和开发提供重要参考。
nllb-serve - 开源多语言翻译服务器与API实现
人工智能Github开源项目多语言REST API机器翻译NLLB
nllb-serve是一个开源项目,为Meta的NLLB翻译模型提供web界面和REST API。该项目支持200种语言间的翻译,具有便捷的部署流程。它提供服务器配置、命令行工具、API文档和批量翻译功能,支持GPU加速和自定义模型,适用于需要大规模多语言翻译能力的场景。
Bible-Database - 开源多语言圣经数据库 支持SQL XML JSON格式
Github开源项目多语言SQLJSON开发者资源Bible Database
Bible-Database是一个开源项目,提供18种语言的圣经数据库资源,包括SQL、XML和JSON格式。支持的语言有英语、马拉雅拉姆语、印地语等。项目提供详细使用说明和示例代码,方便开发者快速集成到圣经应用中。该数据库支持按书卷、章节和经文进行查询,欢迎开发者贡献改进。
document - GitHub镜像服务FastGit提升开发效率
Github开源项目GitHub多语言文档VuePressFastGit
FastGit为开发者提供GitHub镜像服务,支持英语、意大利语和中文。项目通过VuePress将Markdown转换为易于导航的文档网站,旨在优化开发流程。FastGit能帮助全球开发者更快速地访问GitHub资源,提高工作效率。
aya-23-35B - 高性能多语言大模型指令微调指南
Github开源项目开源大语言模型多语言模型HuggingfaceCohereAya 23
Aya 23是具备多语言支持的指令微调大规模语言模型,提供开放权重以供研究者使用。此模型结合了Command系列的预训练模型及新发布的Aya Collection,涵盖23种语言,包括中文和英语等。Aya 23 (35B)采用优化的自回归语言模型架构,通过人类指令微调,以支持高质量文本生成。研究者可以在Cohere和Hugging Face体验此模型,适用于多语言任务需求。模型使用CC-BY-NC许可,支持全球研究者的共同使用和研究。
upos-multi - 多语言支持的高效词性标注模型
Github开源项目Python模型训练多语言模型HuggingfaceFlair词性标注
Flair提供的默认多语言词性标注模型支持12种语言,F1评分达到96.87%。基于Flair embeddings和LSTM-CRF构建,可以通过pip安装整合至应用中,并使用Flair脚本进行自定义训练,提升文本分析能力。适用于广泛的自然语言处理任务,为多语言内容的词性识别提供准确支持。
t5_translate_en_ru_zh_small_1024 - 多语言T5机器翻译模型,支持中、俄、英文翻译
Github开源项目多语言翻译模型Huggingface机器翻译T5同步翻译
该项目基于T5模型实现多语言翻译,支持中、俄、英语言的直接转换。输入文本前添加目标语言标识符即可进行翻译,无需指定源语言,能处理多语言内容。模型兼容GPU和CPU运行,提供个性化翻译体验。
Dubly.AI - 为企业提供28种语言视频翻译的解决方案
多语言AI技术AI工具视频翻译全球化Dubly.AI
Dubly.AI是一款视频翻译工具,支持28种语言,保留语音特色,帮助企业降低传播成本。平台提供个性化翻译和全天候支持,翻译过程简单流畅,用户可通过免费试用快速上传视频进行翻译。
bge-reranker-v2.5-gemma2-lightweight - 多语言轻量级模型提供高效排序和相似度评估
Github开源项目多语言模型Huggingface压缩比轻量化性能表现bge-reranker-v2.5-gemma2-lightweight
该多语言轻量级排序模型通过词元压缩和逐层优化,节省资源同时维持高性能。根据使用场景和资源限制,用户可灵活选择模型的压缩比例和输出层次,实现高效推理。项目已在BEIR和MIRACL上达到新SOTA性能,技术细节报告将于稍后发布。
bert-base-multilingual-cased-pos-english - BERT多语言模型优化后的英文词性标注应用
Github开源项目多语言BERT模型transformersHuggingface词性标注Penn TreeBank
该模型为多语言BERT,经过特别优化用于英语的词性标注,基于Penn TreeBank训练,达成96.69的F1得分。使用者可以通过transformers管道快速应用此模型,并结合AutoTokenizer和AutoModelForTokenClassification进行高效处理。该模型已在NAACL'22大会的研究成果中使用,适合于高需求精度的词性标注任务,尤其在专业和学术领域。描述中应注重客观性,避免主观夸大。
Meta-Llama-3.1-8B-Instruct - Meta发布8B参数多语言模型用于对话和文本生成
人工智能Github开源项目大语言模型自然语言处理多语言模型HuggingfaceMeta
Meta-Llama-3.1-8B-Instruct是一款支持8种语言的大规模语言模型,参数规模为8B。该模型采用优化的Transformer架构并经过指令微调,可用于对话和多种自然语言生成任务。模型具有128k的上下文长度,支持商业和研究用途,在多项行业基准测试中表现出色。
faster-whisper-medium - 多语言语音识别与转录的高效开源解决方案
Github开源项目多语言WhisperCTranslate2模型模型转换Huggingface自动语音识别
该项目是基于OpenAI Whisper medium模型转换而来的CTranslate2格式模型,为faster-whisper项目提供支持。支持90多种语言的语音识别和转录功能,性能优异且准确度高。用户可通过faster-whisper轻松实现音频文件的高效转录,获取精确的时间戳和文本输出。模型采用float16量化,计算类型可根据需求灵活调整,适用于多种语音识别应用场景。
Mistral-Nemo-Instruct-2407-vllm-fp8 - 开源多语言指令微调大模型
Github开源项目大语言模型多语言模型Huggingface指令微调Mistral-Nemo-Instruct-2407Apache 2许可
Mistral-Nemo-Instruct-2407是Mistral AI与NVIDIA联合开发的开源指令微调语言模型。该模型在128K上下文窗口训练,支持多语言和代码生成,性能优于同等规模模型。采用Apache 2许可,可替代Mistral 7B使用。模型在多项基准测试中表现出色,支持mistral_inference、transformers和NeMo等框架进行推理。
multilingual-e5-large-instruct - 支持100+语言的多语言大规模指令型自然语言处理模型
Github开源项目多语言模型分类模型评估HuggingfaceMTEB检索
multilingual-e5-large-instruct是一个多语言大规模指令型语言模型,支持100多种语言的文本处理。该模型在MTEB基准测试的分类、检索、聚类等任务中表现优秀,展现了优异的跨语言能力。它可应用于多语言文本嵌入、语义搜索、文本分类等场景,为自然语言处理提供了实用的多语言解决方案。
bge-multilingual-gemma2 - 基于Gemma 2架构的多语言文本嵌入模型
Github开源项目多语言模型Huggingface评估指标MTEB句子相似度检索
bge-multilingual-gemma2是基于Gemma 2架构开发的多语言文本嵌入模型。该模型在MTEB NFCorpus、MSMARCO、FiQA2018等多个检索任务数据集上表现优异。它能有效处理多语言文本并生成高质量语义表示,适用于信息检索、句子相似度计算等自然语言处理任务。在MTEB FEVER数据集上,该模型的主要评分达90.38,展现出较强的检索能力。
Llama-3.2-3B - Meta推出Llama 3.2多语言大型语言模型系列
人工智能Github开源项目大语言模型多语言模型HuggingfaceMetaLlama 3.2
Llama-3.2-3B是Meta开发的多语言大型语言模型,支持8种语言,包括英语和德语。模型采用优化的Transformer架构,通过监督微调和人类反馈强化学习训练而成。它可用于对话、知识检索和摘要等任务,具有128K的上下文长度,并使用分组查询注意力机制提高推理效率。Llama-3.2-3B适用于商业和研究用途,可进一步微调以适应各种自然语言生成任务。模型遵循Llama 3.2社区许可协议。
text2vec-base-multilingual - 多语言文本嵌入与分类模型
Github开源项目自然语言处理多语言模型Huggingface文本分类sentence-transformers聚类
text2vec-base-multilingual是一个多语言文本嵌入和分类模型,支持中文、英文、德文等语言。该模型在句子相似度、文本分类等任务中表现良好,适用于多种自然语言处理应用。在MTEB基准测试中,它展示了跨语言处理能力,可用于多语言文本数据分析。
51-languages-classifier - 多语言文本分类模型可精准识别51种语言
Github开源项目多语言模型分类Huggingface语言识别XLM-RobertaMASSIVE
该项目开发了一个基于XLM-Roberta的51语言分类器,能够精确区分51种不同语言的文本。模型使用MASSIVE数据集进行训练,该数据集包含超过100万条多语言话语样本。在评估中,模型在大多数语言上的F1分数均超过0.98,展现出优异的性能。研究人员和开发者可通过Hugging Face Transformers库轻松集成和使用这一多语言分类模型。
Meta-Llama-3.1-8B-Instruct-GGUF - 高性能量化模型支持多语言文本生成
Github开源项目文本生成大语言模型多语言模型HuggingfaceGGUFMeta-Llama-3.1
Meta-Llama-3.1-8B-Instruct模型的GGUF格式文件集支持高效推理和多语言文本生成。GGUF是llama.cpp团队推出的新格式,替代了原有的GGML。该模型适用于英语、德语、法语等8种语言的助手式对话和自然语言生成任务。项目还介绍了多种支持GGUF的客户端和库,为用户提供了灵活的使用选择。
bloom-560m - BigScience推出5.6亿参数多语言语言模型
Github开源项目开源多语言语言模型模型Huggingface大规模BLOOM
Bloom-560m是BigScience开发的多语言开源语言模型,支持45种自然语言和12种编程语言。该模型拥有5.6亿参数,采用改进的Megatron-LM GPT2架构,可用于文本生成、信息提取、问答等任务。Bloom-560m使用Jean Zay超级计算机训练,旨在推动语言模型研究。项目遵循RAIL许可证,限制高风险使用,强调负责任AI开发。
suzume-llama-3-8B-multilingual-orpo-borda-top25 - 提升多语言模型性能的ORPO微调方法
Github开源项目多语言模型Huggingface模型性能训练数据商业用途Suzume ORPO
Suzume ORPO使用ORPO技术优化模型性能,特别加强了多种语言的处理能力,是语言模型研究的前沿选择。非商业许可适合学术研究,商业应用版本正在开发中。
SeaLLMs-v3-7B-Chat - 多语言大语言模型,专注提升东南亚文化信任与对话安全性
Github开源项目大语言模型多语言模型Huggingface安全性东南亚SeaLLMs
SeaLLMs-v3-7B-Chat是针对东南亚多语言优化的大型语言模型,具备先进的数学推理和翻译功能。经过精细调优,它能够有效减少幻觉现象,提升安全性,特别适合处理涉及文化背景的查询。该模型支持多种东南亚语言,便于在各类应用中实现可靠表现。经评估显示,该模型在多项任务上表现出色,适用于需要精确计算的场合。
llama3-8b-cpt-sea-lionv2.1-instruct - 细调提升东南亚多语言模型的指令执行与交互表现
Github开源项目多语言模型模型评估Huggingface指令微调Llama3东南亚
Llama3 8B SEA-Lionv2.1 Instruct是一种为东南亚设计的多语言大模型,支持英语、印尼语、泰语、越南语等。与前版本相比,模型在指令执行和交互能力上有显著提升。经过细致的指令调整,模型引入本地化和翻译处理以保证数据适用性与自然性。模型可通过Huggingface访问,需指定Transformers库版本,并注意模型安全性未经特别调校。参与项目改进可通过GitHub。
mbart-large-50-one-to-many-mmt - 多语言机器翻译工具,支持从英语到49种语言的转换
Github开源项目神经网络多语言模型翻译模型Huggingface机器翻译mBART-50
模型基于mBART-large-50,专注于多语言机器翻译任务。其为英语翻译至49种语言提供支持,包括中文、西班牙语、法语等,翻译过程中会强制目标语言ID为首个生成标记。适用于处理大量跨语言文本的场景,提升翻译灵活性与多样性。
Llama-3.1-70B - Meta Llama 3.1 突破性多语言大模型 支持128K上下文
人工智能Github开源项目大语言模型自然语言处理多语言模型HuggingfaceMeta
Llama 3.1是Meta推出的最新多语言大型语言模型系列,包含8B、70B和405B三种参数规模。模型采用优化的Transformer架构并经指令微调,在多语言对话场景中表现卓越。Llama 3.1具备128K上下文窗口,能够生成文本和代码,广泛适用于商业和研究领域。在众多行业基准测试中,Llama 3.1展现出优异性能,超越了大量主流开源和专有对话模型。
bark - 先进的多语言文本转语音和音频生成AI模型
人工智能Github开源项目文本转语音多语言音频生成模型HuggingfaceBark
Bark是Suno开发的基于transformer的文本转音频AI模型,能生成逼真的多语言语音、音乐、背景音和简单音效,还可模拟笑声、叹息等非语言交流。该模型提供预训练检查点供研究使用,输出未经审查。研究人员可通过Transformers或原始Bark库在本地运行,灵活易用。Bark代表了文本转语音技术的重要进展,为相关研究和应用提供了新的可能性。
xlm-roberta_punctuation_fullstop_truecase - XLM-RoBERTa模型实现47种语言的标点恢复和句子分割
Github开源项目多语言模型Huggingface标点符号大小写转换句子边界检测XLM-RoBERTa
该模型基于XLM-RoBERTa架构,能够在47种语言中自动恢复标点符号、调整大小写和检测句子边界。通过创新的神经网络设计,无需语言特定路径即可处理多种语言文本。模型支持批量处理,可通过punctuators包或直接使用ONNX和SentencePiece模型进行部署,为多语言文本处理提供了灵活高效的解决方案。
nllb-200-distilled-1.3B - NLLB-200蒸馏模型实现200种语言间高效翻译
Github开源项目多语言模型Huggingface机器翻译低资源语言NLLB-200研究模型
nllb-200-distilled-1.3B是一个蒸馏自NLLB-200的1.3B参数多语言翻译模型,支持200种语言间的翻译。该模型专注于低资源语言的机器翻译研究,在Flores-200数据集上经过BLEU、spBLEU和chrF++等指标评估。它主要用于单句翻译,不适合特定领域文本或长文档。研究人员可通过Fairseq代码库获取使用指南和训练代码。模型仅供研究使用,不适合生产环境部署。
Meta-Llama-3.1-8B-Instruct-GGUF - Llama 3.1 8B多语言AI模型 具备128K上下文处理能力
Github开源项目开源大语言模型多语言模型Llama 3.1HuggingfaceMeta
Meta-Llama-3.1-8B-Instruct-GGUF是Llama 3系列的最新版本,在多语言处理方面性能优异。该模型具有128K上下文窗口,经过15T token训练,包含2500万合成样本。作为开源领域的先进模型,它适用于广泛的AI任务。LM Studio用户可通过'Llama 3'预设轻松应用这一模型。
Llama-3.1-SauerkrautLM-8b-Instruct - Spectrum微调的德英双语Llama模型
人工智能Github开源项目多语言语言模型模型HuggingfaceLlama-3.1Spectrum微调
Llama-3.1-SauerkrautLM-8b-Instruct是基于Meta-Llama-3.1-8B-Instruct的微调模型,采用Spectrum技术优化25%的层,显著提升德英语能力。该模型在多项基准测试中表现优异,展示了高效微调大型语言模型的潜力,适用于各种需要德英双语能力的应用场景。
Qwen-1_8B-Chat - 18亿参数规模的高性能大语言模型
Github开源项目大语言模型多语言模型Huggingface系统指令低成本部署Qwen-1.8B-Chat
Qwen-1.8B-Chat是阿里云开发的18亿参数规模大语言模型,支持8192上下文长度。该模型采用大规模高质量语料训练,在多项中英文评测中表现优异。其15万词表规模有利于多语言处理。模型支持低成本部署,并可通过系统指令实现多样化功能。Qwen-1.8B-Chat在同等规模模型中展现出较强的综合能力。
flan-t5-xl - 基于指令微调的多语言NLP模型
Github开源项目大语言模型自然语言处理多语言模型Huggingface指令微调FLAN-T5
FLAN-T5-XL是基于T5架构的大规模语言模型,经过1000多个任务的指令微调。该模型支持多语言处理,在翻译、问答和逻辑推理等任务中表现优异。它在少样本学习方面的能力出众,可与更大模型相媲美。FLAN-T5-XL为研究人员提供了探索零样本和少样本NLP任务的强大工具,同时有助于推进语言模型的公平性和安全性研究。
相关文章
深入探索TTS:一个强大的深度学习文本转语音工具包
3 个月前
FlagEmbedding: 先进的文本嵌入和检索增强大语言模型框架
3 个月前
ChatGPT UI: 一个功能强大的多用户多语言ChatGPT网页客户端
3 个月前
YourTTS: 零样本多说话人文本转语音与语音转换技术的突破
3 个月前
开放语音语料库 - 语音技术的宝库
3 个月前
Crystal: 多语言TTS合成引擎的统一框架
3 个月前
LongBench: 一个双语多任务的长文本理解基准测试
3 个月前
SkyCode-AI-CodeX-GPT3: 奇点智源推出的多语言开源编程大模型
3 个月前
MeloTTS: 高质量多语言文本转语音技术的新突破
3 个月前