#阿拉伯语
wav2vec2-large-xlsr-53-arabic - XLSR-53模型在阿拉伯语语音识别中的应用与性能
模型阿拉伯语Common VoiceGithubXLSR-53自动语音识别开源项目HuggingfaceWav2Vec2
该项目基于Facebook的wav2vec2-large-xlsr-53模型,通过阿拉伯语语音数据微调,开发了一个高性能的阿拉伯语语音识别模型。在Common Voice测试集上,模型实现了39.59%的词错误率和18.18%的字符错误率,表现优于同类模型。模型支持16kHz采样率的语音输入,可直接用于阿拉伯语语音转录,无需额外语言模型。项目详细介绍了使用方法和评估结果,为阿拉伯语语音识别研究提供了有价值的参考。
bert-base-arabic - 阿拉伯语BERT基础模型为自然语言处理提供强大支持
Huggingface模型机器学习BERTGithub预训练模型开源项目自然语言处理阿拉伯语
bert-base-arabic是一个在95GB阿拉伯语文本上预训练的BERT基础语言模型。该模型包含OSCAR和维基百科的阿拉伯语数据,支持现代标准阿拉伯语和部分方言。它适用于多种自然语言处理任务,可通过Hugging Face的transformers库轻松调用。这一模型为阿拉伯语NLP研究和应用提供了有力支持,推动了相关领域的发展。
bert-base-arabic-camelbert-mix-ner - 基于CAMeLBERT Mix的阿拉伯语命名实体识别模型
模型Github预训练模型开源项目CAMeLBERT-MixHuggingface命名实体识别自然语言处理阿拉伯语
这是一个基于CAMeLBERT Mix模型微调的阿拉伯语命名实体识别模型。该模型使用ANERcorp数据集进行训练,能够识别阿拉伯语文本中的地点等命名实体。用户可通过CAMeL Tools或Transformers pipeline轻松调用。模型在多项自然语言处理任务中表现优异,尤其适合处理现代标准阿拉伯语文本。
bert-base-arabertv02 - AraBERT:用于阿拉伯语理解的高性能预训练模型
模型BERTGithub开源项目Huggingface预训练语言模型自然语言处理阿拉伯语AraBERT
AraBERT是一系列基于BERT架构的阿拉伯语预训练语言模型。其中bert-base-arabertv02版本使用了77GB的大规模语料库进行训练,包含200M句子和8.6B词。这些模型在情感分析、命名实体识别和问答等多项任务中表现出色。AraBERT提供多个版本,包括base和large尺寸,以及预分割和未分割文本的变体,以满足不同应用需求。模型的优化和多样化为阿拉伯语自然语言处理研究和应用提供了有力支持。
opus-mt-en-ar - 英语到阿拉伯语的开源神经机器翻译模型
模型Tatoeba阿拉伯语机器翻译Github英语开源项目HuggingfaceOPUS
opus-mt-en-ar是Helsinki-NLP团队开发的英语到阿拉伯语翻译模型。这个基于Transformer的模型支持包括现代标准阿拉伯语在内的多种阿拉伯语变体,使用SentencePiece进行分词,并要求输入特定的语言标记。在Tatoeba测试集上,模型获得了14.0的BLEU分数和0.437的chrF值,显示了其在英阿翻译任务上的性能。
jais-adapted-13b-chat - 基于Llama-2的双语英阿大规模语言模型
Jais开源项目阿拉伯语Huggingface模型英语大语言模型人工智能Github
jais-adapted-13b-chat是一个基于Llama-2的双语英阿大规模语言模型。它通过添加32,000个阿拉伯语词元进行预训练适配,显著提升了计算效率。该模型在1.6万亿个阿拉伯语、英语和代码数据上训练,并经过指令微调支持对话功能。凭借出色的阿拉伯语和英语能力,该模型可广泛应用于各类自然语言处理任务。
bert-base-arabic-camelbert-mix-sentiment - CAMeLBERT微调的阿拉伯语情感分析模型
模型情感分析Github开源项目Huggingface预训练语言模型CAMeLBERT Mix SA自然语言处理阿拉伯语
这是一个基于CAMeLBERT Mix模型微调的阿拉伯语情感分析模型。该模型使用ASTD、ArSAS和SemEval数据集进行微调,可通过CAMeL Tools或Transformers pipeline使用。模型能准确分析阿拉伯语句子的情感倾向,对正面和负面情感均有良好识别效果。研究还探讨了语言变体、数据规模和微调任务类型对阿拉伯语预训练语言模型的影响,为该领域提供了有价值的见解。
arabic-ner - 阿拉伯语BERT命名实体识别模型支持九大类型
模型阿拉伯语命名实体识别BERTGithubHugging FaceHuggingface开源项目自然语言处理
该阿拉伯语命名实体识别模型基于BERT预训练,可识别9种实体类型,包括人名、组织、地点等。模型使用37.8万标记的语料训练,在3万标记验证集上F1分数达87%。项目提供完整示例,适用于多种阿拉伯语自然语言处理任务。
bert-base-arabic-camelbert-da-sentiment - CAMeLBERT-DA阿拉伯语情感分析模型
预训练语言模型模型阿拉伯语CAMeLBERT-DA情感分析GithubHuggingface开源项目自然语言处理
CAMeLBERT-DA情感分析模型是基于阿拉伯方言预训练模型微调而成。该模型利用ASTD、ArSAS和SemEval数据集进行了fine-tuning,可通过CAMeL Tools或transformers pipeline轻松集成使用。模型支持对阿拉伯语文本进行积极和消极的二分类情感分析。这一成果对研究阿拉伯语言模型的变体、规模和任务类型之间的相互作用具有重要意义。
Ruqiya_-_Merge-Gemma-2b-it-with-a-Fine-Tuned-one-for-Arabic-gguf - 通过量化技术增强阿拉伯语模型的表现力
Huggingface阿拉伯语fine-tuning量化开源项目模型Merge-Gemma-2b-it-with-a-Fine-Tuned-one-for-Arabic模型合并Github
项目旨在通过融合与微调Merge-Gemma-2b-it模型,提升阿拉伯语语言模型的精确性。借助LazyMergekit工具,将Ruqiya团队开发的微调模型与Google基准模型结合,并采用多个量化方法,提升模型的性能与存储效率。量化工作由Richard Erkhov完成,GitHub上提供了多种模型版本供用户使用。从数据配置到实际应用,项目提供全面的技术支持,以优化语言生成任务。
flair-arabic-multi-ner - 阿拉伯语命名实体识别模型实现86%准确率
Huggingface命名实体识别开源项目阿拉伯语模型机器学习Github自然语言处理Flair
这个阿拉伯语命名实体识别模型能够自动识别文本中的地点、组织机构和人名等实体信息。模型采用深度学习方法训练,识别准确率达到86%,已开源并支持Python环境使用。适合于阿拉伯语自然语言处理、信息提取等应用场景。
Arabic-Orpo-Llama-3-8B-Instruct - 优化Meta-Llama-3模型在阿拉伯语文本生成中的表现
Huggingface阿拉伯语文本生成llama3开源项目模型Github语言模型评估结果
本项目利用ORPO技术对Meta-Llama-3-8B-Instruct模型进行了微调,旨在提升其生成阿拉伯语文本的准确性和连贯性。虽然基准测试结果显示基模型略有优势,但经过微调的模型在实际应用中生成的阿拉伯语文本质量更高。训练数据来自2A2I/argilla-dpo-mix-7k-arabic数据集,并通过lighteval工具进行评估,旨在增强英文模型在阿拉伯语言环境下的适应能力。
bert-base-arabertv2 - 阿拉伯语自然语言预训练模型 支持多任务场景应用
阿拉伯语机器学习Github自然语言处理HuggingfaceAraBERT开源项目模型预训练模型
AraBERTv2是一个阿拉伯语自然语言处理模型,基于200M句子数据集训练,支持情感分析、命名实体识别和智能问答等应用场景。模型采用Farasa分词技术优化词汇处理,通过Hugging Face平台提供PyTorch、TensorFlow等多框架版本。在多项基准测试中,该模型展现出较好的语言理解能力。
Arabic-Whisper-CodeSwitching-Edition - 针对阿拉伯语和英语混合语音的优化识别模型
代码转换Github开源项目阿拉伯语模型语言模型Huggingfacetransformers语音识别
本模型是经过精调的OpenAI Whisper Large v2版本,旨在提升阿拉伯语和英语混合语音的识别精度。基于阿拉伯-英语代码切换数据集训练,适用于处理多语言环境中的阿拉伯语和英语混合语音。虽然在该特定场景中表现优异,但在其它语言或单语言场景中性能可能有所下降。
bert-base-arabic-camelbert-da - 基于方言数据的阿拉伯语预训练语言模型
阿拉伯语自然语言处理开源项目预训练模型CAMeLBERTGithub模型Huggingface深度学习
CAMeLBERT-DA是基于54GB阿拉伯语方言数据训练的语言模型,专门用于处理阿拉伯方言文本分析。模型支持掩码语言建模与序列预测,可用于实体识别、词性标注和情感分析等任务。模型采用3万词表的WordPiece分词方案,经过TPU训练后在多项评估中取得良好效果。
ARBERTv2 - 基于大规模MSA语料的阿拉伯语双向Transformer模型
阿拉伯语自然语言处理开源项目模型Github机器学习Huggingface预训练语言模型BERT
ARBERTv2是一款针对阿拉伯语的高性能预训练语言模型。它基于243GB文本和278亿个标记的现代标准阿拉伯语(MSA)语料库训练,是ARBERT的升级版。在ARLUE基准测试中,ARBERTv2在48个分类任务中的37个上实现了最佳性能,总体评分达77.40,优于包括XLM-R Large在内的其他模型,展现了卓越的阿拉伯语理解能力。
SILMA-9B-Instruct-v1.0 - 阿拉伯语9B参数AI模型,广泛适应商业场景
阿拉伯语开源项目模型生成式AISILMA AIGithubHuggingface大语言模型业务应用
SILMA-9B-Instruct-v1.0是一个开放权重的阿拉伯语AI模型,基于Google Gemma基础,设计有9B参数。在阿拉伯语任务中的表现优异,经过MMLU、AlGhafa和ARC Challenge等多项基准测试,最高准确率达到91.26。该模型支持多GPU和量化版本,实现多设备高效运行,适合各种商业应用场景。
AceGPT-v2-70B-Chat - 提供优化的阿拉伯语对话生成模型集合,涵盖从7B到70B参数
AceGPT基准测试Huggingface阿拉伯语开源项目模型Github对话应用生成式文本模型
这套开源项目专为对话场景开发,提供多个版本的阿拉伯语生成文本模型,参数范围从7B到70B。它在多个基准测试中表现出色,与一些领先闭源模型的评价接近。模型由KAUST、CUHKSZ及SRIBD联合开发,包含AceGPT和AceGPT-chat两类,每类均提供不同参数选项。