#阿拉伯语
Ruqiya_-_Merge-Gemma-2b-it-with-a-Fine-Tuned-one-for-Arabic-gguf - 通过量化技术增强阿拉伯语模型的表现力
Github开源项目模型量化Huggingfacefine-tuning模型合并阿拉伯语Merge-Gemma-2b-it-with-a-Fine-Tuned-one-for-Arabic
项目旨在通过融合与微调Merge-Gemma-2b-it模型,提升阿拉伯语语言模型的精确性。借助LazyMergekit工具,将Ruqiya团队开发的微调模型与Google基准模型结合,并采用多个量化方法,提升模型的性能与存储效率。量化工作由Richard Erkhov完成,GitHub上提供了多种模型版本供用户使用。从数据配置到实际应用,项目提供全面的技术支持,以优化语言生成任务。
Arabic-Orpo-Llama-3-8B-Instruct - 优化Meta-Llama-3模型在阿拉伯语文本生成中的表现
Github开源项目文本生成语言模型模型Huggingface评估结果llama3阿拉伯语
本项目利用ORPO技术对Meta-Llama-3-8B-Instruct模型进行了微调,旨在提升其生成阿拉伯语文本的准确性和连贯性。虽然基准测试结果显示基模型略有优势,但经过微调的模型在实际应用中生成的阿拉伯语文本质量更高。训练数据来自2A2I/argilla-dpo-mix-7k-arabic数据集,并通过lighteval工具进行评估,旨在增强英文模型在阿拉伯语言环境下的适应能力。
Arabic-Whisper-CodeSwitching-Edition - 针对阿拉伯语和英语混合语音的优化识别模型
Github开源项目语音识别语言模型模型transformers代码转换Huggingface阿拉伯语
本模型是经过精调的OpenAI Whisper Large v2版本,旨在提升阿拉伯语和英语混合语音的识别精度。基于阿拉伯-英语代码切换数据集训练,适用于处理多语言环境中的阿拉伯语和英语混合语音。虽然在该特定场景中表现优异,但在其它语言或单语言场景中性能可能有所下降。
bert-base-arabic-camelbert-da - 基于方言数据的阿拉伯语预训练语言模型
Github开源项目预训练模型深度学习自然语言处理模型Huggingface阿拉伯语CAMeLBERT
CAMeLBERT-DA是基于54GB阿拉伯语方言数据训练的语言模型,专门用于处理阿拉伯方言文本分析。模型支持掩码语言建模与序列预测,可用于实体识别、词性标注和情感分析等任务。模型采用3万词表的WordPiece分词方案,经过TPU训练后在多项评估中取得良好效果。
ARBERTv2 - 基于大规模MSA语料的阿拉伯语双向Transformer模型
Github开源项目自然语言处理机器学习BERT模型Huggingface预训练语言模型阿拉伯语
ARBERTv2是一款针对阿拉伯语的高性能预训练语言模型。它基于243GB文本和278亿个标记的现代标准阿拉伯语(MSA)语料库训练,是ARBERT的升级版。在ARLUE基准测试中,ARBERTv2在48个分类任务中的37个上实现了最佳性能,总体评分达77.40,优于包括XLM-R Large在内的其他模型,展现了卓越的阿拉伯语理解能力。
SILMA-9B-Instruct-v1.0 - 阿拉伯语9B参数AI模型,广泛适应商业场景
Github开源项目大语言模型生成式AI业务应用模型Huggingface阿拉伯语SILMA AI
SILMA-9B-Instruct-v1.0是一个开放权重的阿拉伯语AI模型,基于Google Gemma基础,设计有9B参数。在阿拉伯语任务中的表现优异,经过MMLU、AlGhafa和ARC Challenge等多项基准测试,最高准确率达到91.26。该模型支持多GPU和量化版本,实现多设备高效运行,适合各种商业应用场景。
AceGPT-v2-70B-Chat - 提供优化的阿拉伯语对话生成模型集合,涵盖从7B到70B参数
Github开源项目模型基准测试Huggingface对话应用AceGPT阿拉伯语生成式文本模型
这套开源项目专为对话场景开发,提供多个版本的阿拉伯语生成文本模型,参数范围从7B到70B。它在多个基准测试中表现出色,与一些领先闭源模型的评价接近。模型由KAUST、CUHKSZ及SRIBD联合开发,包含AceGPT和AceGPT-chat两类,每类均提供不同参数选项。