Azzurro项目介绍
Azzurro是一个基于Mistral-7B-v0.2模型进行微调的大型语言模型。该项目由Moxoff团队开发,旨在提供一个在意大利语和英语环境下表现出色的人工智能模型。
模型特点
Azzurro模型具有以下特点:
- 基础模型:使用Mistral-7B-v0.2作为基础模型进行微调。
- 训练数据:采用公开数据集(如SQUAD-it)和团队自制数据集进行训练。
- 上下文理解:经过优化,能够更好地理解和维持上下文信息。
- 应用场景:特别适用于检索增强生成(RAG)任务和需要上下文感知的应用。
- 多语言支持:主要支持意大利语和英语。
模型评估
Azzurro模型在Open Ita LLM Leaderboard使用的测试集上进行了评估,得到以下结果:
- hellaswag_it acc_norm: 0.6067
- arc_it acc_norm: 0.4405
- m_mmlu_it 5-shot acc: 0.5112
- 平均分: 0.52
这些评分反映了模型在各种任务中的表现水平。
使用方法
使用Azzurro模型需要安装必要的依赖库,包括transformers、torch和sentencepiece。模型可以通过Hugging Face的transformers库轻松加载和使用。开发者提供了一个简单的示例代码,展示了如何使用模型进行问答任务。
局限性和风险
开发团队指出,Azzurro模型尚未经过人类偏好对齐(RLHF)或部署实时过滤机制。因此,在某些情况下可能会产生有问题的输出,特别是在被刻意引导的情况下。同时,基础模型Mistral-7B-v0.2的训练语料库大小和组成尚不明确,可能包含了网络数据和技术资源如书籍和代码。
相关资源
项目提供了多个相关资源的链接,包括SQUAD-it数据集、原始Mistral_7B_v0.2权重、Hugging Face上的模型页面以及Open Ita LLM Leaderboard。
量化版本
为了适应不同的硬件环境和性能需求,团队还发布了Azzurro模型的4位和8位量化版本,可在Hugging Face上获取。
开发团队
Azzurro项目由Moxoff团队的Jacopo Abate、Marco D'Ambra、Luigi Simeone和Gianpaolo Francesco Trotta共同开发完成。这个多元化的团队为项目带来了丰富的专业知识和经验。
总的来说,Azzurro项目为意大利语和英语自然语言处理领域提供了一个强大的工具,其在上下文理解和多任务处理方面的能力使其成为许多应用场景的理想选择。