Minerva-350M-base-v1.0 项目介绍
Minerva-350M-base-v1.0 是一个令人兴奋的语言模型项目,由 Sapienza NLP 团队与未来人工智能研究基金会 (FAIR) 和 CINECA 合作开发。Minerva 系列是首批从头开始预训练的意大利大型语言模型(LLMs),同时支持意大利语与英语。这一系列的开创性主要在于其对意大利文本的深入训练,约占到了训练数据的一半。
项目概述
Minerva-350M-base-v1.0 具有 3.5 亿参数,是 Minerva LLM 系列中的基本模型之一。它经过训练可以处理 700 亿个标记,其中包括 350 亿个意大利语标记和 350 亿个英语标记。该模型的开发旨在为多种文本生成任务提供可靠的工具,适用于意大利语和英语两种语言环境。
注意事项及局限性
作为一个基础性模型,Minerva-350M-base-v1.0 并未进行特定目标的对齐,因此可能会存在一些问题。例如:
- 可能会过多地代表某些观点而少代表其他观点。
- 可能包含陈规定型的内容。
- 可能产生不适合所有情况下的内容,如仇恨言论、暴力内容或敏感信息。
- 可能出错,比如将错误信息呈现为事实。
为了更深入地理解这些问题,开发团队建议参阅关于大型语言模型偏见的研究。
如何使用 Minerva 模型
Minerva-350M-base-v1.0 可以通过 Hugging Face transformers 库进行使用,以下是一个简单的使用示例:
import transformers
model_id = "sapienzanlp/Minerva-350M-base-v1.0"
pipeline = transformers.pipeline("text-generation", model=model_id)
input_text = "La capitale dell'Italia è"
output = pipeline(input_text, max_new_tokens=128)
print(output)
模型架构
Minerva-350M-base-v1.0 是基于改良版 Mistral 架构的 Transformer 模型。通过调整层数、注意力头的数量以及隐藏状态的维度,该模型在保证高效性的同时,确保了多达3.5亿参数的精准度。
模型训练
该模型使用 MosaicML 的 LLM-foundry 0.6.0 进行训练,采用 Decoupled AdamW 作为优化器,其学习率为 2e-4。训练过程中使用了包含意大利语和英语标记的 CulturaX 数据集。
模型评估
使用 EleutherAI 提供的 LM-Evaluation-Harness 库,对 Minerva-350M-base-v1.0 进行了详细的测试和评估,涵盖了多种任务类型。在这些任务中,该模型表现出较高的准确率,特别是在意大利语和英语的文本处理任务中展现出不错的潜力。
开发团队
该项目由一组专业的研究人员和工程师负责,主要包括数据预处理、模型训练、评估任务以及项目监督等方面的工作。特别鸣谢 Nvidia 和 CINECA 对项目资源及技术支持的贡献。
项目支持
Minerva 项目得到了 PNRR MUR 项目 PE0000013-FAIR 的支持,以及 CINECA 高性能计算资源的支持。
通过这些技术细节和项目背景的解析,希望能够帮助更多人理解和使用 Minerva-350M-base-v1.0 模型。