Minerva-350M-base-v1.0

Minerva-350M-base-v1.0 项目介绍

Minerva-350M-base-v1.0 是一个令人兴奋的语言模型项目，由 Sapienza NLP 团队与未来人工智能研究基金会 (FAIR) 和 CINECA 合作开发。Minerva 系列是首批从头开始预训练的意大利大型语言模型（LLMs），同时支持意大利语与英语。这一系列的开创性主要在于其对意大利文本的深入训练，约占到了训练数据的一半。

项目概述

Minerva-350M-base-v1.0 具有 3.5 亿参数，是 Minerva LLM 系列中的基本模型之一。它经过训练可以处理 700 亿个标记，其中包括 350 亿个意大利语标记和 350 亿个英语标记。该模型的开发旨在为多种文本生成任务提供可靠的工具，适用于意大利语和英语两种语言环境。

注意事项及局限性

作为一个基础性模型，Minerva-350M-base-v1.0 并未进行特定目标的对齐，因此可能会存在一些问题。例如：

可能会过多地代表某些观点而少代表其他观点。
可能包含陈规定型的内容。
可能产生不适合所有情况下的内容，如仇恨言论、暴力内容或敏感信息。
可能出错，比如将错误信息呈现为事实。

为了更深入地理解这些问题，开发团队建议参阅关于大型语言模型偏见的研究。

如何使用 Minerva 模型

Minerva-350M-base-v1.0 可以通过 Hugging Face transformers 库进行使用，以下是一个简单的使用示例：

import transformers

model_id = "sapienzanlp/Minerva-350M-base-v1.0"
pipeline = transformers.pipeline("text-generation", model=model_id)

input_text = "La capitale dell'Italia è"
output = pipeline(input_text, max_new_tokens=128)

print(output)