LLaMAntino-2-7b-hf-ITA 项目介绍
LLaMAntino-2-7b-hf-ITA项目是一个大型语言模型(LLM)项目,特别为意大利语环境进行了优化。此模型是LLaMA 2的改进版,旨在为意大利自然语言处理(NLP)研究人员提供一个用于自然语言生成任务的基础模型。
项目背景
LLaMAntino-2-7b-hf-ITA模型是由一组研究人员开发的,他们包括Pierpaolo Basile、Elio Musacchio、Marco Polignano、Lucia Siciliani、Giuseppe Fiameni以及Giovanni Semeraro。该项目得到了PNRR项目“FAIR - 未来人工智能研究”的资金支持,使用Leonardo超级计算机进行训练和开发。
模型特点
- 模型类型: LLaMA 2
- 支持语言: 意大利语
- 许可证: Llama 2 社区许可证
- 训练数据: 使用QLora方法,通过clean_mc4_it medium数据集训练
使用指南
以下是如何开始使用该模型的示例代码:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "swap-uniba/LLaMAntino-2-7b-hf-ITA"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
prompt = "Scrivi qui un possibile prompt"
input_ids = tokenizer(prompt, return_tensors="pt").input_ids
outputs = model.generate(input_ids=input_ids)
print(tokenizer.batch_decode(outputs.detach().cpu().numpy()[:, input_ids.shape[1]:], skip_special_tokens=True)[0])
如果在加载模型时遇到问题,可以尝试以量化的方式加载:
model = AutoModelForCausalLM.from_pretrained(model_id, load_in_8bit=True)
注意: 上述模型加载策略需要使用到bitsandbytes和accelerate库。
参考引用
如果在您的研究中使用了此模型,请引用以下参考文献:
@misc{basile2023llamantino,
title={LLaMAntino: LLaMA 2 Models for Effective Text Generation in Italian Language},
author={Pierpaolo Basile and Elio Musacchio and Marco Polignano and Lucia Siciliani and Giuseppe Fiameni and Giovanni Semeraro},
year={2023},
eprint={2312.09993},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
请注意,Llama 2 许可证遵循 LLAMA 2 社区许可证,版权所有 © Meta Platforms, Inc. 所有权利保留。更多信息请参阅许可证。