项目介绍:TowerBase-7B-v0.1
项目概述
TowerBase-7B-v0.1 是一个强大的语言模型,由Unbabel、里斯本技术大学和巴黎中央理工大学开发。该模型通过继续在海量的单语和双语数据上对Llama 2进行预训练而生成。模型所用的数据包括10种不同语言:英语、葡萄牙语、西班牙语、法语、德语、荷兰语、意大利语、韩语、中文和俄语。这使得它不仅在这些语言上的表现有所提升,同时也保留了Llama 2在英语方面的能力。
TowerBase-7B-v0.1在翻译和相关任务上非常出色,例如校对、语法纠错等。适合做微调来执行这些任务,甚至可以在零样本情况下进行任务。
使用场景与限制
该模型设计用于研究目的,支持的10种语言提供了广泛的应用范围。它尤其在少量样本情况下表现良好,并且能够通过微调来在零样本情况下执行翻译和相关任务。注意到,该模型未针对支持语言以外的用途进行优化,因此在其他语言上的表现不能保证。
偏见、风险与局限性
由于TowerBase-7B-v0.1并未完全根据人类偏好进行调整,可能生成有问题的输出,包括虚构信息、有害内容或错误陈述,因此用户需谨慎使用。
模型架构与技术背景
TowerBase-7B-v0.1是一个具有7B参数的模型,建立在Llama 2之上,通过在多个语言的数据集上继续预训练构建而成。支持的语言包括英语、葡萄牙语、西班牙语、法语、德语、荷兰语、意大利语、韩语、中文和俄语,受版权保护,并根据CC-BY-NC-4.0和Llama 2社区的许可协议发布。
数据集与评估
该模型在多个任务中表现出优异的能力:
- AI2 Reasoning Challenge (25-Shot): 标准化准确率为51.02%
- HellaSwag (10-Shot): 标准化准确率为77.68%
- MMLU (5-Shot): 准确率为43.48%
- TruthfulQA (0-shot): mc2为37.29
- Winogrande (5-shot): 准确率为72.06%
- GSM8k (5-shot): 准确率为13.12%
每个数据集的测试结果表明TowerBase-7B-v0.1在处理复杂的语言生成任务时表现稳定,尤其是在需要推理能力的任务中。
引用
如果使用了TowerBase-7B-v0.1模型,请引用以下文献:
@misc{tower_llm_2024,
title={Tower: An Open Multilingual Large Language Model for Translation-Related Tasks},
author={Duarte M. Alves and José Pombal and Nuno M. Guerreiro and Pedro H. Martins and João Alves and Amin Farajian and Ben Peters and Ricardo Rei and Patrick Fernandes and Sweta Agrawal and Pierre Colombo and José G. C. de Souza and André F. T. Martins},
year={2024},
eprint={2402.17733},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
调用示例
以下是如何使用Python调用该模型的一个示例:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "Unbabel/TowerBase-7B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "English: My name is TowerBase.\nPortuguese:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
结论
TowerBase-7B-v0.1作为多语言翻译相关任务的开放大规模语言模型,展现了卓越的性能和强大的可扩展性,为多种语言处理任务奠定了坚实的基础。后续将会有技术报告提供更多详细信息。