Swallow-MX-8x7b-NVE-v0.1项目介绍
项目概述
Swallow-MX-8x7b-NVE-v0.1是一个先进的语言模型,基于Mixtral-8x7B-Instruct-v0.1进行持续预训练,主要增加了日语数据。这一模型由东京工业大学的团队开发,结合多种语言数据集,旨在提升日语及英语文本生成和理解能力。
模型详情
- 模型类型:详细建筑信息可参考Mixtral技术报告。
- 支持语言:日语、英语。
- 分词器:使用与Mixtral-8x7B-Instruct-v0.1相同的分词器。
- 联系方式:swallow[at]nlp.c.titech.ac.jp
基础模型性能
日语表现
模型在多个日语任务中的表现优于许多7B和13B的对比模型,尤其是在常识问答和对话生成上有显著提升。例如,Swallow-MX-8x7b-NVE-v0.1在JCommonsenseQA任务中的表现达到0.9258,展示了其卓越的日语理解能力。
英语表现
在英语任务中,该模型的表现同样令人印象深刻。虽然其对OpenBookQA的响应略低于某些顶级模型,但在TriviaQA、HellaSwag等任务上均有不俗的表现,验证了其跨语言处理的有效性。
使用方法
为了使用此模型,用户需先安装必要的依赖,然后通过Python脚本调用模型进行文本生成。以下是一个简单的使用示例:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
prompt = "東京工業大学の主なキャンパスは、"
input_ids = tokenizer.encode(
prompt,
add_special_tokens=False,
return_tensors="pt"
)
tokens = model.generate(
input_ids.to(device=model.device),
max_new_tokens=128,
temperature=0.99,
top_p=0.95,
do_sample=True,
)
out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)
训练数据集
Swallow-MX-8x7b-NVE-v0.1的持续预训练采用了多个不同的数据集,包括Algebraic Stack、日语维基百科、RefinedWeb、Swallow Corpus、The Pile和The Vault。这些数据集的协同使用提高了模型的多样化表现能力。
风险与限制
当前发布的模型属于研发的早期版本,尚未完全调试以确保输出与人类意图和安全考虑保持一致。
致谢
项目得到了Mistral AI的支持,他们开放的Mixtral-8x7B-Instruct-v0.1为此项目的开发打下了坚实的基础。此外,该项目还受到日本国家产业科技研究所的大规模语言模型建设支持计划的资助。
许可证
本项目使用Apache-2.0许可证进行授权。
作者团队
来自Okazaki实验室和YOKOTA实验室的多位研究人员共同参与了项目开发,包括Naoaki Okazaki、Sakae Mizuki、Hiroki Iida、Mengsay Loem等。
这篇介绍旨在让读者对Swallow-MX-8x7b-NVE-v0.1项目有一个全面而深入的了解,同时激发对其在跨语言处理领域进一步应用的兴趣。