Llama-3-Swallow-8B-Instruct-v0.1项目介绍
项目背景
Llama-3-Swallow-8B-Instruct-v0.1是一个由Swallow-LLM开发的大型语言模型,它基于Meta发布的Llama 3,并在此基础上进行持续预训练。该项目特别增加了日语语言的数据,使得模型在处理日文本任务上有独特的表现。模型的Instruct版本通过监督微调(SFT)和Chat Vector进行优化,以提升与人机对话相关的能力。
模型发布更新
在2024年7月1日,Swallow-LLM发布了一系列新模型,包括Llama-3-Swallow-8B-Instruct-v0.1。有关不同版本的模型链接可以通过模型索引查看:
模型细节
Llama-3-Swallow-8B-Instruct-v0.1主要支持日语和英语,并使用了NVIDIA的Megatron-LM库进行开发。详细的模型架构可以参考Llama 3 MODEL_CARD。该项目倡导开放的研究精神,并且其开发受到日本国家先进工业科学技术研究院的支持。
模型性能
在多个日语和英语任务中,Llama-3-Swallow-8B-Instruct-v0.1表现出色。其在日语任务中的平均得分为0.4811,在英语任务中的平均得分为0.5743。评测标准涵盖了从多项选择问答到代码生成的广泛领域。
使用指南
用户可以通过安装vllm和相关的transformers库,利用代码轻松实现对模型的调用。以下为一个简单的使用示例:
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams
model_name = "tokyotech-llm/Llama-3-Swallow-8B-Instruct-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(
model=model_name,
tensor_parallel_size=1,
)
sampling_params = SamplingParams(
temperature=0.6, top_p=0.9, max_tokens=512, stop="<|eot_id|>"
)
message = [
{"role": "system", "content": "あなたは誠実で優秀な日本人のアシスタントです。"},
{
"role": "user",
"content": "東京の夜空に打ち上がっている花火の下、向かい合っている燕とラマの温かい物語を書いてください。",
},
]
prompt = tokenizer.apply_chat_template(
message, tokenize=False, add_generation_prompt=True
)
output = llm.generate(prompt, sampling_params)
print(output[0].outputs[0].text)
风险与限制
目前发布的模型仍处于研发的早期阶段,对于某些输出,尚未进行足够的安全和准确性调优。这意味模型可能会产生不符合人类意图的输出,使用时需谨慎。
致谢与授权
项目得到了Meta Research提供的Llama 3的开放授权支持,以及日本人工智能中心的大力支持。模型的开放许可证为META LLAMA 3 COMMUNITY LICENSE,开发团队来自东京工业大学及日本人工智能研究中心。
引用
使用者如需引用本项目,请参考以下格式:
@inproceedings{Fujii:COLM2024,
title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
Llama-3-Swallow-8B-Instruct-v0.1致力于促进跨语言的AI能力提升,尤其是对日语语言的支持,使其成为研究界及工业界的不二之选。