Llama-3-Swallow-8B-Instruct-v0.1 - 利用Meta Llama 3进行日语数据增强的持续预训练

Llama-3-Swallow-8B-Instruct-v0.1项目介绍

项目背景

Llama-3-Swallow-8B-Instruct-v0.1是一个由Swallow-LLM开发的大型语言模型，它基于Meta发布的Llama 3，并在此基础上进行持续预训练。该项目特别增加了日语语言的数据，使得模型在处理日文本任务上有独特的表现。模型的Instruct版本通过监督微调（SFT）和Chat Vector进行优化，以提升与人机对话相关的能力。

模型发布更新

在2024年7月1日，Swallow-LLM发布了一系列新模型，包括Llama-3-Swallow-8B-Instruct-v0.1。有关不同版本的模型链接可以通过模型索引查看：

模型细节

Llama-3-Swallow-8B-Instruct-v0.1主要支持日语和英语，并使用了NVIDIA的Megatron-LM库进行开发。详细的模型架构可以参考Llama 3 MODEL_CARD。该项目倡导开放的研究精神，并且其开发受到日本国家先进工业科学技术研究院的支持。

模型性能

在多个日语和英语任务中，Llama-3-Swallow-8B-Instruct-v0.1表现出色。其在日语任务中的平均得分为0.4811，在英语任务中的平均得分为0.5743。评测标准涵盖了从多项选择问答到代码生成的广泛领域。

使用指南

用户可以通过安装vllm和相关的transformers库，利用代码轻松实现对模型的调用。以下为一个简单的使用示例：

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

model_name = "tokyotech-llm/Llama-3-Swallow-8B-Instruct-v0.1"

tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(
    model=model_name,
    tensor_parallel_size=1,
)

sampling_params = SamplingParams(
    temperature=0.6, top_p=0.9, max_tokens=512, stop="<|eot_id|>"
)

message = [
    {"role": "system", "content": "あなたは誠実で優秀な日本人のアシスタントです。"},
    {
        "role": "user",
        "content": "東京の夜空に打ち上がっている花火の下、向かい合っている燕とラマの温かい物語を書いてください。",
    },
]
prompt = tokenizer.apply_chat_template(
    message, tokenize=False, add_generation_prompt=True
)

output = llm.generate(prompt, sampling_params)

print(output[0].outputs[0].text)

风险与限制

目前发布的模型仍处于研发的早期阶段，对于某些输出，尚未进行足够的安全和准确性调优。这意味模型可能会产生不符合人类意图的输出，使用时需谨慎。

致谢与授权

项目得到了Meta Research提供的Llama 3的开放授权支持，以及日本人工智能中心的大力支持。模型的开放许可证为META LLAMA 3 COMMUNITY LICENSE，开发团队来自东京工业大学及日本人工智能研究中心。

引用

使用者如需引用本项目，请参考以下格式：

@inproceedings{Fujii:COLM2024,
   title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
   author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

Llama-3-Swallow-8B-Instruct-v0.1致力于促进跨语言的AI能力提升，尤其是对日语语言的支持，使其成为研究界及工业界的不二之选。