Swallow-7b-instruct-hf项目介绍
Swallow-7b-instruct-hf是TokyoTech-LLM开发的一款大型语言模型,专注于提升日语和英语的处理能力。下面,我们将对此项目进行详细介绍,包括模型的特性、性能、使用方法以及相关的数据集和风险。
项目背景
Swallow模型是从Llama 2家族中持续预训练而来的,在此基础上特别增加了日语的数据。这一模型类型主要利用Transformers库,并内置有经过指令微调的版本,即Swallow-7b-instruct-hf。
最新版本发布信息
项目团队不断更新更强大的模型,以下是近期发布的关键版本:
- 2024年4月26日: 发布了增强指令微调版0.1,包含7b、13b和70b的三个预览版。
- 2024年3月2日: 发布Swallow-7b-plus-hf,比标准版增加了两倍的日语训练标记。
- 2024年1月26日: 提供Swallow系列的多个版本,满足不同的需求。
- 2023年12月19日: 发布早期版本,包括Swallow-7b-hf和其指令版本。
模型细节
Swallow模型利用了LLAMA-2的架构,主要语言包括日语和英语。模型使用的分词器改进了日语词汇表,从而提升了文本表示的效率,尤其在推断速度上有显著提升。
性能对比
在多个日语和英语任务上,Swallow模型与同类模型进行了性能对比。其在日语任务中表现优于Llama 2,尤其在阅读理解和多轮问答任务上。英语任务中,Swallow模型在一些任务上稍逊于Llama 2,但仍表现出优秀的语言处理能力。
评测标准
在日语评测中,Swallow使用了llm-jp-eval和JP Language Model Evaluation Harness等工具。在英语评测中,使用了Language Model Evaluation Harness。评测指标涵盖了选择题问答、开放式问答和机器翻译等任务。
使用指南
用户可以通过安装指定依赖并调用相关库来使用Swallow模型。提供了如何加载和使用指令模型的Python示例代码,让用户能够快速上手并应用于实际场景中。
训练数据集
Swallow模型的训练数据集包括日语维基百科、RefinedWeb、Swallow Corpus以及The Pile。这些丰富的数据集保证了模型的多语言能力和文本理解深度。
风险和局限性
当前发布的模型仍然处于研发的早期阶段,尚未经过严格的安全和人性化调优。使用过程中,需注意输出可能与人类意图不符的情况。
鸣谢与版权
该项目受到了Meta Research以及其他研究机构的支持和帮助。使用的Llama 2模型遵循Meta平台的开源许可协议。