polyglot-ko-3.8b - 韩国大规模自回归语言模型的技术突破

Polyglot-Ko-3.8B项目介绍

项目概述

Polyglot-Ko-3.8B是由EleutherAI旗下的polyglot团队开发的一系列大规模韩语自回归语言模型的一部分。该模型具有强大的语言理解和生成能力，专门用于处理韩语相关的自然语言处理任务。

模型参数

Polyglot-Ko-3.8B包含多达38亿个参数，体现了大规模模型的强大处理能力。以下是该模型的重要参数：

层数：32层
模型维度：3072
前馈网络维度：12288
注意力头数量：24
每个注意力头的维度：128
上下文长度：2048
词汇量：30003 / 30080
位置编码：使用了旋转位置嵌入（RoPE）

训练数据

Polyglot-Ko-3.8B的训练基于大量韩语数据，总量高达863 GB，在训练前的原始数据规模为1.2TB。这些数据由韩国公司TUNiB精心策划，符合韩国相关法律。在数据处理中，为保护个人隐私，屏蔽了银行账号、居民注册号和电话号码等敏感信息。

数据来源包括：

韩文博客文章：682.3 GB
韩文新闻数据集：87.0 GB
Modu语料库：26.4 GB
韩语专利数据集：19.0 GB
韩文问答数据集：18.1 GB

训练过程

模型使用GPT-NeoX框架在256个A100 GPU上进行训练，总共经历了105,000个步骤，处理了高达2190亿个令牌。训练采用了自回归语言模型结构，使用交叉熵损失函数来最大化下一个令牌的预测概率。

使用方法

用户可以使用AutoModelForCausalLM类轻松载入该模型，代码示例如下：

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("EleutherAI/polyglot-ko-3.8b")
model = AutoModelForCausalLM.from_pretrained("EleutherAI/polyglot-ko-3.8b")

模型评估

Polyglot-Ko-3.8B在KOBEST数据集上进行了评估。该数据集涵盖了5个下游任务，与其他可比较的模型如skt/ko-gpt-trinity-1.2B-v0.5和facebook/xglm-7.5B进行了对比。在几个任务上，Polyglot-Ko-3.8B均展现出优异的性能，尤其是在COPA、HellaSwag等任务中表现突出。

局限性与偏见

尽管Polyglot-Ko-3.8B具有良好的性能，但其作为一种语言模型，可能会生成不够事实或不够准确的信息。此外，在某些情况下，它可能会产生社会上不被接受或冒犯的内容。建议在人机交互中加入人工审核或过滤机制。

版权与许可

该项目的所有模型均遵循Apache License 2.0的条款发布。

致谢

该项目得益于Stability.ai提供的计算资源以及TUNiB提供的大规模韩语数据集。在此，向他们表示诚挚的感谢。