Polyglot-Ko-3.8B项目介绍
项目概述
Polyglot-Ko-3.8B是由EleutherAI旗下的polyglot团队开发的一系列大规模韩语自回归语言模型的一部分。该模型具有强大的语言理解和生成能力,专门用于处理韩语相关的自然语言处理任务。
模型参数
Polyglot-Ko-3.8B包含多达38亿个参数,体现了大规模模型的强大处理能力。以下是该模型的重要参数:
- 层数:32层
- 模型维度:3072
- 前馈网络维度:12288
- 注意力头数量:24
- 每个注意力头的维度:128
- 上下文长度:2048
- 词汇量:30003 / 30080
- 位置编码:使用了旋转位置嵌入(RoPE)
训练数据
Polyglot-Ko-3.8B的训练基于大量韩语数据,总量高达863 GB,在训练前的原始数据规模为1.2TB。这些数据由韩国公司TUNiB精心策划,符合韩国相关法律。在数据处理中,为保护个人隐私,屏蔽了银行账号、居民注册号和电话号码等敏感信息。
数据来源包括:
- 韩文博客文章:682.3 GB
- 韩文新闻数据集:87.0 GB
- Modu语料库:26.4 GB
- 韩语专利数据集:19.0 GB
- 韩文问答数据集:18.1 GB
训练过程
模型使用GPT-NeoX框架在256个A100 GPU上进行训练,总共经历了105,000个步骤,处理了高达2190亿个令牌。训练采用了自回归语言模型结构,使用交叉熵损失函数来最大化下一个令牌的预测概率。
使用方法
用户可以使用AutoModelForCausalLM
类轻松载入该模型,代码示例如下:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/polyglot-ko-3.8b")
model = AutoModelForCausalLM.from_pretrained("EleutherAI/polyglot-ko-3.8b")
模型评估
Polyglot-Ko-3.8B在KOBEST数据集上进行了评估。该数据集涵盖了5个下游任务,与其他可比较的模型如skt/ko-gpt-trinity-1.2B-v0.5和facebook/xglm-7.5B进行了对比。在几个任务上,Polyglot-Ko-3.8B均展现出优异的性能,尤其是在COPA、HellaSwag等任务中表现突出。
局限性与偏见
尽管Polyglot-Ko-3.8B具有良好的性能,但其作为一种语言模型,可能会生成不够事实或不够准确的信息。此外,在某些情况下,它可能会产生社会上不被接受或冒犯的内容。建议在人机交互中加入人工审核或过滤机制。
版权与许可
该项目的所有模型均遵循Apache License 2.0的条款发布。
致谢
该项目得益于Stability.ai提供的计算资源以及TUNiB提供的大规模韩语数据集。在此,向他们表示诚挚的感谢。