项目介绍:polyglot-ko-12.8b-Inst
项目概述
polyglot-ko-12.8b-Inst是一个基于多语言的韩语文本生成模型,专注于指令调优(Instruction-tuned)的训练。该模型利用了一系列数据集来提升其生成韩语文本的质量和多样性,包括10%来自于[Kullm, OIG, KoAlpaca]的指令数据集。其基础模型为EleutherAI的polyglot-ko-12.8b,采用开放的Apache 2.0许可证。
数据集
该模型使用了DILAB-HYU提供的KoQuality数据集以优化和验证其性能。这是一个专门针对韩语的质量评估数据集,旨在确保模型生成的文本既准确又自然。
模型特性
- 语言:此模型专注于生成韩语文本。
- 管道标签:被标记为文本生成(text-generation)模型,适用于各种文本生成任务。
- 标签:模型关联标签包括polyglot-ko、gpt-neox和KoQuality,表明其技术基础和应用领域。
训练参数
该模型进行了严谨的训练,以优化其性能和稳定性。在训练过程中,以下超参数被配置用于指导模型学习:
- 学习率:5e-5
- 种子:42(用于随机数生成,确保实验可重复)
- 分布方式:多GPU(A100 40G)与CPU卸载(512GB)
- 设备数量:1
- 训练批次大小:4
- 梯度累积步数:16
- 优化器:Adam优化器,配置参数为betas=(0.9,0.999)和epsilon=1e-08
- 学习率调度:线性调度(linear)
- 训练周期:2.0个周期
技术框架
- Transformers:4.35.0
- Pytorch:2.0.1+cu117
- Datasets:2.14.6
- deepspeed:0.11.1
- accelerate:0.24.1
这些技术框架和版本为模型提供了先进的基础,支持其高效运算和实现。
结论
polyglot-ko-12.8b-Inst是一个高效的韩语文本生成模型,具有指令调优的特点。通过多样化的数据集训练和强大的计算框架支持,该模型能够为韩语文本生成任务提供高质量的解决方案。其开放许可也为研究和应用的进一步开发提供了便利。