Yi-Ko-6B项目介绍
Yi-Ko-6B是Yi-Ko系列模型中的一员,这个系列是对01-ai/Yi模型的高级迭代版本,其预训练过程中加入了更多的词汇表以及韩语和英语的语料。与其前辈一样,Yi-Ko系列属于大规模文本生成模型,参数数量范围从6亿到34亿不等。本文介绍的是适用于Hugging Face Transformers格式的6B预训练版模型。
项目背景
Yi-Ko系列模型的开发者是Junbum Lee (Beomi),其目的是通过扩展词汇库来提高模型的语言理解和生成能力。该模型能够接受文字输入并生成相应的文字输出,使用了一种优化的基于Llama-2的自回归变换器架构。
模型细节
开发者: Junbum Lee (Beomi)
模型变体: Yi-Ko系列有6B和34B两种参数大小的变体。
输入输出: 接受文本输入,并输出文本。
模型架构: 采用基于Llama-2的自回归语言模型。
模型名称 | 训练数据 | 参数量 | 上下文长度 | GQA | 训练标记数 | 学习率 | 每步批量大小 |
---|---|---|---|---|---|---|---|
Yi-Ko-6B | 韩英混合在线数据 | 6B | 4k | O | >60B | 5e-5 | 2048 |
词汇扩展
Yi-Ko系列的词汇比原始Yi系列有所增加,对于韩语的处理能力也显著提升。例如,在处理 "안녕하세요, 오늘은 날씨가 좋네요.ㅎㅎ" 这样的韩语句子时,原始模型使用了47个标记,而Yi-Ko系列则仅用10个标记完成处理。
基准测试
在多个文本生成任务中,Yi-Ko-6B表现突出。其中,在HellaSwag (10-Shot) 数据集上的表现尤为引人注目,规范化准确率达到了74.48%。
许可证
Yi-Ko-6B在研究用途上的使用符合Apache 2.0许可协议。如果有商业用途,请联系jun@beomi.net获取商业许可证。
致谢
Yi-Ko-6B模型的训练得到了TPU Research Cloud项目的支持。
这是Yi-Ko-6B项目的简要介绍,希望能帮助您更好地了解这个先进的文本生成模型。在未来的文本生成任务中,Yi-Ko-6B模型将继续发挥其优势,推动语言模型技术的发展。