COKAL-DPO_test-v2-13b - 采用LLaMA2架构的13B规模自动回归语言模型

项目介绍：COKAL-DPO_test-v2-13b

COKAL-DPO_test-v2-13b项目是由韩国产业科技企业"社蒙媒体集团"和"马可有限公司"的LLM（大规模语言模型）研究联盟共同开发的一款先进语言模型。该项目的核心目标是利用最前沿的Transformer架构进行文本生成。

模型概述

COKAL-DPO_test-v2-13b是一种自回归13B语言模型，建立在LLaMA2 Transformer架构之上。模型的输入和输出均为文本，专注于生成能够自然互动的语言输出。该模型的基础是DopeorNope开发的COKAL_pre_DPO_Test_v1-13b，为DPO方法的训练提供了基础。

训练数据集

DPO训练数据集：使用了DopeorNope整理的数据集[DopeorNope/DPO-Ko-Dataset]，此数据集是私人数据集。灵感来自于公开的数据集"lvwerra/stack-exchange-paired"，但其内容完全由DopeorNope团队自行收集和重组。
SFT训练数据集：基于"kyujinpy/OpenOrca-KO"的数据集，经过近似去重算法处理，移除了Jaccard相似性系数0.8或更高的项。并对不一致输入进行了清理和修改。[DopeorNope/Orca_Near_Dedup-v2]也是私人数据集。

训练环境

模型的开发是在包含四块RTX 3090 GPU的Ubuntu 18.04环境中进行的。在Linux服务器上直接上传模型时可能会出现参数数量报告偏大的问题，但本模型确实基于13B架构。

实施代码

以下是如何使用该模型的Python实现代码示例：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

repo = "DopeorNope/COKAL-DPO_test-v2"
model = AutoModelForCausalLM.from_pretrained(
        repo,
        return_dict=True,
        torch_dtype=torch.float16,
        device_map='auto'
)
model_tokenizer = AutoTokenizer.from_pretrained(repo)

致谢

该项目得到了韩国科学技术信息通信部（MSIT）及光州广域市共同支持的“人工智能中心产业融合集成园区开发项目”的资助。这使得COKAL-DPO_test-v2-13b项目所结合的技术与资源能够有效地用于拓展和创新文本生成应用。

许可证

COKAL-DPO_test-v2-13b使用的许可证为cc-by-nc-sa-4.0，允许非商业性使用，并要求共享具有相同许可的衍生作品。

通过本项目，参与各方展示了其在大规模语言模型领域的创新能力和知识应用，促进了人工智能在语言处理领域的进一步发展。