DARE_TIES_13B

DARE_TIES_13B项目介绍

项目背景

DARE_TIES_13B是一个预训练语言模型的合并项目，该模型运用了一种名为“mergekit”的工具来实现模型的合并。这项技术的核心是从不同的预训练模型中提取有用的特性并整合到一个新的模型中，从而提升语言模型的性能和应用能力。

合并细节

合并方法

DARE_TIES_13B项目使用了被称为DARE TIES的合并方法。这种方式通过特定的整合算法，将多个模型的长处合并在一起。此次合并的基础采用了名为“yunconglong/Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B”的语言模型。

参与合并的模型

在这个项目中，合并了以下几种模型：

./13B_DPO
./13B_MATH_DPO

这些模型各自具备不同的特性，通过合并，能够使得最终的模型在复杂任务中表现出色。

配置详情

合并过程依赖于一份详细的YAML配置文件。该配置文件中明确规定了模型的参数设置和合并细节：

models:
  - model: yunconglong/Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B
    parameters:
      density: 1.0
      weight: 1.0
  - model: ./13B_MATH_DPO
    parameters:
      density: 0.5
      weight: [0.33, 0.4, 0.33]
  - model: ./13B_DPO
    parameters:
      density: [0.33, 0.45, 0.66]
      weight: 0.66
merge_method: dare_ties
base_model: yunconglong/Truthful_DPO_TomGrc_FusionNet_7Bx2_MoE_13B
parameters:
  normalize: true
  int8_mask: true
dtype: bfloat16
tokenizer_source : union