LESS项目简介
LESS (Selecting Influential Data for Targeted Instruction Tuning) 是一个用于选择有影响力数据进行目标指令调优的项目。该项目由普林斯顿大学自然语言处理实验室开发,旨在提出一种数据选择方法,以选择有影响力的数据来诱导目标能力。
快速链接
安装要求
要开始使用LESS,请按照以下步骤进行安装:
- 确保已安装PyTorch。
- 克隆项目并安装依赖:
git clone https://github.com/princeton-nlp/LESS.git
cd LESS
pip install -r requirement.txt
- 以可编辑模式安装
less
包:
pip install -e .
数据准备
LESS项目使用了四个指令调优数据集:Flan v2、COT、Dolly和Open Assistant。评估数据集包括MMLU、Tydiqa和BBH。你可以在这里找到这些数据集的处理版本。
数据选择流程
LESS的数据选择流程包括以下几个步骤:
- 预热训练
- 构建梯度数据存储
- 为特定任务选择数据
- 使用选定数据进行训练
每个步骤的详细说明和示例脚本可以在GitHub仓库中找到。
评估
要评估在选定数据上训练的模型性能,请参考evaluation文件夹中的说明。
问题反馈
如果你有任何与代码或论文相关的问题,可以通过电子邮件联系Mengzhou (mengzhou@princeton.edu)。如果在使用代码时遇到问题或想报告bug,可以在GitHub上开一个issue。
引用
如果你在研究中使用了LESS,请引用以下论文:
@inproceedings{xia2024less,
title={{LESS}: Selecting Influential Data for Targeted Instruction Tuning},
author={Xia, Mengzhou and Malladi, Sadhika and Gururangan, Suchin and Arora, Sanjeev and Chen, Danqi},
booktitle={International Conference on Machine Learning (ICML)},
year={2024}
}
通过本文的资源汇总,希望能帮助读者快速了解LESS项目,并开始使用这一强大的数据选择工具进行目标指令调优。无论你是研究人员还是实践者,LESS都为提高模型性能提供了新的可能性。