llama-lora-fine-tuning

单GPU微调LLaMA模型的高效方法

本项目展示了在单个16G GPU上微调vicuna-7b模型的方法。通过采用LoRA、半精度模型和8位加载等技术，有效降低了内存需求。项目详细说明了环境配置、模型准备、语料处理和微调过程，并提供P100和A100的性能数据。这种方法使研究者和开发者能在有限硬件资源下进行大型语言模型的定制化训练。

LLaMA微调GPUVicuna语料库Github开源项目

在单个16G GPU上微调vicuna-7b

1. 概述

微调FaceBook/LLaMA通常有两种方案。一种是斯坦福大学的alpaca系列，另一种是基于shareGPT语料库的Vicuna。Vicuna使用多轮对话语料，训练效果优于默认单轮对话的alpaca。因此，建议基于Vicuna来微调Llama。以下项目详细描述了这两种微调方式（FastChat中对lora模式的描述相对简单）。 https://github.com/tloen/alpaca-lora https://github.com/lm-sys/FastChat Alpaca-lora的内存要求较低，约12G的2080Ti就可以支持，但训练像Vicuna这样的多轮会话模型需要较高的GPU内存。Vicuna模型训练至少需要24G GPU内存[官方建议是4 * V100 (32G)]。如果你有高端显卡，只需按文件说明进行训练即可。如果你只有16G显卡但想自定义语料库重现Vicuna模型，就必须想办法不断降低精度，从32位到半精度16位，再从16位到8位，并加速训练方法以实现目标。

2. 微调方法

• 使用lora方法仅训练部分参数 • 基础模型采用半精度llama-7b-hf • 使用load_in_8bit加载基础模型 • 使用peft技术进行微调 • 使用bitsandbytes加速 然后我们基于FastChat，本文修改了lora训练代码，使用shareGPT语料库，并在16G显卡上进行微调，占用约13G的GPU内存。 • 操作系统：centos或ubuntu • NVIDA P100或T4：16G GPU内存或以上 • CUDA，conda

3. 微调过程

3.1 安装依赖环境

3.1.1 下载源代码

git clone https://github.com/git-cloner/llama-lora-fine-tuning
cd llama-lora-fine-tuning

3.1.2 安装微调依赖环境

3.1.2.1 安装pkg-config

wget https://pkg-config.freedesktop.org/releases/pkg-config-0.29.2.tar.gz
tar -zxvf pkg-config-0.29.2.tar.gz
cd pkg-config-0.29.2
./configure --with-internal-glib  
make -j4
make check  
sudo make install

3.1.2.2 安装libicu

wget https://mirrors.aliyun.com/blfs/conglomeration/icu/icu4c-73_1-src.tgz
tar xf icu4c-73_1-src.tgz
cd icu/source  
./configure  
make  
make check  
sudo make install
sudo ldconfig

3.1.2.3 安装软件包

conda create -n llama-lora python=3.10
conda activate llama-lora
pip3 install -r requirements.txt

3.2 准备Llama模型

你可以下载原始模型并将其转换为半精度，或直接从https://huggingface.co/decapoda-research/llama-7b-hf下载已转换的半精度模型。

3.2.1 下载Llama模型

export GIT_TRACE=1
export GIT_CURL_VERBOSE=1
pip3 install git+https://github.com/juncongmoo/pyllama -i https://pypi.mirrors.ustc.edu.cn/simple --trusted-host=pypi.mirrors.ustc.edu.cn
python -m llama.download --model_size 7B

3.2.2 将模型转换为huggingface格式

CUDA_VISIBLE_DEVICES=1 python3 ./convert_llama_weights_to_hf.py --input_dir ./pyllama_data --model_size 7B --output_dir ./pyllama_data/output/7B

3.3 组织语料库

3.3.1 语料库下载

下载52k ShareGPT：https://huggingface.co/datasets/RyokoAI/ShareGPT52K
其他语料库参考：https://github.com/Zjh-819/LLMDataHub
将sg_90k_part1.json和sg_90k_part2.json下载到data目录

3.3.2 合并语料库文件

python3 fastchat/data/merge.py --in ./data/sg_90k_part1.json ./data/sg_90k_part2.json ./data/dummy_cn.json ./data/dummy_en.json --out ./data/sg_90k.json

3.3.3 Html转Markdown

python3 fastchat/data/clean_sharegpt.py --in ./data/sg_90k.json --out ./data/sharegpt_clean.json

3.3.4 移除一些未使用的语言（可选）

python3 fastchat/data/optional_clean.py --in ./data/sharegpt_clean.json --out ./data/sharegpt_clean_1.json --skip-lang SOME_LANGUAGE_CODE 
SOME_LANGUAGE_CODE的值如下：
en - 英语
es - 西班牙语
fr - 法语
de - 德语
it - 意大利语
ja - 日语
ko - 韩语
zh - 中文
ar - 阿拉伯语
ru - 俄语
pt - 葡萄牙语
nl - 荷兰语

3.3.5 将长对话拆分为短对话

CUDA_VISIBLE_DEVICES=1 python3 fastchat/data/split_long_conversation.py --in ./data/sharegpt_clean.json --out ./data/sharegpt_clean_split.json --model-name ./pyllama_data/output/7B

3.4 微调

3.4.1 微调命令

# 禁用wandb
wandb disabled 
# 为了防止SSH终端断开导致训练停止，可以让训练在后台运行（删除三处#即可在后台运行）
# 如果有多个GPU，使用--num_gpus参数
CUDA_VISIBLE_DEVICES=0,1 \ #nohup \ 
deepspeed --num_gpus=2 fastchat/train/train_lora.py \ 
  --deepspeed ./deepspeed-config.json \ 
  --lora_r 8 \ 
  --lora_alpha 16 \ 
  --lora_dropout 0.05 \ 
  --model_name_or_path ./pyllama_data/output/7B \ 
  --data_path ./data/sharegpt_clean_split.json \ 
  --fp16 True \ 
  --output_dir ./output \ 
  --num_train_epochs 1 \ 
  --per_device_train_batch_size 14 \ 
  --per_device_eval_batch_size 14 \ 
  --gradient_accumulation_steps 1 \ 
  --evaluation_strategy "no" \ 
  --save_strategy "steps" \ 
  --save_steps 2400 \ 
  --save_total_limit 5 \ 
  --learning_rate 2e-5 \ 
  --weight_decay 0. \ 
  --warmup_ratio 0.03 \ 
  --lr_scheduler_type "cosine" \ 
  --logging_steps 1 \ 
  --model_max_length 512 \ 
  --gradient_checkpointing True #>> lora.log 2>&1 &
# 如果在后台运行，可以通过tail lora.log查看训练进度
tail -f lora.log

3.4.2 微调性能

在P100（16G）上进行微调占用13.5G内存。在一轮训练的情况下，需要120小时，约5天，仍然非常耗时。生成模型的效果需要验证。 model_max_length会影响训练时间。如果设置为1024，时间将比2048减半，但会影响推理效果。

3.4.3 在A100上微调

在单个A100上微调大约需要16小时。

deepspeed fastchat/train/train_lora.py \
    --deepspeed ./deepspeed-config.json \
    --lora_r 8 \
    --lora_alpha 16 \
    --lora_dropout 0.05 \
    --model_name_or_path ./pyllama_data/output/7B \
    --data_path ./data/sharegpt_clean_split.json \
    --fp16 True \
    --output_dir ./output \
    --num_train_epochs 1 \
    --per_device_train_batch_size 56 \
    --per_device_eval_batch_size 56 \
    --gradient_accumulation_steps 1\
    --evaluation_strategy "no" \
    --save_strategy "steps" \
    --save_steps 1200 \
    --save_total_limit 5 \
    --learning_rate 2e-5 \
    --weight_decay 0. \
    --warmup_ratio 0.03 \
    --lr_scheduler_type "cosine" \
    --logging_steps 1 \
    --model_max_length 1024 \
    --gradient_checkpointing True

4、测试训练好的模型

4.1 模型文件结构

训练好的LoRa peft模型由adapter_config.json、adapter_model.bin和trainer_state.json组成。以下是peft和原始llama模型的文件结构。

model
───llama-peft
│      adapter_config.json
│      adapter_model.bin
│      trainer_state.json
│
└──llama_7b
        config.json
        generation_config.json
        pytorch_model-00001-of-00002.bin
        pytorch_model-00002-of-00002.bin
        pytorch_model.bin.index.json
        special_tokens_map.json
        tokenizer.json
        tokenizer.model
        tokenizer_config.json

4.2 测试生成

CUDA_VISIBLE_DEVICES=0  python generate.py  --base_model ./model/llama-7b --lora_weights ./model/llama-peft

编辑推荐精选

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统，允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令，自动执行排序、公式计算和数据透视等操作，支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内，支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程

DeepEP

DeepSeek开源的专家并行通信优化框架

DeepEP是一个专为大规模分布式计算设计的通信库，重点解决专家并行模式中的通信瓶颈问题。其核心架构采用分层拓扑感知技术，能够自动识别节点间物理连接关系，优化数据传输路径。通过实现动态路由选择与负载均衡机制，系统在千卡级计算集群中维持稳定的低延迟特性，同时兼容主流深度学习框架的通信接口。

DeepSeek

全球领先开源大模型，高效智能助手

DeepSeek是一家幻方量化创办的专注于通用人工智能的中国科技公司，主攻大模型研发与应用。DeepSeek-R1是开源的推理模型，擅长处理复杂任务且可免费商用。

问小白

DeepSeek R1 满血模型上线

问小白是一个基于 DeepSeek R1 模型的智能对话平台，专为用户提供高效、贴心的对话体验。实时在线，支持深度思考和联网搜索。免费不限次数，帮用户写作、创作、分析和规划，各种任务随时完成！

AI主流办公工具有哪些办公热门AI 助手

KnowS

AI医学搜索引擎整合4000万+实时更新的全球医学文献

医学领域专用搜索引擎整合4000万+实时更新的全球医学文献，通过自主研发AI模型实现精准知识检索。系统每日更新指南、中英文文献及会议资料，搜索准确率较传统工具提升80%，同时将大模型幻觉率控制在8%以下。支持临床建议生成、文献深度解析、学术报告制作等全流程科研辅助，典型用户反馈显示每周可节省医疗工作者70%时间。

Windsurf Wave 3

Windsurf Editor推出第三次重大更新Wave 3

新增模型上下文协议支持与智能编辑功能。本次更新包含五项核心改进：支持接入MCP协议扩展工具生态，Tab键智能跳转提升编码效率，Turbo模式实现自动化终端操作，图片拖拽功能优化多模态交互，以及面向付费用户的个性化图标定制。系统同步集成DeepSeek、Gemini等新模型，并通过信用点数机制实现差异化的资源调配。

AI IDE

腾讯元宝

腾讯自研的混元大模型AI助手

腾讯元宝是腾讯基于自研的混元大模型推出的一款多功能AI应用，旨在通过人工智能技术提升用户在写作、绘画、翻译、编程、搜索、阅读总结等多个领域的工作与生活效率。

AI助手AI对话AI工具腾讯元宝智能体热门 AI 办公助手

Grok3

埃隆·马斯克旗下的人工智能公司 xAI 推出的第三代大规模语言模型

Grok3 是由埃隆·马斯克旗下的人工智能公司 xAI 推出的第三代大规模语言模型，常被马斯克称为“地球上最聪明的 AI”。它不仅是在前代产品 Grok 1 和 Grok 2 基础上的一次飞跃，还在多个关键技术上实现了创新突破。

OmniParser

帮助AI理解电脑屏幕纯视觉GUI元素的自动化解析方案

开源工具通过计算机视觉技术实现图形界面元素的智能识别与结构化处理，支持自动化测试脚本生成和辅助功能开发。项目采用模块化设计，提供API接口与多种输出格式，适用于跨平台应用场景。核心算法优化了元素定位精度，在动态界面和复杂布局场景下保持稳定解析能力。

OmniParser界面解析交互区域检测Github开源项目

流畅阅读

AI网页翻译插件双语阅读工具，还原母语级体验

流畅阅读是一款浏览器翻译插件，通过上下文智能分析提升翻译准确性，支持中英双语对照显示。集成多翻译引擎接口，允许用户自定义翻译规则和快捷键配置，操作数据全部存储在本地设备保障隐私安全。兼容Chrome、Edge、Firefox等主流浏览器，基于GPL-3.0开源协议开发，提供持续的功能迭代和社区支持。

AI翻译AI翻译引擎AI翻译工具

下拉加载更多