#DPO

LLM-RLHF-Tuning

本项目实现了RLHF的三阶段训练，包括指令微调、奖励模型训练和PPO算法训练。支持LLaMA和LLaMA2模型，并提供多种分布式加速训练方法。项目附有详细的实现文档，并对比了其他开源框架的功能，是RLHF训练的宝贵资源。

Sakura-SOLAR-DPO

Sakura-SOLAR-DPO项目通过模型融合和DPO训练技术，使SOLAR模型在开源大语言模型排行榜上跃居首位。该项目在ARC、HellaSwag等多项基准测试中表现卓越，展现了强大的通用能力和数学推理水平。项目公开了详细的训练代码、超参数配置和提示词模板，为开源AI社区提供了宝贵的技术参考。

SimPO是一个无需参考模型的简化偏好优化算法，表现优于AlpacaEval 2、MT-Bench和Arena-Hard等多个基准。2024年7月更新发布的SimPO模型通过微调Google的gemma-2 9B模型，达成了72.4% AlapcaEval 2 LC胜率和59.1% Arena-Hard胜率。更多详情、训练脚本和数据生成脚本请访问SimPO的GitHub仓库。

Bagel是一个综合性大语言模型训练框架，融合多种数据源和先进技术。该项目利用多样化数据集进行监督微调(SFT)和直接偏好优化(DPO)，包括指令、对话和纯文本数据。Bagel采用vicuna、llama-2、alpaca和chat-ml等多种提示格式，旨在提升模型泛化能力。通过SFT和DPO两阶段训练，Bagel致力于打造功能完善、性能优异的语言模型。

direct-preference-optimization

DPO(Direct Preference Optimization)是一种语言模型训练算法,通过偏好数据优化模型。该项目提供DPO算法的参考实现,包含监督微调和基于偏好学习两个阶段。支持各种因果HuggingFace模型,可添加自定义数据集,并包括'conservative' DPO和IPO等变体。这为研究人员提供了灵活工具,用于从偏好数据训练语言模型。

MINI_LLM项目展示了完整的中文大语言模型训练流程，涵盖预训练、SFT指令微调和DPO优化阶段。该项目基于QWEN模型，利用多种数据集训练出1.4B参数规模的模型。项目详细介绍了数据处理方法、提供训练脚本，并包含多GPU训练指南，为中文大语言模型开发提供了实用参考。

相关文章

Article Cover

RLHF优化:大语言模型对齐的关键技术

Article Cover

SimPO:一种简单而高效的无参考奖励偏好优化方法

Article Cover

Bagel: 从面包圈到AI模型的美味蜕变

Article Cover

探索百吉饼的魅力：从历史到制作的美味之旅

Article Cover

Sakura-SOLAR-DPO: 融合、微调和优化的开源大语言模型

Article Cover

LLM-RLHF-Tuning入门指南 - 基于人类反馈的大语言模型强化学习微调实战

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号