Logo

#DPO

LLM-RLHF-Tuning入门指南 - 基于人类反馈的大语言模型强化学习微调实战

1 个月前
Cover of LLM-RLHF-Tuning入门指南 - 基于人类反馈的大语言模型强化学习微调实战

探索百吉饼的魅力:从历史到制作的美味之旅

2 个月前
Cover of 探索百吉饼的魅力:从历史到制作的美味之旅

SimPO:一种简单而高效的无参考奖励偏好优化方法

2 个月前
Cover of SimPO:一种简单而高效的无参考奖励偏好优化方法

Sakura-SOLAR-DPO: 融合、微调和优化的开源大语言模型

2 个月前
Cover of Sakura-SOLAR-DPO: 融合、微调和优化的开源大语言模型

Bagel: 从面包圈到AI模型的美味蜕变

2 个月前
Cover of Bagel: 从面包圈到AI模型的美味蜕变

RLHF优化:大语言模型对齐的关键技术

2 个月前
Cover of RLHF优化:大语言模型对齐的关键技术

相关项目

Project Cover
LLM-RLHF-Tuning
本项目实现了RLHF的三阶段训练,包括指令微调、奖励模型训练和PPO算法训练。支持LLaMA和LLaMA2模型,并提供多种分布式加速训练方法。项目附有详细的实现文档,并对比了其他开源框架的功能,是RLHF训练的宝贵资源。
Project Cover
SimPO
SimPO是一个无需参考模型的简化偏好优化算法,表现优于AlpacaEval 2、MT-Bench和Arena-Hard等多个基准。2024年7月更新发布的SimPO模型通过微调Google的gemma-2 9B模型,达成了72.4% AlapcaEval 2 LC胜率和59.1% Arena-Hard胜率。更多详情、训练脚本和数据生成脚本请访问SimPO的GitHub仓库。
Project Cover
direct-preference-optimization
DPO(Direct Preference Optimization)是一种语言模型训练算法,通过偏好数据优化模型。该项目提供DPO算法的参考实现,包含监督微调和基于偏好学习两个阶段。支持各种因果HuggingFace模型,可添加自定义数据集,并包括'conservative' DPO和IPO等变体。这为研究人员提供了灵活工具,用于从偏好数据训练语言模型。
Project Cover
MINI_LLM
MINI_LLM项目展示了完整的中文大语言模型训练流程,涵盖预训练、SFT指令微调和DPO优化阶段。该项目基于QWEN模型,利用多种数据集训练出1.4B参数规模的模型。项目详细介绍了数据处理方法、提供训练脚本,并包含多GPU训练指南,为中文大语言模型开发提供了实用参考。
Project Cover
Sakura-SOLAR-DPO
Sakura-SOLAR-DPO项目通过模型融合和DPO训练技术,使SOLAR模型在开源大语言模型排行榜上跃居首位。该项目在ARC、HellaSwag等多项基准测试中表现卓越,展现了强大的通用能力和数学推理水平。项目公开了详细的训练代码、超参数配置和提示词模板,为开源AI社区提供了宝贵的技术参考。
Project Cover
bagel
Bagel是一个综合性大语言模型训练框架,融合多种数据源和先进技术。该项目利用多样化数据集进行监督微调(SFT)和直接偏好优化(DPO),包括指令、对话和纯文本数据。Bagel采用vicuna、llama-2、alpaca和chat-ml等多种提示格式,旨在提升模型泛化能力。通过SFT和DPO两阶段训练,Bagel致力于打造功能完善、性能优异的语言模型。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号