#奖励模型

基于人类反馈的强化学习(RLHF): 从概念到实践的全面解析

2024年09月04日

RLHF Reinforcement Learning 人类反馈大型语言模型奖励模型 Github 开源项目

2024年09月04日

ChatGLM-LoRA-RLHF-PyTorch:通过LoRA和RLHF为ChatGLM模型微调的完整流程

2024年08月31日

ChatGLM-LoRA-RLHF-PyTorch 模型微调奖励模型数据处理环境配置 Github 开源项目

2024年08月31日

相关项目

ChatGLM-LoRA-RLHF-PyTorch

该项目详细介绍了如何在消费者硬件上使用LoRA和RLHF微调ChatGLM LLM，包括环境配置、数据处理、监督微调及奖励模型的训练等步骤，帮助开发者轻松实现模型优化。

awesome-RLHF

此页面汇集了关于强化学习与人类反馈（RLHF）的最新研究论文，涵盖从基础概念到高级技术，包括大语言模型、视频游戏、机器人和个性化推荐系统等应用。页面将持续更新，跟踪此领域的前沿进展。

URM-LLaMa-3.1-8B

URM-LLaMa-3.1-8B是一款开源的不确定性感知奖励模型，通过属性回归和门控层学习两阶段训练，实现对AI回答的多维度质量评估。模型集成了不确定性感知价值头设计，可从有用性、正确性、连贯性等维度评估输出质量，特别适合处理具有不确定性的问题场景。项目提供完整代码实现，支持LLM响应质量研究。

Llama-3-8b-rm-mixture

Llama-3-8b奖励模型利用OpenRLHF进行训练，结合OpenLLMAI的数据集，旨在提高模型性能。该项目基于Llama-3-8b-sft-mixture模型，使用余弦调度器，学习率为9e-6，预热比例0.03，批量大小256，并执行一次学习迭代。目标是通过优化和数据集策略，提升模型的奖励决策能力，为深度学习与AI开发者提供精确的工具。

reward-model-deberta-v3-large-v2

这个开源项目开发了一种基于人类反馈的奖励模型(RM)，能够评估给定问题的答案质量。该模型在多个数据集上进行训练，可应用于问答系统评估、强化学习人类反馈(RLHF)奖励计算，以及有害内容检测等场景。项目提供了详细的使用说明、性能对比和代码示例。其中，DeBERTa-v3-large-v2版本在多项基准测试中展现出优异性能。

Starling-LM-7B-beta

Starling-LM-7B-beta是一款基于AI反馈优化并从Openchat-3.5-0106微调的大型语言模型。通过升级后的奖励模型和策略优化，增强了语言生成质量和安全性，并在GPT-4评测中取得了8.12的高分。适用于多种对话场景，用户可在LMSYS Chatbot Arena免费测试，非常适合关注交互体验的开发者和研究人员。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com