#RLHF

PaLM-rlhf-pytorch - 结合PaLM架构的RLHF创新实现
人工智能Github开源项目强化学习RLHFPaLM人类反馈
本项目实现了基于PaLM架构的强化学习与人类反馈(RLHF),适用于开放环境下的ChatGPT复现。结合了LoRA微调和Flash Attention技术,提供详细的安装和使用指南。加入社区,探索最新的PPO和RL技术进展。
chatbot - 可用自定义语料训练的中文聊天机器人
Github开源项目GPT模型chatbotMindSporeRLHFSeq2Seq
该项目提供一个可用自定义语料训练的中文聊天机器人,并即将推出GPT版本,新增MindSpore支持。项目包含Seq2Seq和GPT两大分支,计划于2024年内实现类似mini-GPT4的图文多模态对话功能,并增强分布式集群训练能力。用户可下载小黄鸡语料进行实践,项目支持TensorFlow和PyTorch。
RLHF-Reward-Modeling - 训练 RLHF 奖励模型的配方
Github开源项目RLHFArmoRMRewardBenchBradley-Terry Reward Modelpair-preference model
该项目专注于通过顺序拒绝采样微调和迭代DPO方法进行奖励和偏好模型训练,提供包括ArmoRM、Pair Preference Model和Bradley-Terry Reward Model在内的多种开源模型,并在RewardBench排行榜中表现显著。项目内容涵盖奖励建模、模型架构、数据集准备和评估结果,适用于基于DRL的RLHF及多项学术研究。
pykoi-rlhf-finetuned-transformers - 利用RLHF优化大型语言模型的Python库
Github开源项目RLHFRAG开源库模型比较pykoi
pykoi是一个开源的Python库,利用RLHF优化大型语言模型(LLM)。它提供统一界面,包含RLHF/RLAIF数据和反馈收集、强化学习微调及模型比较等功能,支持用户存储聊天记录并进行性能对比。此外,pykoi还支持快速实现上下文感知对话生成,并确保数据隐私和安全,适用于CPU和GPU等多种计算资源。
LLM-RLHF-Tuning - RLHF三阶段训练支持指令微调、奖励模型和多种训练方式
Github开源项目LLaMARLHFLLaMA2PPODPO
本项目实现了RLHF的三阶段训练,包括指令微调、奖励模型训练和PPO算法训练。支持LLaMA和LLaMA2模型,并提供多种分布式加速训练方法。项目附有详细的实现文档,并对比了其他开源框架的功能,是RLHF训练的宝贵资源。
Vicuna-LoRA-RLHF-PyTorch - Vicuna模型LoRA与RLHF的完整优化流程
Github开源项目PyTorchVicunaRLHFLoRAVicuna-LoRA-RLHF-PyTorch
本文详述如何在普通硬件上优化Vicuna语言模型,包括环境配置、监督微调、合并PEFT适配器、训练奖励模型和PPO微调等步骤,适合中文技术人员使用。
awesome-llm-human-preference-datasets - 开放源码的人类偏好数据集,用于LLM的指令调整与评估
Github开源项目OpenAIRLHFAnthropicHuman PreferenceStanford Human Preferences Dataset
本页面汇总了多个人类偏好开源数据集,适用于LLM的指令调整、强化学习和评估。涵盖的数据集包括OpenAI WebGPT Comparisons、OpenAI Summarization和Anthropic HH-RLHF等。数据集中包含的问题、模型回答和人类评价数据,旨在为语言模型的开发和改进提供资源。覆盖文本摘要、对话、人类偏好比较等领域,为LLM研究和应用提供全面支持。
open-chatgpt - 通过最少计算资源训练个性化的ChatGPT模型开源库
Github开源项目ChatGPTDeepSpeedRLHFStanford AlpacaOpen-ChatGPT
Open-ChatGPT是一个开源库,能够使用个人数据和最少的计算资源训练个性化的ChatGPT模型。该库提供端到端训练框架,支持分布式训练和卸载,适用于使用DeepSpeed和RLHF技术训练的模型。项目还包括Stanford Alpaca Lora的最新实现,并提供丰富的公开指令调整和RLHF数据集,便于开发者和研究人员使用。
awesome-RLHF - 人类反馈下的强化学习文献合集
大型语言模型Github开源项目RLHFReinforcement Learning人类反馈奖励模型
此页面汇集了关于强化学习与人类反馈(RLHF)的最新研究论文,涵盖从基础概念到高级技术,包括大语言模型、视频游戏、机器人和个性化推荐系统等应用。页面将持续更新,跟踪此领域的前沿进展。
awesome-instruction-dataset - 开源的多任务多语言指令微调数据集
Github开源项目ChatGPTLLMs数据集AlpacaRLHF
该项目收录了一系列开源指令微调数据集,用以训练基于聊天的LLM(如GPT-4、ChatGPT、LLaMA、Alpaca)。数据集包括视觉指令微调、文本指令微调和人类反馈增强学习(RLHF)数据集。项目提供了详尽的数据集列表,方便研究人员和开发人员使用这些资源。支持多任务和多语言,覆盖英语、中文等多种语言数据,数据集来源多样,包括人类生成、自我指令生成以及混合数据集,适合多种LLM训练需要。
ChatGLM-Efficient-Tuning - 微调ChatGLM-6B模型,支持多种训练和量化方法
Github开源项目机器学习数据集RLHFChatGLM高效微调
ChatGLM-Efficient-Tuning项目提供高效微调ChatGLM-6B模型的工具和方法,支持LoRA、P-Tuning V2等多种微调方式,适用于单GPU和多GPU训练。项目还提供Web UI和CLI操作,支持4-bit和8-bit量化训练。通过丰富的数据集和功能,如强化学习和模型评估,满足不同场景的微调需求。详情请参见项目Wiki。
Surge AI - 全球顶尖AI数据标注与RLHF平台
人工智能语言模型AI工具数据标注RLHFSurge AI
Surge AI提供全球化数据标注服务,为AI和大型语言模型训练提供高质量数据。支持RLHF、内容审核、搜索评估等多种场景,覆盖40多种语言。通过现代化API和工具,帮助企业高效获取人工数据,加速AI开发与评估。全球顶级AI公司的首选合作伙伴。
llms_tool - 多功能大语言模型训练测试工具包
Github开源项目分布式训练大语言模型预训练HuggingFaceRLHF
llms_tool是一个基于HuggingFace的大语言模型工具包,支持多种模型的训练、测试和部署。它提供预训练、指令微调、奖励模型训练和RLHF等功能,支持全参数和低参数量训练。工具包集成WebUI和终端预测界面,以及DeepSpeed分布式训练。涵盖ChatGLM、LLaMA、Bloom等主流模型,提供多种训练方法和量化选项。
Athene-70B - 高性能RLHF优化的开放源代码聊天模型
Github开源项目模型RLHFHuggingface聊天模型AtheneNexusflowLlama3-Athene-70B
Athene-70B是以Llama-3-70B-Instruct为基础,通过RLHF优化的开源语言模型,在Arena-Hard-Auto评估中表现优异。Nexusflow团队开发了这一高效聊天模型,适合用于复杂对话系统。
LLaMA3-iterative-DPO-final - 高效集成在线RLHF技术的指令模型
人工智能Github开源项目开源模型模型RLHFHuggingface训练方法LLaMA3-iterative-DPO-final
LLaMA3-iterative-DPO-final是在线RLHF技术的非官方模型,在Alpaca-Eval-V2等基准测试中表现突出,超越众多模型。模型基于开源数据集训练,无需人工标签,包含详尽的复现指南,适用于学术研究和实际应用。
Hermes-2-Theta-Llama-3-8B-GGUF - 结合先进AI技术的对话与功能调用模型
Github开源项目模型RLHFHuggingface函数调用结构化输出合并模型Hermes 2
Hermes-2-Theta-Llama-3-8B是通过RLHF优化的模型,结合了超级智能AI和Llama-3的优势,可实现对话和结构化数据的生成。其支持多轮对话与功能调用的ChatML格式,为用户提供灵活的交互模式,适用于多种使用场景。其功能强大且接口设计直观,在语义理解和信息整合方面表现出色,适合需要综合AI能力的专业应用。
FsfairX-LLaMA3-RM-v0.1 - 基于LLaMA-3的开源奖励函数,支持多种RLHF方案的高性能实现
人工智能Github开源项目模型训练模型RLHFHuggingfaceLLaMA3奖励建模
FsfairX-LLaMA3-RM-v0.1是一个基于LLaMA-3开发的强化学习奖励模型。该模型在Reward-Bench测试中取得了Chat 99.44分、Safety 88.76分等优秀成绩,支持PPO等多种人类反馈学习方法。项目提供完整的训练代码和使用示例,有助于开发更安全的AI应用。
prometheus-8x7b-v2.0 - 基于Mistral的开源评估型语言模型
Github开源项目机器学习语言模型模型RLHFHuggingface人工智能评估Prometheus 2
Prometheus-8x7b-v2.0是一个基于Mistral-Instruct构建的开源评估型语言模型,通过30万条标注数据训练而成。该模型支持绝对评分和相对排名两种方式,可对其他语言模型进行细粒度评估,是GPT-4评估功能的开源替代方案。模型提供完整的使用文档,适用于语言模型性能比较和评估研究。
reward-model-deberta-v3-large-v2 - 人类反馈训练奖励模型 提升问答评估和强化学习效果
人工智能Github开源项目语言模型模型RLHFDeBERTaHuggingface奖励模型
这个开源项目开发了一种基于人类反馈的奖励模型(RM),能够评估给定问题的答案质量。该模型在多个数据集上进行训练,可应用于问答系统评估、强化学习人类反馈(RLHF)奖励计算,以及有害内容检测等场景。项目提供了详细的使用说明、性能对比和代码示例。其中,DeBERTa-v3-large-v2版本在多项基准测试中展现出优异性能。
Llama-3-8b-sft-mixture - 基于多样化高质量数据集训练的大语言模型微调检查点
人工智能Github开源项目机器学习语言模型模型RLHFHuggingfaceLLaMA3-SFT
Llama-3-8b-sft-mixture是基于Meta-Llama-3-8B模型训练的SFT检查点,通过对ShareGPT、Evol-Instruct等九个高质量数据集进行混合训练而成。该模型经过1个epoch的训练,尚未经过RLHF,可作为RLHF研究的理想起点。模型适用于强化学习研究,详细参数可参考相关技术报告。
LLaMA3-SFT - 研究奖励建模与在线RLHF应用
Github开源项目模型在线学习transformersRLHF高质量数据Huggingface元语言模型
LLaMA3-SFT项目提供了在Meta-Llama-3-8B模型基础上开发的SFT检查点,利用多样化高质量开源数据训练而成,尚未经过RLHF训练,是进行RLHF研究的良好起点。