#人类反馈

RLHF-V: 通过细粒度纠正性人类反馈对齐多模态大语言模型行为

2024年09月05日
Cover of RLHF-V: 通过细粒度纠正性人类反馈对齐多模态大语言模型行为

HH-RLHF项目:通过人类反馈强化学习训练有帮助且无害的AI助手

2024年09月05日
Cover of HH-RLHF项目:通过人类反馈强化学习训练有帮助且无害的AI助手

基于人类反馈的强化学习(RLHF): 从概念到实践的全面解析

2024年09月04日
Cover of 基于人类反馈的强化学习(RLHF): 从概念到实践的全面解析

PaLM-rlhf-pytorch:基于PaLM架构实现的RLHF模型

2024年08月30日
Cover of PaLM-rlhf-pytorch:基于PaLM架构实现的RLHF模型