#人类反馈

RLHF-V: 通过细粒度纠正性人类反馈对齐多模态大语言模型行为

3 个月前
Cover of RLHF-V: 通过细粒度纠正性人类反馈对齐多模态大语言模型行为

HH-RLHF项目:通过人类反馈强化学习训练有帮助且无害的AI助手

3 个月前
Cover of HH-RLHF项目:通过人类反馈强化学习训练有帮助且无害的AI助手

基于人类反馈的强化学习(RLHF): 从概念到实践的全面解析

3 个月前
Cover of 基于人类反馈的强化学习(RLHF): 从概念到实践的全面解析

PaLM-rlhf-pytorch:基于PaLM架构实现的RLHF模型

3 个月前
Cover of PaLM-rlhf-pytorch:基于PaLM架构实现的RLHF模型