#反馈对齐

Chain of Hindsight: 一种革命性的语言模型反馈学习方法

3 个月前
Cover of Chain of Hindsight: 一种革命性的语言模型反馈学习方法

Chain of Hindsight: 一种可扩展的RLHF方法

3 个月前
Cover of Chain of Hindsight: 一种可扩展的RLHF方法