#反馈对齐

chain-of-hindsight - 基于人类反馈优化语言模型的开源框架

Chain of Hindsight语言模型反馈对齐模型训练评估Github开源项目

Chain-of-Hindsight是一个开源项目，提供了基于Jax的语言模型训练框架。该方法通过人类反馈来优化模型性能，支持LLaMA和GPT-J等大型模型。项目包括数据准备、模型训练和评估的完整流程，其反馈处理机制有助于模型在对话和摘要等任务中提升表现。最新更新改进了大模型分片和数据并行处理，为自然语言处理研究提供了实用工具。

相关文章

Article Cover

Chain of Hindsight: 一种可扩展的RLHF方法

Article Cover

Chain of Hindsight: 一种革命性的语言模型反馈学习方法

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号