#反馈对齐

Chain of Hindsight: 一种革命性的语言模型反馈学习方法

3 个月前

Chain of Hindsight 语言模型反馈对齐模型训练评估 Github 开源项目

3 个月前

Chain of Hindsight: 一种可扩展的RLHF方法

3 个月前

Chain of Hindsight 语言模型反馈对齐模型训练评估 Github 开源项目

3 个月前

相关项目

chain-of-hindsight

Chain-of-Hindsight是一个开源项目，提供了基于Jax的语言模型训练框架。该方法通过人类反馈来优化模型性能，支持LLaMA和GPT-J等大型模型。项目包括数据准备、模型训练和评估的完整流程，其反馈处理机制有助于模型在对话和摘要等任务中提升表现。最新更新改进了大模型分片和数据并行处理，为自然语言处理研究提供了实用工具。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com