热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#反馈对齐
chain-of-hindsight - 基于人类反馈优化语言模型的开源框架
Chain of Hindsight
语言模型
反馈对齐
模型训练
评估
Github
开源项目
Chain-of-Hindsight是一个开源项目,提供了基于Jax的语言模型训练框架。该方法通过人类反馈来优化模型性能,支持LLaMA和GPT-J等大型模型。项目包括数据准备、模型训练和评估的完整流程,其反馈处理机制有助于模型在对话和摘要等任务中提升表现。最新更新改进了大模型分片和数据并行处理,为自然语言处理研究提供了实用工具。
1
1
相关文章
Chain of Hindsight: 一种可扩展的RLHF方法
3 个月前
Chain of Hindsight: 一种革命性的语言模型反馈学习方法
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号