#奖励设计

Eureka：通过编码大型语言模型实现人类水平的奖励设计

2024年09月05日

2024年09月05日

相关项目

Eureka

Eureka是一种基于大型语言模型的人类级奖励设计算法，利用GPT-4等先进LLM进行奖励代码的进化优化。在29个开源强化学习环境中，Eureka在83%的任务上超越人类专家，平均提升52%。该算法还实现了无梯度人类反馈强化学习方法，并首次展示了能以人类速度旋转笔的五指Shadow Hand仿真。

投诉举报邮箱: service@vectorlightyear.com