#NetHack

motif - 利用大语言模型偏好生成奖励函数的强化学习框架

MotifAI强化学习NetHack大语言模型Github开源项目

Motif是一个新型强化学习框架,通过大型语言模型的偏好生成奖励函数。它分为数据集注释、奖励函数训练和强化学习三个阶段。在NetHack游戏中,Motif展现出优秀性能,生成符合人类直觉的行为,并可通过提示词灵活调整。这种方法为开发智能AI代理提供了新的研究方向,具有良好的扩展潜力。

NetHack - 开源地牢探索游戏的持续进化

NetHack游戏开发开源项目地牢探险跨平台Github

NetHack 3.7.0是经典地牢探索游戏NetHack的最新开发版本,延续了Rogue和Hack的游戏传统。相比NetHack 3.6,新版本引入了多项架构优化,包括跨平台编译支持和可移植存档文件等。虽处于早期开发阶段可能存在不稳定因素,但开发团队鼓励玩家参与测试并提供反馈,共同推动游戏的持续改进。

相关文章

Article Cover

Motif: 人工智能反馈驱动的内在动机

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号