相关项目
motif
Motif是一个新型强化学习框架,通过大型语言模型的偏好生成奖励函数。它分为数据集注释、奖励函数训练和强化学习三个阶段。在NetHack游戏中,Motif展现出优秀性能,生成符合人类直觉的行为,并可通过提示词灵活调整。这种方法为开发智能AI代理提供了新的研究方向,具有良好的扩展潜力。
NetHack
NetHack 3.7.0是经典地牢探索游戏NetHack的最新开发版本,延续了Rogue和Hack的游戏传统。相比NetHack 3.6,新版本引入了多项架构优化,包括跨平台编译支持和可移植存档文件等。虽处于早期开发阶段可能存在不稳定因素,但开发团队鼓励玩家参与测试并提供反馈,共同推动游戏的持续改进。