Grounding_LLMs_with_online_RL
这个开源项目开发了GLAM方法,通过在线强化学习优化大型语言模型在BabyAI-Text环境中的性能。项目提供了BabyAI-Text环境和实验代码,支持智能体训练和评估。研究者使用Lamorel库实现了PPO、DRRN等多种智能体。代码库包含详细的安装说明、配置文件和运行指南,便于其他研究人员复现和拓展相关研究。