AgentGym
AgentGym是一个框架,通过多种交互环境和统一任务格式,协助科研人员评估和开发具备广泛能力的语言模型智能体。平台支持实时反馈和并发操作,包含14种环境,如网页导航、文字游戏和家务任务。核心组成包括高质量的轨迹集AgentTraj和基准测试套件AgentEval,并提出了智能体自我进化方法AgentEvol。实验结果显示,进化后的智能体可与当前最先进的模型媲美。