AgentBench - 全面评估大型语言模型在多环境下的自主代理能力

AgentBench 项目介绍

AgentBench 是一个专用于评估大型语言模型（LLM）作为自主代理能力的基准测试平台。通过构建一系列不同环境，AgentBench 旨在全面测试 LLM 在各种情境下的自主操作能力。该项目首次提供了一个专门为 LLM-as-Agent 设计的评估工具，帮助研究人员和开发人员了解 LLM 在不同任务中的表现。下面将详细介绍 AgentBench 的背景、功能和使用方法。

背景与目标

AgentBench 的推出旨在填补现有 LLM 评估工具中关于自主代理功能的缺口。它涵盖了 8 个独特的环境，以更全面地评估 LLMs 在各种任务中的表现。这些环境包括：

操作系统（OS）
数据库（DB）
知识图谱（KG）
数字卡牌游戏（DCG）
发散性思维谜题（LTP）

此外，还有 3 个从已发布的数据集中重新编译的任务：

家务管理（HH）- 源自 ALFWorld
在线购物（WS）- 源自 WebShop
网页浏览（WB）- 源自 Mind2Web

版本更新

AgentBench v0.2 是最新版本，结合了用户反馈和新的技术更新，包括：

更新框架架构以便于使用和扩展
调整部分任务设置
添加了更多模型的测试结果
发布了开发和测试集的完整数据

VisualAgentBench

随着 AgentBench 的发展，项目团队还推出了 VisualAgentBench。这是一个专为评估和训练基于大型多模态模型（LMMs）的视觉基础代理而设计的工具。VisualAgentBench 提供了五个不同的环境，以系统地对 17 种 LMMs 进行基准测试。这些环境包括：

实体环境：如 VAB-OmniGibson 和 VAB-Minecraft
图形用户界面环境：如 VAB-Mobile 和 VAB-WebArena-Lite
视觉设计环境：如 VAB-CSS

数据集与排行榜

AgentBench 提供了开发（Dev）和测试（Test）这两个数据集用以进行模型评测。它要求 LLMs 在多回合互动中分别生成约 4000 次和 13000 次内容。所有的测试结果都在排行榜（Leaderboard）上显示，为用户提供选择模型时的参考。

快速开始指南

对新手用户，AgentBench 提供了一个快速开始指导，包括以下几个步骤：

安装先决条件：确保系统上正确安装了 Docker 和所需的 Python 依赖。
配置代理：设置 OpenAI API Key 并尝试启动预配置的代理。
启动任务服务器：自动化脚本帮助启动所需的任务工作程序。
开始任务分配：通过任务分配器正式启动任务。

扩展与引用

AgentBench 的灵活性允许用户添加新的任务环境。用户可以参考项目的扩展指南来进行自定义开发。此外，该项目还提供了相关的学术引用格式，供需要在研究中使用 AgentBench 的学者引用。

通过提供丰富的功能和易于使用的接口，AgentBench 为评估 LLM 的自主代理能力提供了一个全面的解决方案。无论是研究人员还是开发者，都可以利用该平台优化和选型他们的语言模型，以提升模型的实用性和适用性。