在人工智能和自然语言处理领域,能够在网络上自主规划、推理和执行操作的智能代理正在成为自动化计算机任务的一个极具前景的方向。然而,现有的大多数基准测试主要聚焦于基于文本的代理,忽视了许多需要视觉信息才能有效解决的自然任务。鉴于大多数计算机界面都是为人类感知而设计的,视觉信息往往以文本模型难以有效利用的方式增强了文本数据。为了弥补这一差距,研究人员推出了VisualWebArena,这是一个旨在评估多模态网络代理在真实视觉任务中表现的基准测试平台。
VisualWebArena由一系列多样化且复杂的基于网络的任务组成,旨在全面评估自主多模态代理的各种能力。要在这个基准测试中取得优异成绩,代理需要准确处理图像-文本输入、解释自然语言指令,并在网站上执行操作以完成用户定义的目标。这种综合性的评估方法为构建更强大的网络自主代理提供了宝贵的见解。
VisualWebArena采用了执行式评估范式,通过运行基于执行的测试来全面评估代理在开放式视觉任务中轨迹的正确性。这种方法不仅考察了代理的输出结果,还关注其整个决策和执行过程,从而提供了更加全面和深入的性能评估。
评估任务涵盖了多个网站环境,包括分类广告、购物和Reddit等平台。每个任务都经过精心设计,要求代理能够准确理解视觉和文本信息,并在此基础上执行复杂的操作序列。例如,在分类广告网站上,代理可能需要根据图片和描述找到特定的商品;在购物网站上,它可能需要比较不同产品的视觉特征并做出购买决策。