#VisualWebArena
search-agents - 树搜索算法助力语言模型智能体优化网页交互决策
Tree Search语言模型AI代理网页环境VisualWebArenaGithub开源项目
这个开源项目开发了一种创新的树搜索算法,提升了语言模型智能体在网页环境中的探索和规划能力。该方法在VisualWebArena和WebArena基准测试中得到验证,支持GPT-4和Llama-3等多种模型。项目提供完整文档,包括安装指南、评估流程和基线复现方法,为研究人员和开发者提供了实用工具。
visualwebarena - 真实视觉网络任务评估多模态智能体表现的基准平台
VisualWebArena多模态代理视觉网页任务AI评估GPT-4VGithub开源项目
VisualWebArena是一个评估多模态自主语言智能体的真实基准平台。它包含多种基于网络的复杂视觉任务,全面评估智能体的各项能力。该项目基于WebArena的可复现评估方法,提供端到端训练和环境重置功能,支持在任意网页上测试多模态智能体。项目还公开了GPT-4V + SoM智能体在910个任务中的表现数据,方便研究人员进行分析和评估。