热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#多模态代理
visualwebarena - 真实视觉网络任务评估多模态智能体表现的基准平台
VisualWebArena
多模态代理
视觉网页任务
AI评估
GPT-4V
Github
开源项目
VisualWebArena是一个评估多模态自主语言智能体的真实基准平台。它包含多种基于网络的复杂视觉任务,全面评估智能体的各项能力。该项目基于WebArena的可复现评估方法,提供端到端训练和环境重置功能,支持在任意网页上测试多模态智能体。项目还公开了GPT-4V + SoM智能体在910个任务中的表现数据,方便研究人员进行分析和评估。
1
1
相关文章
VisualWebArena:评估多模态代理在真实视觉网页任务中的表现
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号