#ScreenAgent

ScreenAgent: 视觉语言模型驱动的计算机控制代理

3 个月前

ScreenAgent VLM Agent IJCAI 2024 自动控制数据集 Github 开源项目

3 个月前

相关项目

ScreenAgent

ScreenAgent项目创建了一个由视觉语言模型驱动的电脑控制环境，允许代理通过截图与真实屏幕互动并操作GUI。自动控制流程分为规划、执行和反思三个阶段，使代理能够完成多步骤任务。项目包含丰富的截图和操作序列数据集，支持包括GPT-4V、LLaVA-1.5、CogAgent和ScreenAgent在内的多种模型，并提供简化体验的网页版客户端。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com