热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#VLM Agent
ScreenAgent - 由视觉语言大模型驱动的电脑控制工具
ScreenAgent
VLM Agent
IJCAI 2024
自动控制
数据集
Github
开源项目
ScreenAgent项目创建了一个由视觉语言模型驱动的电脑控制环境,允许代理通过截图与真实屏幕互动并操作GUI。自动控制流程分为规划、执行和反思三个阶段,使代理能够完成多步骤任务。项目包含丰富的截图和操作序列数据集,支持包括GPT-4V、LLaVA-1.5、CogAgent和ScreenAgent在内的多种模型,并提供简化体验的网页版客户端。
1
1
相关文章
ScreenAgent: 视觉语言模型驱动的计算机控制代理
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号