AppAgent: 智能手机应用的多模态智能体
AppAgent是一个创新的基于大型语言模型(LLM)的多模态智能体框架,专门设计用于操作智能手机应用程序。它通过模仿人类用户的点击和滑动等交互方式,实现了对各种应用的自主操作。
🌟 项目特点
- 使用简化的动作空间模拟人类交互
- 无需后端访问权限,适用范围广
- 通过自主探索或人类演示学习使用新应用
- 生成知识库用于执行复杂任务
📚 学习资源
🚀 快速开始
- 克隆仓库并安装依赖:
git clone https://github.com/mnotgod96/AppAgent
cd AppAgent
pip install -r requirements.txt
-
配置
config.yaml
文件,设置 OpenAI API key 和请求间隔 -
运行
learn.py
进行探索阶段学习 -
运行
run.py
执行部署阶段任务
💡 使用提示
- 允许智能体通过自主探索执行更多任务以扩展功能
- 直接演示更多应用功能来增强文档质量
- 检查并手动修正智能体生成的不准确文档
🔍 最新更新
- 2024.2.8: 新增 qwen-vl-max 作为可选多模态模型
- 2024.1.31: 发布评估基准
- 2024.1.2: 新增网格覆盖功能,支持任意位置点击/滑动
🤝 贡献
欢迎通过 GitHub Issues 报告问题或提出建议。如有任何疑问,也可以联系项目负责人 Dr. Chi Zhang。
AppAgent为智能手机应用操作带来了全新的可能性。无论你是研究人员、开发者还是对AI应用感兴趣的爱好者,都可以从这个项目中获得启发和实践机会。开始探索AppAgent的世界吧!