项目介绍:Cradle
Cradle 项目致力于赋能基础模型,使其能够通过人类使用的统一接口执行复杂的计算机任务。这意味着它使用屏幕截图作为输入,然后通过键盘和鼠标进行操作输出。这个框架的开发,目的是让智能代理能够轻松执行电脑上各类软件和游戏所需的操作。
最新更新
在2024年6月27日,Cradle 项目进行了重大更新。它现已扩展支持多款游戏,包括《荒野大镖客2》(RDR2)、《星露谷物语》(Stardew Valley)、《城市:天际线》(Cities: Skylines)和《Dealer's Life 2》。此外,Cradle 还兼容多种软件,如 Chrome 浏览器、Outlook 邮件客户端、Capcut 视频编辑器、美图和飞书等。
使用方法
环境准备
要开始使用 Cradle,用户需要创建一个 .env
文件,用于存储访问 OpenAI 和 Claude API 的密钥。这些密钥的获取可以通过访问各自的官网或服务门户进行。
设置流程
- 克隆 Cradle 项目的 GitHub 存储库,并进入项目目录。
- 创建一个新的 Conda 环境并安装相应的 Python 依赖项。
- 安装光学字符识别(OCR)工具,通过下载及安装相应的 spaCy 模型。
运行项目
由于各个游戏和软件的差异,Cradle 为每个支持的环境提供了具体的设置指南。例如,《荒野大镖客2》的设置指南包括如何暂停游戏来等待 AI 的响应,以及如何恢复游戏等。
文件结构
Cradle 的项目结构设计非常清晰,方便用户对新游戏进行适配。核心目录主要包括缓存、配置文件、依赖项和资源等。其中,配置文件下的 .json
文件用于游戏环境和 LLM 模型的设定。
向新游戏迁移
尽管每个游戏的设置和兼容操作系统不同,但 Cradle 框架仍然可以实现对新游戏的统一适配。适配新游戏涉及到配置相应的模块,例如:如果新游戏类似于无需实时暂停的《城市:天际线》,推荐遵循该游戏的实现路径。
引用
如果 Cradle 项目对您的研究或开发有帮助,请参考以下文献进行引用:
@article{tan2024cradle,
title={Cradle: Empowering Foundation Agents towards General Computer Control},
author={Weihao Tan et al.},
journal={arXiv preprint arXiv:2403.03186},
year={2024}
}
通过这种方式,Cradle 提供了一个强大的平台,使研究人员和开发者能够更方便地将 AI 技术应用于复杂的计算机任务,推动智能代理在多个领域的多样化应用。