SeeAct - 基于多模态GPT模型的网页任务自动化解决方案

SeeAct 项目介绍

项目概述

SeeAct是一个创新的系统，专门用于通用网络代理（Web Agent），它能够在任何给定的网站上自动执行任务。项目的核心是大规模多模态模型（LMMs），比如GPT-4V（视觉）。SeeAct由两个主要组成部分构成：

强大的代码库：支持Web代理在实时网站上运行。
创新框架：利用大规模多模态模型作为通用网络代理。

SeeAct的目标是让Web代理可以像人一样，理解和操作不同类型的网站。

工具与安装

SeeAct 工具

SeeAct工具通过一个名为PlayWright的软件，在浏览器和代理之间搭建接口，自动处理来自浏览器的输入，并将代理的预测行为转换为浏览器事件执行。这意味着你可以使用这个工具进行Web代理演示，并在实时网站上评估其性能。

安装步骤

创建一个conda环境并安装相应的依赖：

conda create -n seeact python=3.11
conda activate seeact
pip install seeact

设置PlayWright并安装浏览器内核：
```
playwright install
```

使用方式

一个简单的使用示例展示了如何初始化一个SeeAct代理，并使用OpenAI API来执行一些操作。

import asyncio
import os
from seeact.agent import SeeActAgent

os.environ["OPENAI_API_KEY"] = "Your API KEY Here"

async def run_agent():
    agent = SeeActAgent(model="gpt-4-turbo")
    await agent.start()
    while not agent.complete_flag:
        prediction_dict = await agent.predict()
        await agent.execute(prediction_dict)
    await agent.stop()

if __name__ == "__main__":
    asyncio.run(run_agent())