SeeAct 项目介绍
项目概述
SeeAct是一个创新的系统,专门用于通用网络代理(Web Agent),它能够在任何给定的网站上自动执行任务。项目的核心是大规模多模态模型(LMMs),比如GPT-4V(视觉)。SeeAct由两个主要组成部分构成:
- 强大的代码库:支持Web代理在实时网站上运行。
- 创新框架:利用大规模多模态模型作为通用网络代理。
SeeAct的目标是让Web代理可以像人一样,理解和操作不同类型的网站。
工具与安装
SeeAct 工具
SeeAct工具通过一个名为PlayWright的软件,在浏览器和代理之间搭建接口,自动处理来自浏览器的输入,并将代理的预测行为转换为浏览器事件执行。这意味着你可以使用这个工具进行Web代理演示,并在实时网站上评估其性能。
安装步骤
-
创建一个conda环境并安装相应的依赖:
conda create -n seeact python=3.11 conda activate seeact pip install seeact
-
设置PlayWright并安装浏览器内核:
playwright install
使用方式
一个简单的使用示例展示了如何初始化一个SeeAct代理,并使用OpenAI API来执行一些操作。
import asyncio
import os
from seeact.agent import SeeActAgent
os.environ["OPENAI_API_KEY"] = "Your API KEY Here"
async def run_agent():
agent = SeeActAgent(model="gpt-4-turbo")
await agent.start()
while not agent.complete_flag:
prediction_dict = await agent.predict()
await agent.execute(prediction_dict)
await agent.stop()
if __name__ == "__main__":
asyncio.run(run_agent())
支持的模型
SeeAct目前支持多种模型,包括OpenAI的GPT-4系列以及Google的Gemini等,你只需选择合适的模型并提供API Key即可使用。
数据集
项目还搭建了一个名为Multimodal-Mind2Web的数据集,这是一种多模态版本的数据集。它将每个HTML文档与相应网页的截图图像相结合,方便推理。
安全性和监控
SeeAct仍处于研究和实验阶段,当前版本并不完善。因此,在使用过程中需密切监控代理的行为,并对可能引起的安全风险保持警惕。默认设置下,系统会在每个操作执行前提示用户确认,允许拒绝操作或进行人工干预以确保安全。
免责声明
SeeAct的代码是为研究目的而发布的,旨在通过语言技术使网络更易于访问。项目作者强烈反对任何潜在的有害数据或技术的使用。
联系信息
如有疑问或者问题,可以联系项目团队成员,邮件联系方式如下:
- Boyuan Zheng: zheng.2372@osu.edu
- Boyu Gou: gou.43@osu.edu
- Huan Sun: sun.397@osu.edu
- Yu Su: su.809@osu.edu
项目致力于通过不断完善网络代理的功能,使其更加智能化和人性化,为未来各种应用奠定基础。