AutoNode 项目介绍
什么是AutoNode?
AutoNode是一个自运行的计算机系统,用于自动化网页交互和数据提取过程。它利用了诸如光学字符识别(OCR)、YOLO(You Only Look Once)目标检测模型以及自定义网站图谱等高级技术,以编程方式导航和与网页进行交互。
安装指南
要开始使用AutoNode,用户需要在系统中安装Python。以下是安装步骤:
-
打开终端并克隆SuperAGI代码仓库:
git clone https://github.com/TransformerOptimus/AutoNode.git
-
使用以下命令导航到克隆的仓库目录根目录:
cd AutoNode
-
创建
.env.example
的副本,并将其命名为.env
。对autonode、yolo、ocr三个模块重复此步骤。 -
确保系统已安装Docker。可以从这里下载并安装。
-
在启动Docker Desktop后,运行以下命令以构建和启动AutoNode服务:
docker compose -f docker-compose.yaml up --build
-
打开浏览器,访问
http://localhost:8001/health
以检查服务器是否正在运行。
如何使用AutoNode
AutoNode基于一个网站图谱来定义网站上的导航和操作。以下是使用AutoNode的基本概述:
-
定义目标:明确想要通过AutoNode达到的目标,例如数据提取或特定网页交互的自动化。
-
准备AutoNode网站图谱:创建一个JSON文件来表示网站图谱。此图谱概述了AutoNode将导航和交互的节点(网页元素)和边(操作)。
-
准备AutoNode启动器计划提示:使用提供的OpenAI提示结构模板,用户可以在prompts目录中创建一个新的提示文件。
-
运行AutoNode:
通过API使用AutoNode
AutoNode可以通过API进行控制和使用,用户可以编程化地自动化网页交互和数据提取任务。用户可以访问API文档来获取所有可用的API端点的详细信息。例如,可以通过向
/api/autonode/initiate
端点发送请求来自动化某些任务。
YOLO/OCR模型
AutoNode利用YOLO模型进行对象检测,并使用OCR识别网页上的文本。这些模型对于识别可点击的元素、从图片中读取文本以及动态与网页交互至关重要。
如何训练自己的YOLO模型
-
收集数据集:收集包含要检测的网页元素的图片并用边界框标记它们。
-
准备数据集:将数据集分为训练集和验证集。
-
训练模型:使用YOLO训练脚本在准备好的数据集上训练模型,根据需要调整训练参数。
-
评估模型:在单独的测试集上测试训练好的模型以评估其性能。
-
与AutoNode集成:一旦训练完成,通过在配置中指定模型路径,将自定义YOLO模式集成到AutoNode中。
AutoNode网站图谱准备
网站图谱是一个JSON文件,描述了AutoNode针对网站的结构和导航流程。以下是准备步骤:
-
识别网页元素:浏览目标网站,识别想要交互的关键元素如按钮、文本框和链接。
-
定义节点:为每一个网页元素在JSON文件中定义一个节点,包括属性如节点名称、可操作元素类型、位置和类型等。
-
定义边:使用
adjacent_to
和adjacent_from
属性指定节点之间的关系,以表示导航流程。 -
包括操作细节:对于需要输入或点击的节点,提供附加细节如操作描述或点击操作。
存储调试截图和下载的输出
在每个节点检测到网页元素时的截图存储在请求目录中。用户可以选择将它们存储在AWS S3账户中、或者本地持久化保存、或不保存。
希望这能帮助你更好地了解AutoNode项目!