Skyvern - 自动化浏览器工作流的革命性工具
Skyvern 是一个创新的项目,旨在利用大型语言模型(LLM)和计算机视觉技术来自动化基于浏览器的工作流程。这个强大的工具提供了一个简单的 API 端点,可以在大量网站上完全自动化手动工作流程,取代了脆弱或不可靠的自动化解决方案。
工作原理
传统的浏览器自动化方法需要为网站编写自定义脚本,通常依赖于 DOM 解析和基于 XPath 的交互,这些方法在网站布局发生变化时很容易失效。Skyvern 采用了一种不同的方法:
- 它不仅依赖于预定义的代码交互,还使用提示、计算机视觉和 LLM 来实时解析视口中的项目。
- 系统能够创建交互计划并执行这些交互。
这种方法带来了几个显著的优势:
- Skyvern 可以在从未见过的网站上操作,因为它能够将视觉元素映射到完成工作流所需的操作,而无需任何定制代码。
- Skyvern 对网站布局变化具有抵抗力,因为系统在尝试导航时不会寻找预先确定的 XPath 或其他选择器。
- Skyvern 能够将单个工作流应用于大量网站,因为它能够推理完成工作流所需的交互。
- Skyvern 利用 LLM 来推理交互,确保能够覆盖复杂的情况。
主要功能
Skyvern 提供了多种强大的功能:
-
任务执行:任务是 Skyvern 的基本构建块,每个任务都是对 Skyvern 的单个请求,指示它浏览网站并完成特定目标。
-
工作流支持:工作流允许将多个任务链接在一起,形成一个连贯的工作单元。例如,下载发票、自动购物等复杂操作。
-
实时流媒体:Skyvern 允许将浏览器视口实时流式传输到本地机器,以便用户可以准确看到 Skyvern 在网上的操作。
-
表单填写:Skyvern 能够理解信息并相应地填写表单。
-
数据提取:能够从网站提取数据,并按照指定的模式返回结构化数据。
-
文件下载:能够从网站下载文件并在响应中返回文件链接。
-
认证支持:支持多种身份验证方法,包括密码管理器集成和各种 2FA 方法。
应用场景
Skyvern 在实际应用中展现了巨大的潜力,例如:
- 在多个不同网站上下载发票
- 自动化求职申请流程
- 为制造公司自动化材料采购
- 导航到政府网站以注册账户或填写表格
- 填写各种联系表单
- 从任何语言的保险提供商那里检索保险报价
技术细节
Skyvern 支持多种 LLM 提供商,包括 OpenAI、Anthropic、Azure OpenAI 和 AWS Bedrock。它使用 Docker 进行快速部署,并提供了详细的设置指南供贡献者使用。
未来发展
Skyvern 团队有一个雄心勃勃的路线图,包括改进上下文理解、成本优化、自助服务 UI、工作流 UI 构建器、提示缓存等功能。他们欢迎社区贡献,并鼓励用户提供反馈和建议。
通过这些创新功能和广泛的应用场景,Skyvern 正在重新定义网络自动化的可能性,为企业和个人用户提供了一个强大而灵活的工具来简化他们的在线工作流程。