LaVague:为构建者准备的网页代理框架
LaVague是一个开源框架,专为希望为其终端用户创建AI网页代理来自动化流程的开发人员设计。
我们的网页代理可以接收一个目标,例如“打印Hugging Face的Diffusers库的安装步骤”,并生成并执行为实现目标所需的操作。
LaVague代理由以下部分组成:
- 一个世界模型,该模型接收一个目标和当前状态(即当前网页),并输出适当的一组指令。
- 一个动作引擎,它将这些指令“编译”成动作代码,例如Selenium或Playwright,并执行这些代码。
LaVague QA:专为QA工程师提供的工具
🌊 基于LaVague构建
LaVague QA是一个为QA工程师量身定制的工具,利用我们的框架。
它通过将Gherkin规格转换为易于集成的测试,来自动化测试编写。LaVague QA是一个基于LaVague框架的项目,可以使网页测试效率提高10倍。
有关详细信息和设置说明,请访问LaVague QA文档。
🚀 入门指南
演示
以下是LaVague如何采取多个步骤来实现“快速浏览PEFT”的目标的示例:
实践操作
您可以通过以下步骤实现:
- 使用以下命令下载LaVague:
pip install lavague
- 使用我们的框架构建一个网页代理并实现目标:
from lavague.core import WorldModel, ActionEngine
from lavague.core.agents import WebAgent
from lavague.drivers.selenium import SeleniumDriver
selenium_driver = SeleniumDriver(headless=False)
world_model = WorldModel()
action_engine = ActionEngine(selenium_driver)
agent = WebAgent(world_model, action_engine)
agent.get("https://huggingface.co/docs")
agent.run("快速浏览PEFT")
# 启动Gradio代理演示
agent.demo("快速浏览PEFT")
有关此示例及如何使用LaVague的更多信息,请参阅我们的快速浏览。
注意,这些示例使用我们的默认OpenAI API配置,您需要在本地环境中设置OPENAI_API_KEY变量并提供有效的API密钥才能使这些示例正常工作。
有关在Google Colab中使用LaVague的端到端示例,请参阅我们的快速浏览笔记本。
关键功能
- ✅ 内置上下文(即配置)
- ✅ 可定制配置
- ✅ 一个用于测试和基准测试LaVague性能的测试运行器
- ✅ 一个用于估算令牌使用量和成本的令牌计数器
- ✅ 日志工具
- ✅ 一个可选的、交互式的Gradio界面
- ✅ 调试工具
- ✅ 一个Chrome扩展
支持的驱动程序
我们支持三种驱动程序选项:
- Selenium Webdriver
- Playwright webdriver
- Chrome扩展驱动程序
请注意,并非所有驱动程序都支持所有代理功能:
功能 | Selenium | Playwright | Chrome扩展 |
---|---|---|---|
无头代理 | ✅ | ⏳ | N/A |
处理ifames | ✅ | ✅ | ❌ |
打开多个标签页 | ✅ | ⏳ | ✅ |
高亮元素 | ✅ | ✅ | ✅ |
✅ 支持
⏳ 即将推出
❌ 不支持
🔎 支持
如果您在使用LaVague时遇到任何问题,您可以:
🙋 贡献
我们非常期待您的帮助与支持,共同构建一个强大而可靠的大型行动模型,用于网页自动化。
为了避免多个人同时在同一任务上工作而导致无法合并您的工作,我们概述了以下贡献流程: